TimedText:Wikidata Editing with OpenRefine - Part 2.webm.ar.srt

1 00:00:00,000 --> 00:00:02,367 مرحبا بكم مرة أخرى في هذا البرنامج التعليمي

2 00:00:02,367 --> 00:00:04,700 حول استخدام OpenRefine لاستيراد البيانات

3 00:00:04,700 --> 00:00:06,400 في ويكي بيانات.

4 00:00:06,400 --> 00:00:08,200 في الفيديو السابق ,

5 00:00:08,200 --> 00:00:10,750 لقد قمنا بمطابقة الأفلام مع عناصر ويكي بيانات

6 00:00:10,750 --> 00:00:13,100 والتحقق من جودة هذه المباريات.

7 00:00:13,100 --> 00:00:15,050 لكل فيلم من هذه الأفلام

8 00:00:15,050 --> 00:00:17,300 نريد إضافة مواقع التصوير

9 00:00:17,300 --> 00:00:19,550 إلى عناصر ويكي بيانات.

10 00:00:19,550 --> 00:00:22,150 وهذا يتطلب التوفيق بين المواقع أيضا.

11 00:00:22,150 --> 00:00:25,107 لذلك دعونا نفعل هذا.

12 00:00:25,107 --> 00:00:27,104 المواقع لدينا في مجموعة البيانات هذه

13 00:00:27,104 --> 00:00:29,726 يتم تقديمها كعناوين الشوارع.

14 00:00:29,726 --> 00:00:31,974 هذه العناوين المحددة غير محتملة

15 00:00:31,974 --> 00:00:33,939 للحصول على عنصر ويكي بيانات مطابق،

16 00:00:33,939 --> 00:00:36,939 لكن الشوارع التي يتواجدون فيها غالبًا ما تحتوي على واحدة.

17 00:00:38,665 --> 00:00:40,608 لذا، سنقوم أولاً بالاستخراج

18 00:00:40,608 --> 00:00:41,871 أسماء الشوارع من العناوين.

19 00:00:41,871 --> 00:00:44,000 نحن نستخدم التعبير العادي

20 00:00:44,000 --> 00:00:47,467 لإزالة أي رقم في بداية السلسلة.

21 00:00:51,504 --> 00:00:54,500 في نافذة المعاينة، نلاحظ ذلك

22 00:00:55,089 --> 00:00:55,400 تعبيرنا العادي لم يلتقط

23 00:00:55,400 --> 00:00:57,800 المساحات الرائدة.

24 00:00:57,800 --> 00:01:00,500 وهذا دليل على أن هذه السلاسل

25 00:01:00,500 --> 00:01:03,050 تحتوي على أحرف مسافات غير قياسية.

26 00:01:03,050 --> 00:01:04,550 من المحتمل أن يسببوا مشاكل

27 00:01:04,550 --> 00:01:07,445 أثناء المصالحة مع ويكي بيانات.

28 00:01:07,445 --> 00:01:08,892 لذلك دعونا فقط ننسخ هذه الشخصيات الغريبة

29 00:01:08,892 --> 00:01:10,700 والتخلص منهم

30 00:01:10,700 --> 00:01:13,967 مع وظيفة الاستبدال الأولى.

31 00:01:15,479 --> 00:01:16,979 الدعوة الأولى للاستبدال

32 00:01:16,979 --> 00:01:18,646 ينظف المسافة البيضاء.

33 00:01:19,302 --> 00:01:22,302 والثاني يزيل أرقام الشوارع.

34 00:01:30,550 --> 00:01:32,538 اختر اسمًا للعمود

35 00:01:32,750 --> 00:01:34,600 وقم بإنشائه.

36 00:01:37,050 --> 00:01:40,464 يمكننا الآن التوفيق بين هذه الشوارع ويكي بيانات.

37 00:01:40,464 --> 00:01:43,531 مرة أخرى، اختر "التسوية" -> "بدء التسوية"

38 00:01:43,548 --> 00:01:45,525 واختر خدمة ويكي بيانات.

39 00:01:48,250 --> 00:01:51,638 في هذه الحالة، يكون نوع "الشارع" ضيقًا جدًا.

40 00:01:52,071 --> 00:01:54,735 بعض المواقع عبارة عن حدائق أو جسور

41 00:01:54,735 --> 00:01:57,735 لذلك نختار يدويًا نوعًا أوسع.

42 00:01:57,936 --> 00:01:59,859 دعونا نرى ما هي المعلومات الأخرى التي يمكننا استخدامها

43 00:01:59,859 --> 00:02:02,200 لتحسين المباريات.

44 00:02:02,200 --> 00:02:04,754 يبدو الرمز البريدي مناسبًا

45 00:02:04,754 --> 00:02:07,300 ولكن لسوء الحظ نادرا ما تكون الرموز البريدية

46 00:02:07,300 --> 00:02:10,300 تمت إضافتها على عناصر الشارع.

47 00:02:10,600 --> 00:02:13,000 يحتوي العمود الأخير على الجغرافيا

48 00:02:13,000 --> 00:02:14,535 إحداثيات المواقع،

49 00:02:14,535 --> 00:02:17,535 يتم التعبير عنها بخط العرض والفاصلة وخط الطول.

50 00:02:18,912 --> 00:02:22,379 يمكننا مطابقة ذلك مع إحداثيات الشوارع.

51 00:02:22,688 --> 00:02:25,218 وكلما كانت هذه النقاط الجغرافية أقرب،

52 00:02:25,218 --> 00:02:28,218 كلما ارتفعت درجة المطابقة.

53 00:02:35,400 --> 00:02:37,949 وبمجرد الانتهاء من المصالحة،

54 00:02:37,949 --> 00:02:39,902 يمكننا فحص المباريات.

55 00:02:39,902 --> 00:02:41,644 في هذه الحالة، يمكننا أن نرى أن هناك شارعين

56 00:02:41,644 --> 00:02:43,034 بنفس الاسم

57 00:02:43,034 --> 00:02:45,073 حصلت على درجات مطابقة مختلفة،

58 00:02:45,073 --> 00:02:48,073 بفضل المطابقة على الإحداثيات.

59 00:02:48,111 --> 00:02:51,111 الأول هو الصحيح.

60 00:02:52,600 --> 00:02:55,209 لم تتم مطابقة هذه الخلية تلقائيًا

61 00:02:55,209 --> 00:02:56,550 لأن الفجوة بين الدرجتين

62 00:02:56,550 --> 00:02:58,300 ليست كبيرة بما فيه الكفاية.

63 00:02:58,300 --> 00:03:00,550 وأظن أن هناك حالات أكثر مثل هذه

64 00:03:00,550 --> 00:03:02,900 لذلك سأقوم فقط بتصفية الخلايا

65 00:03:02,900 --> 00:03:06,100 التي لم تكن متطابقة

66 00:03:06,100 --> 00:03:10,431 ولكن أفضل نتيجة مرشح لها هي عالية جدا.

67 00:03:12,050 --> 00:03:14,500 سأقوم أيضًا بإضافة جانب

68 00:03:14,500 --> 00:03:16,238 الذي يحسب تشابه السلسلة

69 00:03:16,238 --> 00:03:17,819 بين محتوى الخلية

70 00:03:17,819 --> 00:03:20,202 واسم أفضل مباراة

71 00:03:20,202 --> 00:03:23,202 وتقتصر على المطابقات عالية الجودة.

72 00:03:24,500 --> 00:03:26,127 دعونا نراجع هذه الصفوف التي تمت تصفيتها

73 00:03:26,127 --> 00:03:27,860 وأفضل مرشحيهم.

74 00:03:48,209 --> 00:03:50,679 كل هؤلاء المرشحين على حق.

75 00:03:50,679 --> 00:03:52,469 لذا انقر فوق "تسوية" -> "الإجراءات"

76 00:03:52,469 --> 00:03:55,469 -> "مطابقة كل خلية بأفضل مرشح لها"

77 00:03:57,015 --> 00:03:58,931 ومن الواضح أن هذه العملية يجب أن تستخدم بحذر

78 00:03:58,931 --> 00:04:01,931 لأنه يمكن أن يقدم نتائج إيجابية كاذبة.

79 00:04:03,650 --> 00:04:05,200 دعونا الآن التحقق من الجودة

80 00:04:05,200 --> 00:04:07,671 من الخلايا المطابقة.

81 00:04:08,079 --> 00:04:09,582 على سبيل المثال،

82 00:04:09,582 --> 00:04:11,100 يمكننا جلب الموقع الإداري

83 00:04:11,100 --> 00:04:15,669 من هذه الشوارع.

84 00:04:23,676 --> 00:04:24,918 بمجرد جلب هذه المواقع،

85 00:04:24,918 --> 00:04:27,514 يمكننا إنشاء جانب النص في هذا العمود

86 00:04:27,514 --> 00:04:29,168 وفرز الجانب

87 00:04:29,168 --> 00:04:32,168 من خلال تقليل عدد مرات حدوثها.

88 00:04:39,550 --> 00:04:42,100 وهذا يعطينا نظرة عامة واسعة النطاق

89 00:04:42,100 --> 00:04:47,241 من القيم الأكثر شيوعا.

90 00:04:47,241 --> 00:04:47,800 يمكننا مراجعة هذه القائمة.

91 00:04:47,800 --> 00:04:50,050 كل هذه المواقع هي أحياء في باريس،

92 00:04:50,050 --> 00:04:52,947 وهو ما يتوافق مع مجموعة البيانات.

93 00:05:03,250 --> 00:05:06,551 هذه هي نهاية الجزء الثاني من هذا البرنامج التعليمي.

94 00:05:06,551 --> 00:05:08,500 في الفيديو التالي سوف نقوم بذلك

95 00:05:08,500 --> 00:05:10,965 تحويل جدولنا إلى البيانات

96 00:05:10,965 --> 00:05:12,832 وتحميلها على ويكي بيانات.