TimedText:Wikidata Editing with OpenRefine - Part 2.webm.ar.srt
1 00:00:00,000 --> 00:00:02,367 مرحبا بكم مرة أخرى في هذا البرنامج التعليمي
2 00:00:02,367 --> 00:00:04,700 حول استخدام OpenRefine لاستيراد البيانات
3 00:00:04,700 --> 00:00:06,400 في ويكي بيانات.
4 00:00:06,400 --> 00:00:08,200 في الفيديو السابق ,
5 00:00:08,200 --> 00:00:10,750 لقد قمنا بمطابقة الأفلام مع عناصر ويكي بيانات
6 00:00:10,750 --> 00:00:13,100 والتحقق من جودة هذه المباريات.
7 00:00:13,100 --> 00:00:15,050 لكل فيلم من هذه الأفلام
8 00:00:15,050 --> 00:00:17,300 نريد إضافة مواقع التصوير
9 00:00:17,300 --> 00:00:19,550 إلى عناصر ويكي بيانات.
10 00:00:19,550 --> 00:00:22,150 وهذا يتطلب التوفيق بين المواقع أيضا.
11 00:00:22,150 --> 00:00:25,107 لذلك دعونا نفعل هذا.
12 00:00:25,107 --> 00:00:27,104 المواقع لدينا في مجموعة البيانات هذه
13 00:00:27,104 --> 00:00:29,726 يتم تقديمها كعناوين الشوارع.
14 00:00:29,726 --> 00:00:31,974 هذه العناوين المحددة غير محتملة
15 00:00:31,974 --> 00:00:33,939 للحصول على عنصر ويكي بيانات مطابق،
16 00:00:33,939 --> 00:00:36,939 لكن الشوارع التي يتواجدون فيها غالبًا ما تحتوي على واحدة.
17 00:00:38,665 --> 00:00:40,608 لذا، سنقوم أولاً بالاستخراج
18 00:00:40,608 --> 00:00:41,871 أسماء الشوارع من العناوين.
19 00:00:41,871 --> 00:00:44,000 نحن نستخدم التعبير العادي
20 00:00:44,000 --> 00:00:47,467 لإزالة أي رقم في بداية السلسلة.
21 00:00:51,504 --> 00:00:54,500 في نافذة المعاينة، نلاحظ ذلك
22 00:00:55,089 --> 00:00:55,400 تعبيرنا العادي لم يلتقط
23 00:00:55,400 --> 00:00:57,800 المساحات الرائدة.
24 00:00:57,800 --> 00:01:00,500 وهذا دليل على أن هذه السلاسل
25 00:01:00,500 --> 00:01:03,050 تحتوي على أحرف مسافات غير قياسية.
26 00:01:03,050 --> 00:01:04,550 من المحتمل أن يسببوا مشاكل
27 00:01:04,550 --> 00:01:07,445 أثناء المصالحة مع ويكي بيانات.
28 00:01:07,445 --> 00:01:08,892 لذلك دعونا فقط ننسخ هذه الشخصيات الغريبة
29 00:01:08,892 --> 00:01:10,700 والتخلص منهم
30 00:01:10,700 --> 00:01:13,967 مع وظيفة الاستبدال الأولى.
31 00:01:15,479 --> 00:01:16,979 الدعوة الأولى للاستبدال
32 00:01:16,979 --> 00:01:18,646 ينظف المسافة البيضاء.
33 00:01:19,302 --> 00:01:22,302 والثاني يزيل أرقام الشوارع.
34 00:01:30,550 --> 00:01:32,538 اختر اسمًا للعمود
35 00:01:32,750 --> 00:01:34,600 وقم بإنشائه.
36 00:01:37,050 --> 00:01:40,464 يمكننا الآن التوفيق بين هذه الشوارع ويكي بيانات.
37 00:01:40,464 --> 00:01:43,531 مرة أخرى، اختر "التسوية" -> "بدء التسوية"
38 00:01:43,548 --> 00:01:45,525 واختر خدمة ويكي بيانات.
39 00:01:48,250 --> 00:01:51,638 في هذه الحالة، يكون نوع "الشارع" ضيقًا جدًا.
40 00:01:52,071 --> 00:01:54,735 بعض المواقع عبارة عن حدائق أو جسور
41 00:01:54,735 --> 00:01:57,735 لذلك نختار يدويًا نوعًا أوسع.
42 00:01:57,936 --> 00:01:59,859 دعونا نرى ما هي المعلومات الأخرى التي يمكننا استخدامها
43 00:01:59,859 --> 00:02:02,200 لتحسين المباريات.
44 00:02:02,200 --> 00:02:04,754 يبدو الرمز البريدي مناسبًا
45 00:02:04,754 --> 00:02:07,300 ولكن لسوء الحظ نادرا ما تكون الرموز البريدية
46 00:02:07,300 --> 00:02:10,300 تمت إضافتها على عناصر الشارع.
47 00:02:10,600 --> 00:02:13,000 يحتوي العمود الأخير على الجغرافيا
48 00:02:13,000 --> 00:02:14,535 إحداثيات المواقع،
49 00:02:14,535 --> 00:02:17,535 يتم التعبير عنها بخط العرض والفاصلة وخط الطول.
50 00:02:18,912 --> 00:02:22,379 يمكننا مطابقة ذلك مع إحداثيات الشوارع.
51 00:02:22,688 --> 00:02:25,218 وكلما كانت هذه النقاط الجغرافية أقرب،
52 00:02:25,218 --> 00:02:28,218 كلما ارتفعت درجة المطابقة.
53 00:02:35,400 --> 00:02:37,949 وبمجرد الانتهاء من المصالحة،
54 00:02:37,949 --> 00:02:39,902 يمكننا فحص المباريات.
55 00:02:39,902 --> 00:02:41,644 في هذه الحالة، يمكننا أن نرى أن هناك شارعين
56 00:02:41,644 --> 00:02:43,034 بنفس الاسم
57 00:02:43,034 --> 00:02:45,073 حصلت على درجات مطابقة مختلفة،
58 00:02:45,073 --> 00:02:48,073 بفضل المطابقة على الإحداثيات.
59 00:02:48,111 --> 00:02:51,111 الأول هو الصحيح.
60 00:02:52,600 --> 00:02:55,209 لم تتم مطابقة هذه الخلية تلقائيًا
61 00:02:55,209 --> 00:02:56,550 لأن الفجوة بين الدرجتين
62 00:02:56,550 --> 00:02:58,300 ليست كبيرة بما فيه الكفاية.
63 00:02:58,300 --> 00:03:00,550 وأظن أن هناك حالات أكثر مثل هذه
64 00:03:00,550 --> 00:03:02,900 لذلك سأقوم فقط بتصفية الخلايا
65 00:03:02,900 --> 00:03:06,100 التي لم تكن متطابقة
66 00:03:06,100 --> 00:03:10,431 ولكن أفضل نتيجة مرشح لها هي عالية جدا.
67 00:03:12,050 --> 00:03:14,500 سأقوم أيضًا بإضافة جانب
68 00:03:14,500 --> 00:03:16,238 الذي يحسب تشابه السلسلة
69 00:03:16,238 --> 00:03:17,819 بين محتوى الخلية
70 00:03:17,819 --> 00:03:20,202 واسم أفضل مباراة
71 00:03:20,202 --> 00:03:23,202 وتقتصر على المطابقات عالية الجودة.
72 00:03:24,500 --> 00:03:26,127 دعونا نراجع هذه الصفوف التي تمت تصفيتها
73 00:03:26,127 --> 00:03:27,860 وأفضل مرشحيهم.
74 00:03:48,209 --> 00:03:50,679 كل هؤلاء المرشحين على حق.
75 00:03:50,679 --> 00:03:52,469 لذا انقر فوق "تسوية" -> "الإجراءات"
76 00:03:52,469 --> 00:03:55,469 -> "مطابقة كل خلية بأفضل مرشح لها"
77 00:03:57,015 --> 00:03:58,931 ومن الواضح أن هذه العملية يجب أن تستخدم بحذر
78 00:03:58,931 --> 00:04:01,931 لأنه يمكن أن يقدم نتائج إيجابية كاذبة.
79 00:04:03,650 --> 00:04:05,200 دعونا الآن التحقق من الجودة
80 00:04:05,200 --> 00:04:07,671 من الخلايا المطابقة.
81 00:04:08,079 --> 00:04:09,582 على سبيل المثال،
82 00:04:09,582 --> 00:04:11,100 يمكننا جلب الموقع الإداري
83 00:04:11,100 --> 00:04:15,669 من هذه الشوارع.
84 00:04:23,676 --> 00:04:24,918 بمجرد جلب هذه المواقع،
85 00:04:24,918 --> 00:04:27,514 يمكننا إنشاء جانب النص في هذا العمود
86 00:04:27,514 --> 00:04:29,168 وفرز الجانب
87 00:04:29,168 --> 00:04:32,168 من خلال تقليل عدد مرات حدوثها.
88 00:04:39,550 --> 00:04:42,100 وهذا يعطينا نظرة عامة واسعة النطاق
89 00:04:42,100 --> 00:04:47,241 من القيم الأكثر شيوعا.
90 00:04:47,241 --> 00:04:47,800 يمكننا مراجعة هذه القائمة.
91 00:04:47,800 --> 00:04:50,050 كل هذه المواقع هي أحياء في باريس،
92 00:04:50,050 --> 00:04:52,947 وهو ما يتوافق مع مجموعة البيانات.
93 00:05:03,250 --> 00:05:06,551 هذه هي نهاية الجزء الثاني من هذا البرنامج التعليمي.
94 00:05:06,551 --> 00:05:08,500 في الفيديو التالي سوف نقوم بذلك
95 00:05:08,500 --> 00:05:10,965 تحويل جدولنا إلى البيانات
96 00:05:10,965 --> 00:05:12,832 وتحميلها على ويكي بيانات.