TimedText:Wikidata Editing with OpenRefine - Part 2.webm.de.srt
1 00:00:00,000 --> 00:00:02,367 Willkommen zurück bei unserem Tutorial
2 00:00:02,367 --> 00:00:04,700 zur Nutzung von OpenRefine zum Datenimport
3 00:00:04,700 --> 00:00:06,400 in Wikidata.
4 00:00:06,400 --> 00:00:08,200 Im letzten Video
5 00:00:08,200 --> 00:00:10,750 haben wir Filmtitel mit den passenden Wikidataobjekten verknüpft
6 00:00:10,750 --> 00:00:13,100 und die Qualität des Datenabgleichs geprüft.
7 00:00:13,100 --> 00:00:15,050 Für jeden dieser Filme
8 00:00:15,050 --> 00:00:17,300 wollen wir nun die Drehorte
9 00:00:17,300 --> 00:00:19,550 zu den Wikidataobjekten hinzufügen.
10 00:00:19,550 --> 00:00:22,150 Dafür müssen wir die Drehorte ebenfalls abgleichen.
11 00:00:22,150 --> 00:00:25,107 Also los!
12 00:00:25,107 --> 00:00:27,104 Die Drehorte in unserem Datenbestand
13 00:00:27,104 --> 00:00:29,726 sind als Straße mit Hausnummer angegeben.
14 00:00:29,726 --> 00:00:31,974 Diese spezifischen Adressen sind vermutlich nicht
15 00:00:31,974 --> 00:00:33,939 als entsprechendes Wikidataobjekt vorhanden,
16 00:00:33,939 --> 00:00:36,939 aber die Straßen haben oft eins.
17 00:00:38,665 --> 00:00:40,608 Also extrahieren wir jetzt zuerst
18 00:00:40,608 --> 00:00:41,871 die Straßennamen aus den Adressen.
19 00:00:41,871 --> 00:00:44,000 Wir benutzen einen regulären Ausdruck
20 00:00:44,000 --> 00:00:47,467 um am Anfang der Zeichenkette alle Zahlen zu entfernen.
21 00:00:51,504 --> 00:00:54,500 In der Vorschau bemerken wir, dass
22 00:00:55,089 --> 00:00:55,400 der reguläre Ausdruck die Leerzeichen
23 00:00:55,400 --> 00:00:57,800 am Anfang der Adresse nicht mit erfasst hat.
24 00:00:57,800 --> 00:01:00,500 Das ist ein Hinweis darauf, dass diese Zeichenketten
25 00:01:00,500 --> 00:01:03,050 unübliche oder überflüssige Leerzeichen enthält.
26 00:01:03,050 --> 00:01:04,550 Diese können während des Abgleichs mit Wikidata
27 00:01:04,550 --> 00:01:07,445 zu Problemen führen.
28 00:01:07,445 --> 00:01:08,892 Also kopieren wir diese komischen Zeichen
29 00:01:08,892 --> 00:01:10,700 und schmeißen sie raus
30 00:01:10,700 --> 00:01:13,967 mit einer anderen replace-Funktion.
31 00:01:15,479 --> 00:01:16,979 Der erste Aufruf von "replace" hier
32 00:01:16,979 --> 00:01:18,646 bereinigt die Leerzeichen,
33 00:01:19,302 --> 00:01:22,302 der zweite entfernt die Hausnummern.
34 00:01:30,550 --> 00:01:32,538 Wählt noch einen Namen für die Spalte
35 00:01:32,750 --> 00:01:34,600 und erstellt sie.
36 00:01:37,050 --> 00:01:40,464 Jetzt können wir diese Straßen mit Straßen in Wikidata abgleichen.
37 00:01:40,464 --> 00:01:43,531 Wählt also wieder "Reconcile" -> "Start reconciling"
38 00:01:43,548 --> 00:01:45,525 und wählt den Wikidata-Service.
39 00:01:48,250 --> 00:01:51,638 In diesem Fall ist „Straße“ als Typ zu eng gegriffen.
40 00:01:52,071 --> 00:01:54,735 denn einige Drehorte sind Parks oder Brücken,
41 00:01:54,735 --> 00:01:57,735 so dass wir manuell einen umfassenderen Typ wählen
42 00:01:57,936 --> 00:01:59,859 Schauen wir mal, was für informationen wir noch benutzen können,
43 00:01:59,859 --> 00:02:02,200 um die Zuordnung zu verbessern.
44 00:02:02,200 --> 00:02:04,754 Die Postleitzahl scheint gut geeignet.
45 00:02:04,754 --> 00:02:07,300 Aber leider sind PLZ nur selten
46 00:02:07,300 --> 00:02:10,300 als Eigenschaft bei Straßenobjekten enthalten.
47 00:02:10,600 --> 00:02:13,000 Die letzte Spalte enthält die geographische
48 00:02:13,000 --> 00:02:14,535 Koordinate des Drehortes,
49 00:02:14,535 --> 00:02:17,535 ausgedrückt als Breitengrad, Komma, Längengrad.
50 00:02:18,912 --> 00:02:22,379 Wir können das gegen die Koordinaten der Straße auf Wikidata abgleichen.
51 00:02:22,688 --> 00:02:25,218 Je näher diese geographischen Punkte sind,
52 00:02:25,218 --> 00:02:28,218 umso höher wird ihre Genauigkeitsquote (matching score) sein.
53 00:02:35,400 --> 00:02:37,949 Wenn der Abgleich abgeschlossen ist,
54 00:02:37,949 --> 00:02:39,902 können wir uns die Zuordnungen ansehen.
55 00:02:39,902 --> 00:02:41,644 In diesem Fall sehen wir, dass zwei Staßen
56 00:02:41,644 --> 00:02:43,034 mit demselben Namen dank des Koordinatenabgleichs
57 00:02:43,034 --> 00:02:45,073 unterschiedliche Genauigkeitsquoten
58 00:02:45,073 --> 00:02:48,073 erhalten haben.
59 00:02:48,111 --> 00:02:51,111 Die erste ist die richtige.
60 00:02:52,600 --> 00:02:55,209 Diese Zelle wurde nicht automatisch zugeordnet,
61 00:02:55,209 --> 00:02:56,550 weil der Unterschied zwischen den beiden Quoten
62 00:02:56,550 --> 00:02:58,300 nicht groß genug ist.
63 00:02:58,300 --> 00:03:00,550 Ich vermute, es wird noch mehr solche Fälle geben
64 00:03:00,550 --> 00:03:02,900 deshalb filtere ich nur nach Zellen
65 00:03:02,900 --> 00:03:06,100 die zwar nicht zugeordnet wurden,
66 00:03:06,100 --> 00:03:10,431 deren beste Genauigkeitsquote sehr hoch ist.
67 00:03:12,050 --> 00:03:14,500 Ich füge außerdem einen Wertebereich (Facet) ein,
68 00:03:14,500 --> 00:03:16,238 der die Ähnlichkeit der Zeichenketten
69 00:03:16,238 --> 00:03:17,819 zwischen dem Zellinhalt
70 00:03:17,819 --> 00:03:20,202 und dem Namen des besten Treffers zeigt
71 00:03:20,202 --> 00:03:23,202 und beschränke mich dann auf die hochwertigen Treffer.
72 00:03:24,500 --> 00:03:26,127 Wir überprüfen nun diese gefilterten Reihen
73 00:03:26,127 --> 00:03:27,860 und ihre besten Treffer.
74 00:03:48,209 --> 00:03:50,679 Alle diese Treffer sind korrekt.
75 00:03:50,679 --> 00:03:52,469 Also klickt "Reconcile" -> "Actions"
76 00:03:52,469 --> 00:03:55,469 -> "Match each cell to its best candidate"
77 00:03:57,015 --> 00:03:58,931 Nutzt diese Funktion mit angemessener Sorgfalt,
78 00:03:58,931 --> 00:04:01,931 denn sie kann falsch positive Resultate ergeben.
79 00:04:03,650 --> 00:04:05,200 Wir prüfen nun die Qualität
80 00:04:05,200 --> 00:04:07,671 der abgeglichenen Zellen.
81 00:04:08,079 --> 00:04:09,582 Zum Beispiel können wir
82 00:04:09,582 --> 00:04:11,100 die Verwaltungseinheit
83 00:04:11,100 --> 00:04:15,669 zu diesen Straßen heranziehen.
84 00:04:23,676 --> 00:04:24,918 Wenn wir diese Orte dazugeladen haben,
85 00:04:24,918 --> 00:04:27,514 können wir eine Textfacette von dieser Spalte erstellen
86 00:04:27,514 --> 00:04:29,168 und diese absteigend sortieren
87 00:04:29,168 --> 00:04:32,168 nach der Anzahl ihrer Vorkommen
88 00:04:39,550 --> 00:04:42,100 Das gibt uns einen groben Überblick
89 00:04:42,100 --> 00:04:47,241 der häufigsten Werte.
90 00:04:47,241 --> 00:04:47,800 Wir können diese Liste nun prüfen.
91 00:04:47,800 --> 00:04:50,050 Alle diese Standorte sind Bezirke oder Stadtteile von Paris
92 00:04:50,050 --> 00:04:52,947 was zu unserem Datenmaterial passt.
93 00:05:03,250 --> 00:05:06,551 Das ist das Ende des zweiten Teils unseres Tutorials.
94 00:05:06,551 --> 00:05:08,500 Im nächsten Video
95 00:05:08,500 --> 00:05:10,965 wandeln wir unsere Tabelle in Aussagen
96 00:05:10,965 --> 00:05:12,832 und laden sie nach Wikidata hoch.