TimedText:Wikidata Editing with OpenRefine - Part 2.webm.de.srt

1 00:00:00,000 --> 00:00:02,367 Willkommen zurück bei unserem Tutorial

2 00:00:02,367 --> 00:00:04,700 zur Nutzung von OpenRefine zum Datenimport

3 00:00:04,700 --> 00:00:06,400 in Wikidata.

4 00:00:06,400 --> 00:00:08,200 Im letzten Video

5 00:00:08,200 --> 00:00:10,750 haben wir Filmtitel mit den passenden Wikidataobjekten verknüpft

6 00:00:10,750 --> 00:00:13,100 und die Qualität des Datenabgleichs geprüft.

7 00:00:13,100 --> 00:00:15,050 Für jeden dieser Filme

8 00:00:15,050 --> 00:00:17,300 wollen wir nun die Drehorte

9 00:00:17,300 --> 00:00:19,550 zu den Wikidataobjekten hinzufügen.

10 00:00:19,550 --> 00:00:22,150 Dafür müssen wir die Drehorte ebenfalls abgleichen.

11 00:00:22,150 --> 00:00:25,107 Also los!

12 00:00:25,107 --> 00:00:27,104 Die Drehorte in unserem Datenbestand

13 00:00:27,104 --> 00:00:29,726 sind als Straße mit Hausnummer angegeben.

14 00:00:29,726 --> 00:00:31,974 Diese spezifischen Adressen sind vermutlich nicht

15 00:00:31,974 --> 00:00:33,939 als entsprechendes Wikidataobjekt vorhanden,

16 00:00:33,939 --> 00:00:36,939 aber die Straßen haben oft eins.

17 00:00:38,665 --> 00:00:40,608 Also extrahieren wir jetzt zuerst

18 00:00:40,608 --> 00:00:41,871 die Straßennamen aus den Adressen.

19 00:00:41,871 --> 00:00:44,000 Wir benutzen einen regulären Ausdruck

20 00:00:44,000 --> 00:00:47,467 um am Anfang der Zeichenkette alle Zahlen zu entfernen.

21 00:00:51,504 --> 00:00:54,500 In der Vorschau bemerken wir, dass

22 00:00:55,089 --> 00:00:55,400 der reguläre Ausdruck die Leerzeichen

23 00:00:55,400 --> 00:00:57,800 am Anfang der Adresse nicht mit erfasst hat.

24 00:00:57,800 --> 00:01:00,500 Das ist ein Hinweis darauf, dass diese Zeichenketten

25 00:01:00,500 --> 00:01:03,050 unübliche oder überflüssige Leerzeichen enthält.

26 00:01:03,050 --> 00:01:04,550 Diese können während des Abgleichs mit Wikidata

27 00:01:04,550 --> 00:01:07,445 zu Problemen führen.

28 00:01:07,445 --> 00:01:08,892 Also kopieren wir diese komischen Zeichen

29 00:01:08,892 --> 00:01:10,700 und schmeißen sie raus

30 00:01:10,700 --> 00:01:13,967 mit einer anderen replace-Funktion.

31 00:01:15,479 --> 00:01:16,979 Der erste Aufruf von "replace" hier

32 00:01:16,979 --> 00:01:18,646 bereinigt die Leerzeichen,

33 00:01:19,302 --> 00:01:22,302 der zweite entfernt die Hausnummern.

34 00:01:30,550 --> 00:01:32,538 Wählt noch einen Namen für die Spalte

35 00:01:32,750 --> 00:01:34,600 und erstellt sie.

36 00:01:37,050 --> 00:01:40,464 Jetzt können wir diese Straßen mit Straßen in Wikidata abgleichen.

37 00:01:40,464 --> 00:01:43,531 Wählt also wieder "Reconcile" -> "Start reconciling"

38 00:01:43,548 --> 00:01:45,525 und wählt den Wikidata-Service.

39 00:01:48,250 --> 00:01:51,638 In diesem Fall ist „Straße“ als Typ zu eng gegriffen.

40 00:01:52,071 --> 00:01:54,735 denn einige Drehorte sind Parks oder Brücken,

41 00:01:54,735 --> 00:01:57,735 so dass wir manuell einen umfassenderen Typ wählen

42 00:01:57,936 --> 00:01:59,859 Schauen wir mal, was für informationen wir noch benutzen können,

43 00:01:59,859 --> 00:02:02,200 um die Zuordnung zu verbessern.

44 00:02:02,200 --> 00:02:04,754 Die Postleitzahl scheint gut geeignet.

45 00:02:04,754 --> 00:02:07,300 Aber leider sind PLZ nur selten

46 00:02:07,300 --> 00:02:10,300 als Eigenschaft bei Straßenobjekten enthalten.

47 00:02:10,600 --> 00:02:13,000 Die letzte Spalte enthält die geographische

48 00:02:13,000 --> 00:02:14,535 Koordinate des Drehortes,

49 00:02:14,535 --> 00:02:17,535 ausgedrückt als Breitengrad, Komma, Längengrad.

50 00:02:18,912 --> 00:02:22,379 Wir können das gegen die Koordinaten der Straße auf Wikidata abgleichen.

51 00:02:22,688 --> 00:02:25,218 Je näher diese geographischen Punkte sind,

52 00:02:25,218 --> 00:02:28,218 umso höher wird ihre Genauigkeitsquote (matching score) sein.

53 00:02:35,400 --> 00:02:37,949 Wenn der Abgleich abgeschlossen ist,

54 00:02:37,949 --> 00:02:39,902 können wir uns die Zuordnungen ansehen.

55 00:02:39,902 --> 00:02:41,644 In diesem Fall sehen wir, dass zwei Staßen

56 00:02:41,644 --> 00:02:43,034 mit demselben Namen dank des Koordinatenabgleichs

57 00:02:43,034 --> 00:02:45,073 unterschiedliche Genauigkeitsquoten

58 00:02:45,073 --> 00:02:48,073 erhalten haben.

59 00:02:48,111 --> 00:02:51,111 Die erste ist die richtige.

60 00:02:52,600 --> 00:02:55,209 Diese Zelle wurde nicht automatisch zugeordnet,

61 00:02:55,209 --> 00:02:56,550 weil der Unterschied zwischen den beiden Quoten

62 00:02:56,550 --> 00:02:58,300 nicht groß genug ist.

63 00:02:58,300 --> 00:03:00,550 Ich vermute, es wird noch mehr solche Fälle geben

64 00:03:00,550 --> 00:03:02,900 deshalb filtere ich nur nach Zellen

65 00:03:02,900 --> 00:03:06,100 die zwar nicht zugeordnet wurden,

66 00:03:06,100 --> 00:03:10,431 deren beste Genauigkeitsquote sehr hoch ist.

67 00:03:12,050 --> 00:03:14,500 Ich füge außerdem einen Wertebereich (Facet) ein,

68 00:03:14,500 --> 00:03:16,238 der die Ähnlichkeit der Zeichenketten

69 00:03:16,238 --> 00:03:17,819 zwischen dem Zellinhalt

70 00:03:17,819 --> 00:03:20,202 und dem Namen des besten Treffers zeigt

71 00:03:20,202 --> 00:03:23,202 und beschränke mich dann auf die hochwertigen Treffer.

72 00:03:24,500 --> 00:03:26,127 Wir überprüfen nun diese gefilterten Reihen

73 00:03:26,127 --> 00:03:27,860 und ihre besten Treffer.

74 00:03:48,209 --> 00:03:50,679 Alle diese Treffer sind korrekt.

75 00:03:50,679 --> 00:03:52,469 Also klickt "Reconcile" -> "Actions"

76 00:03:52,469 --> 00:03:55,469 -> "Match each cell to its best candidate"

77 00:03:57,015 --> 00:03:58,931 Nutzt diese Funktion mit angemessener Sorgfalt,

78 00:03:58,931 --> 00:04:01,931 denn sie kann falsch positive Resultate ergeben.

79 00:04:03,650 --> 00:04:05,200 Wir prüfen nun die Qualität

80 00:04:05,200 --> 00:04:07,671 der abgeglichenen Zellen.

81 00:04:08,079 --> 00:04:09,582 Zum Beispiel können wir

82 00:04:09,582 --> 00:04:11,100 die Verwaltungseinheit

83 00:04:11,100 --> 00:04:15,669 zu diesen Straßen heranziehen.

84 00:04:23,676 --> 00:04:24,918 Wenn wir diese Orte dazugeladen haben,

85 00:04:24,918 --> 00:04:27,514 können wir eine Textfacette von dieser Spalte erstellen

86 00:04:27,514 --> 00:04:29,168 und diese absteigend sortieren

87 00:04:29,168 --> 00:04:32,168 nach der Anzahl ihrer Vorkommen

88 00:04:39,550 --> 00:04:42,100 Das gibt uns einen groben Überblick

89 00:04:42,100 --> 00:04:47,241 der häufigsten Werte.

90 00:04:47,241 --> 00:04:47,800 Wir können diese Liste nun prüfen.

91 00:04:47,800 --> 00:04:50,050 Alle diese Standorte sind Bezirke oder Stadtteile von Paris

92 00:04:50,050 --> 00:04:52,947 was zu unserem Datenmaterial passt.

93 00:05:03,250 --> 00:05:06,551 Das ist das Ende des zweiten Teils unseres Tutorials.

94 00:05:06,551 --> 00:05:08,500 Im nächsten Video

95 00:05:08,500 --> 00:05:10,965 wandeln wir unsere Tabelle in Aussagen

96 00:05:10,965 --> 00:05:12,832 und laden sie nach Wikidata hoch.