TimedText:Wikidata Editing with OpenRefine - Part 2.webm.fr.srt
1 00:00:00,000 --> 00:00:02,367 Bienvenue à la partie 2 de ce tutoriel
2 00:00:02,367 --> 00:00:04,700 sur l'utilisation d'OpenRefine pour importer des données
3 00:00:04,700 --> 00:00:06,400 dans Wikidata.
4 00:00:06,400 --> 00:00:08,200 Dans la vidéo précédente,
5 00:00:08,200 --> 00:00:10,750 nous avons associés les films à leurs éléments Wikidata
6 00:00:10,750 --> 00:00:13,100 et vérifiez la qualité de la réconciliation.
7 00:00:13,100 --> 00:00:15,050 Pour chaque film,
8 00:00:15,050 --> 00:00:17,300 nous souhaitons ajouter les lieux de tournages
9 00:00:17,300 --> 00:00:19,550 aux éléments Wikidata.
10 00:00:19,550 --> 00:00:22,150 Cela nécessite la réconciliation des lieux de tournages.
11 00:00:22,150 --> 00:00:25,107 Commençons.
12 00:00:25,107 --> 00:00:27,104 Les lieux de tournages dans le jeu de données
13 00:00:27,104 --> 00:00:29,726 sont indiqués par leur adresse.
14 00:00:29,726 --> 00:00:31,974 Ces adresses n'ont généralement
15 00:00:31,974 --> 00:00:33,939 pas d'éléments Wikidata,
16 00:00:33,939 --> 00:00:36,939 mais les rues de Paris sont dans Wikidata.
17 00:00:38,665 --> 00:00:40,608 Nous commençons par extraire
18 00:00:40,608 --> 00:00:41,871 le nom des rues des adresses.
19 00:00:41,871 --> 00:00:44,000 Nous utilisons une expression régulière
20 00:00:44,000 --> 00:00:47,467 pour retirer le numéro au début de la chaîne de caractères.
21 00:00:51,504 --> 00:00:54,500 Dans la fenêtre précédente, nous avons observé
22 00:00:55,089 --> 00:00:55,400 que notre expression régulière
23 00:00:55,400 --> 00:00:57,800 ne prend en compte les espaces.
24 00:00:57,800 --> 00:01:00,500 Cela signifie que ces chaînes
25 00:01:00,500 --> 00:01:03,050 contiennent des caractères d'espacement non standards.
26 00:01:03,050 --> 00:01:04,550 Cela peut poser un problème
27 00:01:04,550 --> 00:01:07,445 lors de la réconciliation avec Wikidata.
28 00:01:07,445 --> 00:01:08,892 Copions ces caractères bizarres
29 00:01:08,892 --> 00:01:10,700 et débarrassons-nous en
30 00:01:10,700 --> 00:01:13,967 avec une fonction de remplacement.
31 00:01:15,479 --> 00:01:16,979 La première fonction de remplacement
32 00:01:16,979 --> 00:01:18,646 élimine les espaces ;
33 00:01:19,302 --> 00:01:22,302 la seconde fonction enlève les numéros de rue.
34 00:01:30,550 --> 00:01:32,538 Choisissez un nom pour cette nouvelle colonne
35 00:01:32,750 --> 00:01:34,600 et créez la.
36 00:01:37,050 --> 00:01:40,464 Nous pouvons désormais réconcilier ces rues avec Wikidata.
37 00:01:40,464 --> 00:01:43,531 Choisissez « Reconcile » (Réconcilier) -> « Start reconciling » (Démarrer la réconciliation).
38 00:01:43,548 --> 00:01:45,525 et choisissez le service de réconciliation Wikidata.
39 00:01:48,250 --> 00:01:51,638 Le type « rue » est trop restreint.
40 00:01:52,071 --> 00:01:54,735 Le jeu de données comporte des espaces verts et des ponts.
41 00:01:54,735 --> 00:01:57,735 Choisissez un type plus large.
42 00:01:57,936 --> 00:01:59,859 Voyons quelles autres informations nous pourrions utiliser
43 00:01:59,859 --> 00:02:02,200 afin d'améliorer la réconciliation.
44 00:02:02,200 --> 00:02:04,754 Le code postal semble convenir
45 00:02:04,754 --> 00:02:07,300 mais l'information est rarement
46 00:02:07,300 --> 00:02:10,300 ajoutée au nom de rue.
47 00:02:10,600 --> 00:02:13,000 La dernière colonne contient
48 00:02:13,000 --> 00:02:14,535 les coordonnées géographiques des lieux de tournages
49 00:02:14,535 --> 00:02:17,535 exprimées en latitude, virgule, longitude.
50 00:02:18,912 --> 00:02:22,379 Nous pouvons faire correspondre ces données aux coordonnées des rues.
51 00:02:22,688 --> 00:02:25,218 Plus ces points géographiques seront proches,
52 00:02:25,218 --> 00:02:28,218 plus le score de correspondance sera élevé.
53 00:02:35,400 --> 00:02:37,949 Une fois la réconciliation terminée,
54 00:02:37,949 --> 00:02:39,902 nous pouvons vérifier les correspondances.
55 00:02:39,902 --> 00:02:41,644 On constate que deux rues
56 00:02:41,644 --> 00:02:43,034 avec le même nom
57 00:02:43,034 --> 00:02:45,073 ont obtenu des scores différents,
58 00:02:45,073 --> 00:02:48,073 grâce à la réconciliation via les coordonnées.
59 00:02:48,111 --> 00:02:51,111 La première est la bonne.
60 00:02:52,600 --> 00:02:55,209 Cette cellule n'a pas été associée automatiquement
61 00:02:55,209 --> 00:02:56,550 car l'écart entre les deux notes
62 00:02:56,550 --> 00:02:58,300 n'est pas assez grand.
63 00:02:58,300 --> 00:03:00,550 Il y a sans doute d'autres cas similaires.
64 00:03:00,550 --> 00:03:02,900 Filtrons les cellules
65 00:03:02,900 --> 00:03:06,100 qui n'ont pas fait l'objet d'une correspondance
66 00:03:06,100 --> 00:03:10,431 mais dont le score du meilleur candidat est très élevé.
67 00:03:12,050 --> 00:03:14,500 Ajoutons une facette
68 00:03:14,500 --> 00:03:16,238 qui calcule la similarité des chaînes de caractères
69 00:03:16,238 --> 00:03:17,819 entre le contenu de la cellule
70 00:03:17,819 --> 00:03:20,202 et le nom de la meilleure correspondance
71 00:03:20,202 --> 00:03:23,202 et se limite aux correspondances avec les scores les plus élevés.
72 00:03:24,500 --> 00:03:26,127 Examinons ces lignes filtrées
73 00:03:26,127 --> 00:03:27,860 et leurs meilleurs candidats.
74 00:03:48,209 --> 00:03:50,679 et leurs meilleurs candidats.
75 00:03:50,679 --> 00:03:52,469 Cliquez sur « Reconcile » (Réconcilier) -> et « Actions »
76 00:03:52,469 --> 00:03:55,469 -> « Match each cell to its best candidate » (Faire correspondre chaque cellule à son meilleur candidat).
77 00:03:57,015 --> 00:03:58,931 Utilisez cette option avec prudence
78 00:03:58,931 --> 00:04:01,931 à cause des faux positifs.
79 00:04:03,650 --> 00:04:05,200 Vérifions maintenant la qualité
80 00:04:05,200 --> 00:04:07,671 des cellules associées.
81 00:04:08,079 --> 00:04:09,582 Par exemple,
82 00:04:09,582 --> 00:04:11,100 nous pouvons récupérer l'emplacement administratif
83 00:04:11,100 --> 00:04:15,669 de ces rues.
84 00:04:23,676 --> 00:04:24,918 Une fois que l'on a récupéré les emplacements,
85 00:04:24,918 --> 00:04:27,514 nous pouvons créer une facette texte sur cette colonne
86 00:04:27,514 --> 00:04:29,168 et trier la facette
87 00:04:29,168 --> 00:04:32,168 par nombre décroissant d'occurrences.
88 00:04:39,550 --> 00:04:42,100 Cela nous donne une vue d'ensemble
89 00:04:42,100 --> 00:04:47,241 des résultats les plus fréquents.
90 00:04:47,241 --> 00:04:47,800 Nous pouvons vérifier la liste.
91 00:04:47,800 --> 00:04:50,050 Tous ces lieux sont dans Paris,
92 00:04:50,050 --> 00:04:52,947 ce qui est cohérent avec notre jeu de données.
93 00:05:03,250 --> 00:05:06,551 Ceci est la fin de la deuxième partie du tutoriel.
94 00:05:06,551 --> 00:05:08,500 Dans la prochaine vidéo, nous allons
95 00:05:08,500 --> 00:05:10,965 transformer la table en déclarations 96 00:05:10,965 --> 00:05:12,832 et importer les données dans Wikidata.