TimedText:Wikidata Editing with OpenRefine - Part 2.webm.fr.srt

1 00:00:00,000 --> 00:00:02,367 Bienvenue à la partie 2 de ce tutoriel

2 00:00:02,367 --> 00:00:04,700 sur l'utilisation d'OpenRefine pour importer des données

3 00:00:04,700 --> 00:00:06,400 dans Wikidata.

4 00:00:06,400 --> 00:00:08,200 Dans la vidéo précédente,

5 00:00:08,200 --> 00:00:10,750 nous avons associés les films à leurs éléments Wikidata

6 00:00:10,750 --> 00:00:13,100 et vérifiez la qualité de la réconciliation.

7 00:00:13,100 --> 00:00:15,050 Pour chaque film,

8 00:00:15,050 --> 00:00:17,300 nous souhaitons ajouter les lieux de tournages

9 00:00:17,300 --> 00:00:19,550 aux éléments Wikidata.

10 00:00:19,550 --> 00:00:22,150 Cela nécessite la réconciliation des lieux de tournages.

11 00:00:22,150 --> 00:00:25,107 Commençons.

12 00:00:25,107 --> 00:00:27,104 Les lieux de tournages dans le jeu de données

13 00:00:27,104 --> 00:00:29,726 sont indiqués par leur adresse.

14 00:00:29,726 --> 00:00:31,974 Ces adresses n'ont généralement

15 00:00:31,974 --> 00:00:33,939 pas d'éléments Wikidata,

16 00:00:33,939 --> 00:00:36,939 mais les rues de Paris sont dans Wikidata.

17 00:00:38,665 --> 00:00:40,608 Nous commençons par extraire

18 00:00:40,608 --> 00:00:41,871 le nom des rues des adresses.

19 00:00:41,871 --> 00:00:44,000 Nous utilisons une expression régulière

20 00:00:44,000 --> 00:00:47,467 pour retirer le numéro au début de la chaîne de caractères.

21 00:00:51,504 --> 00:00:54,500 Dans la fenêtre précédente, nous avons observé

22 00:00:55,089 --> 00:00:55,400 que notre expression régulière

23 00:00:55,400 --> 00:00:57,800 ne prend en compte les espaces.

24 00:00:57,800 --> 00:01:00,500 Cela signifie que ces chaînes

25 00:01:00,500 --> 00:01:03,050 contiennent des caractères d'espacement non standards.

26 00:01:03,050 --> 00:01:04,550 Cela peut poser un problème

27 00:01:04,550 --> 00:01:07,445 lors de la réconciliation avec Wikidata.

28 00:01:07,445 --> 00:01:08,892 Copions ces caractères bizarres

29 00:01:08,892 --> 00:01:10,700 et débarrassons-nous en

30 00:01:10,700 --> 00:01:13,967 avec une fonction de remplacement.

31 00:01:15,479 --> 00:01:16,979 La première fonction de remplacement

32 00:01:16,979 --> 00:01:18,646 élimine les espaces ;

33 00:01:19,302 --> 00:01:22,302 la seconde fonction enlève les numéros de rue.

34 00:01:30,550 --> 00:01:32,538 Choisissez un nom pour cette nouvelle colonne

35 00:01:32,750 --> 00:01:34,600 et créez la.

36 00:01:37,050 --> 00:01:40,464 Nous pouvons désormais réconcilier ces rues avec Wikidata.

37 00:01:40,464 --> 00:01:43,531 Choisissez « Reconcile » (Réconcilier) -> « Start reconciling » (Démarrer la réconciliation).

38 00:01:43,548 --> 00:01:45,525 et choisissez le service de réconciliation Wikidata.

39 00:01:48,250 --> 00:01:51,638 Le type « rue » est trop restreint.

40 00:01:52,071 --> 00:01:54,735 Le jeu de données comporte des espaces verts et des ponts.

41 00:01:54,735 --> 00:01:57,735 Choisissez un type plus large.

42 00:01:57,936 --> 00:01:59,859 Voyons quelles autres informations nous pourrions utiliser

43 00:01:59,859 --> 00:02:02,200 afin d'améliorer la réconciliation.

44 00:02:02,200 --> 00:02:04,754 Le code postal semble convenir

45 00:02:04,754 --> 00:02:07,300 mais l'information est rarement

46 00:02:07,300 --> 00:02:10,300 ajoutée au nom de rue.

47 00:02:10,600 --> 00:02:13,000 La dernière colonne contient

48 00:02:13,000 --> 00:02:14,535 les coordonnées géographiques des lieux de tournages

49 00:02:14,535 --> 00:02:17,535 exprimées en latitude, virgule, longitude.

50 00:02:18,912 --> 00:02:22,379 Nous pouvons faire correspondre ces données aux coordonnées des rues.

51 00:02:22,688 --> 00:02:25,218 Plus ces points géographiques seront proches,

52 00:02:25,218 --> 00:02:28,218 plus le score de correspondance sera élevé.

53 00:02:35,400 --> 00:02:37,949 Une fois la réconciliation terminée,

54 00:02:37,949 --> 00:02:39,902 nous pouvons vérifier les correspondances.

55 00:02:39,902 --> 00:02:41,644 On constate que deux rues

56 00:02:41,644 --> 00:02:43,034 avec le même nom

57 00:02:43,034 --> 00:02:45,073 ont obtenu des scores différents,

58 00:02:45,073 --> 00:02:48,073 grâce à la réconciliation via les coordonnées.

59 00:02:48,111 --> 00:02:51,111 La première est la bonne.

60 00:02:52,600 --> 00:02:55,209 Cette cellule n'a pas été associée automatiquement

61 00:02:55,209 --> 00:02:56,550 car l'écart entre les deux notes

62 00:02:56,550 --> 00:02:58,300 n'est pas assez grand.

63 00:02:58,300 --> 00:03:00,550 Il y a sans doute d'autres cas similaires.

64 00:03:00,550 --> 00:03:02,900 Filtrons les cellules

65 00:03:02,900 --> 00:03:06,100 qui n'ont pas fait l'objet d'une correspondance

66 00:03:06,100 --> 00:03:10,431 mais dont le score du meilleur candidat est très élevé.

67 00:03:12,050 --> 00:03:14,500 Ajoutons une facette

68 00:03:14,500 --> 00:03:16,238 qui calcule la similarité des chaînes de caractères

69 00:03:16,238 --> 00:03:17,819 entre le contenu de la cellule

70 00:03:17,819 --> 00:03:20,202 et le nom de la meilleure correspondance

71 00:03:20,202 --> 00:03:23,202 et se limite aux correspondances avec les scores les plus élevés.

72 00:03:24,500 --> 00:03:26,127 Examinons ces lignes filtrées

73 00:03:26,127 --> 00:03:27,860 et leurs meilleurs candidats.

74 00:03:48,209 --> 00:03:50,679 et leurs meilleurs candidats.

75 00:03:50,679 --> 00:03:52,469 Cliquez sur « Reconcile » (Réconcilier) -> et « Actions »

76 00:03:52,469 --> 00:03:55,469 -> « Match each cell to its best candidate » (Faire correspondre chaque cellule à son meilleur candidat).

77 00:03:57,015 --> 00:03:58,931 Utilisez cette option avec prudence

78 00:03:58,931 --> 00:04:01,931 à cause des faux positifs.

79 00:04:03,650 --> 00:04:05,200 Vérifions maintenant la qualité

80 00:04:05,200 --> 00:04:07,671 des cellules associées.

81 00:04:08,079 --> 00:04:09,582 Par exemple,

82 00:04:09,582 --> 00:04:11,100 nous pouvons récupérer l'emplacement administratif

83 00:04:11,100 --> 00:04:15,669 de ces rues.

84 00:04:23,676 --> 00:04:24,918 Une fois que l'on a récupéré les emplacements,

85 00:04:24,918 --> 00:04:27,514 nous pouvons créer une facette texte sur cette colonne

86 00:04:27,514 --> 00:04:29,168 et trier la facette

87 00:04:29,168 --> 00:04:32,168 par nombre décroissant d'occurrences.

88 00:04:39,550 --> 00:04:42,100 Cela nous donne une vue d'ensemble

89 00:04:42,100 --> 00:04:47,241 des résultats les plus fréquents.

90 00:04:47,241 --> 00:04:47,800 Nous pouvons vérifier la liste.

91 00:04:47,800 --> 00:04:50,050 Tous ces lieux sont dans Paris,

92 00:04:50,050 --> 00:04:52,947 ce qui est cohérent avec notre jeu de données.

93 00:05:03,250 --> 00:05:06,551 Ceci est la fin de la deuxième partie du tutoriel.

94 00:05:06,551 --> 00:05:08,500 Dans la prochaine vidéo, nous allons

95 00:05:08,500 --> 00:05:10,965 transformer la table en déclarations 96 00:05:10,965 --> 00:05:12,832 et importer les données dans Wikidata.