Commons:OpenRefine/Adding structured data with OpenRefine/pt-br
About | How to: upload files | How to: edit files | Advanced tips and tricks | Training | Projects |
Instruções passo a passo sobre como 'adicionar (em lote) dados estruturados a arquivos (existentes) do Wikimedia Commons com OpenRefine.
Instalação do software
Baixar e instalar o OpenRefine (versão 3.6 ou superior!)
⚠️ Para o carregamento em lote no Wikimedia Commons, você precisa do OpenRefine 3.7 ou versão mais recente. O Wikimedia Commons não é compatível com o OpenRefine 3.6 ou versões anteriores.
Baixe e instale o OpenRefine no seu computador. Para editar arquivos no Wikimedia Commons, você precisa do OpenRefine 3.6 ou mais recente.
Você pode baixar o OpenRefine para Windows, MacOS e Linux em https://openrefine.org/download.html.
Baixar e instalar a extensão do Wikimedia Commons para o OpenRefine
Além disso, é altamente recomendado instalar também a extensão do Wikimedia Commons do OpenRefine. Ela é muito útil para edições em lote no Wikimedia Commons. A extensão oferece:
- Uma tela inicial para carregar nomes de arquivos diretamente das categorias do Wikimedia Commons.
- Miniaturas dos arquivos do Wikimedia Commons (nem todos os formatos de arquivo são compatíveis no momento).
- Diversas expressões GREL dedicadas para recuperar dados de wikitexto para processamento posterior.
A extensão pode ser do GitHub, onde você também pode seguir as instruções de instalação.
A explicação nesta página assume que você instalou esta extensão.
Alternativa: executar o OpenRefine online, na nuvem (via Wikimedia PAWS)
Se você não consegue instalar o OpenRefine no seu computador, ou se ele está funcionando muito lentamente, você também pode usá-lo na nuvem (no wmcloud.org através do PAWS). Qualquer pessoa com uma conta no Wikimedia pode acessar o OpenRefine aqui. Visite https://hub-paws.wmcloud.org/, faça login e clique no logo do OpenRefine (diamante azul).
A extensão do Wikimedia Commons (mencionada acima) já está instalada no OpenRefine no PAWS.
Atenção: com o OpenRefine no PAWS não é possível carregar arquivos para o Wikimedia Commons a partir do seu computador local. Para isso, você tem duas opções:
Iniciar um projeto OpenRefine com base em uma ou mais categorias do Commons
Estas instruções assumem que você está utilizando a do Wikimedia Commons do OpenRefine. a documentação dela para instruções de instalação. Se você não estiver usando essa extensão e quiser iniciar um projeto OpenRefine por outro método, confira a página de dicas e truques avançados.
- Selecione a opção Wikimedia Commons na tela inicial do OpenRefine.
- Agora você pode digitar o nome de uma ou mais categorias do Wikimedia Commons. Também é possível especificar a profundidade com a qual você irá percorrer a árvore de categorias do Commons.
- Clique
Next
- A pré-visualização do projeto será carregada. Você verá uma lista de nomes de arquivos carregados a partir da categoria ou categorias que você especificou.
- Na parte inferior da janela de pré-visualização, você pode indicar se também deseja carregar uma coluna com as categorias do Commons de cada arquivo e/ou uma coluna com os M-ids dos arquivos. As categorias do Commons podem ser muito informativas e úteis para extrair dados que poderão ser adicionados posteriormente como dados estruturados. Se você decidir não recuperar as categorias dos arquivos agora, também terá a oportunidade de fazer isso mais tarde.
- Dê um nome significativo ao seu projeto e clique em
Create project
. O projeto será carregado, exibindo miniaturas dos arquivos. Os nomes dos arquivos são azuis e clicáveis, o que significa que já foram reconciliados com o Wikimedia Commons.
Extrair Wikitexto e dados estruturados
Esta etapa é opcional, mas pode ser muito útil. Arquivos existentes no Wikimedia Commons são sempre descritos com wikitexto, que geralmente contém informações sobre o criador do arquivo, licença e uma ou mais categorias do Wikimedia Commons. Frequentemente, será interessante analisar esse wikitexto no OpenRefine, extraindo partes valiosas de dados que podem ser convertidas em dados estruturados em uma próxima etapa. Bons exemplos de tais dados podem incluir:
- A descrição do arquivo, que você pode converter em uma legenda do arquivo
- O criador do arquivo
- A fonte do arquivo
- Elementos retratados no arquivo e outras informações valiosas podem ser mencionados nas categorias do arquivo.
Para criar uma ou mais novas colunas com Wikitexto (e declarações de dados estruturados) a partir da sua coluna de nomes de arquivos reconciliados, selecione Edit column
→ Add columns from reconciled values...
no menu da coluna de arquivos. Você verá uma janela de diálogo na qual pode selecionar uma ou mais opções; pode escolher uma única opção ou várias.
- Wikitexto: criará uma coluna com o Wikitexto (completo) de cada arquivo.
- Várias declarações de dados estruturados; a janela de diálogo sugere várias propriedades comuns, mas você pode usar a funcionalidade de busca para procurar qualquer propriedade de seu interesse.
- Você pode recuperar legendas de arquivos digitando a letra maiúscula
C
, seguida do código de idioma de duas letras (por exemplo,Cen
para legendas de arquivos em inglês,Cja
para legendas de arquivos em japonês).
📘 Consulte colunas a partir de valores reconciliados no manual do usuário do OpenRefine para obter informações gerais sobre esse recurso.
Analisar o wikitexto
A coluna com wikitexto pode conter partes valiosas de dados que você deseja extrair (ou analisar) em novas colunas do OpenRefine.
📘 As instruções abaixo mostram como analisar wikitexto usando as funcionalidades da do Wikimedia Commons do OpenRefine. Consulte também a dessa extensão.
Existem muitas outras maneiras de analisar esses dados. A página de Dicas e Truques Avançados contém outros métodos - não se esqueça de adicionar os seus próprios, caso tenha criado novos métodos úteis!
A Extensão do Wikimedia Commons desbloqueia dois comandos dedicados do GREL, que ajudam a extrair informações específicas do wikitexto dos arquivos do Wikimedia Commons.
GREL, General Refine Expression Language, é uma linguagem de script dedicada usada no OpenRefine para várias operações flexíveis de dados. manual do OpenRefine contém uma referência geral sobre o uso do GREL. Você também encontrará muitos exemplos e receitas pesquisando na web.
A partir da coluna com o wikitexto que você recuperou na etapa anterior, agora você pode extrair valores e categorias conforme descrito abaixo. Comece selecionando Editar coluna > Adicionar coluna baseada nesta coluna... no menu da coluna. Na próxima janela de diálogo, você pode usar vários comandos GREL específicos.
Extrair valores de parâmetros de template: extractFromTemplate
Use a seguinte sintaxe:
extractFromTemplate(value, "BHL", "source")[0]
Onde você substitui BHL pelo nome do template (sem as chaves) e fonte pelo parâmetro do qual você deseja extrair o valor. Esta sintaxe GREL retornará o primeiro (e geralmente o único) valor desse parâmetro, por exemplo, https://www.flickr.com/photos/biodivlibrary/10329116385.
Extrair categorias do Wikimedia Commons: value.extractCategories
Use a seguinte sintaxe:
value.extractCategories().join('#')
Esta sintaxe GREL retornará todas as categorias mencionadas no Wikitext, separadas pelo caractere #, que você poderá então usar para dividir a célula resultante conforme necessário.
Reconciliar outras colunas com o Wikidata
Os dados estruturados no Commons descrevem os arquivos no Commons utilizando itens e propriedades (multilíngues) do Wikidata.
Suponha que você tenha uma ou mais colunas em seu projeto com dados (novos) que deseja adicionar aos arquivos como dados estruturados. Os dados nas células dessas colunas podem corresponder a itens do Wikidata. Você precisará reconciliá-los para ajudar o OpenRefine a entender que será necessário fazer a ligação com esses itens do Wikidata. Exemplos incluem:
- Criadores (caso possuam um item no Wikidata)
- Status de direitos autorais e licenças
- Elementos retratados, obras de arte, lugares, espécies, pessoas…
Você irá reconciliar essas colunas com o serviço de reconciliação do Wikidata, em inglês ou outro idioma que seja relevante (o inglês geralmente funciona bem). O serviço de reconciliação em inglês do Wikidata já vem instalado por padrão no OpenRefine.
As colunas reconciliadas têm um cabeçalho sublinhado com uma faixa verde escura; os valores na coluna são hyperlinks azuis que apontam para os itens do Wikidata.
- Comece a reconciliação de uma coluna com o Wikidata
- Configurando a reconciliação
- A coluna está reconciliada com o Wikidata; os itens são azuis e exibem uma pré-visualização quando você passa o mouse sobre eles.
Você pode encontrar mais sobre como reconciliar dados no manual do usuário do OpenRefine e no Wikidata.
Crie seu esquema de edição
Por fim, você criará um esquema no OpenRefine para modelar as edições do Wikimedia Commons que o OpenRefine realizará para cada linha do seu projeto.
Clique na aba Schema
na barra azul acima do seu conjunto de dados ou vá até o menu da extensão Wikidata/Wikibase e selecione Edit Wikibase schema
. Inicialmente, você verá uma janela de esquema vazia. Verifique se o texto informativo no topo menciona o Wikimedia Commons; se mencionar o Wikidata, você precisará mudar sua instância do Wikibase para o Wikimedia Commons através da opção Selecionar instância do Wikibase... no menu da extensão Wikibase.
Clique no link azul + add media
. Vários campos aparecerão.
Agora você pode digitar e/ou arrastar e soltar todas as informações que deseja incluir nos metadados dos arquivos.
- No campo principal (que diz
type entity or drag reconciled column here
), você irá arrastar sua coluna reconciliada de nomes de arquivos (veja as instruções anteriores). Atenção: essa coluna deve ter uma linha verde (como resultado da reconciliação). - Legendas: se você criou colunas com legendas de arquivos, pode arrastá-las para cá. Certifique-se de adicionar o idioma correspondente.
- Declarações: clique em
+ add statement
para adicionar declarações de dados estruturados, uma por uma. Você pode digitar valores que sejam os mesmos para todos os seus arquivos ou arrastar colunas (reconciliadas).
Consulte de esquemas no manual do usuário do OpenRefine para obter informações gerais sobre esquemas.
Certifique-se de seguir as convenções de modelagem de dados do Wikimedia Commons
Não crie seu próprio método para descrever arquivos, certifique-se de seguir as melhores práticas do Wikimedia Commons. Em caso de dúvida, peça feedback à comunidade do Wikimedia Commons na página de discussão geral de Dados Estruturados.
Os modelos de dados para dados estruturados sobre arquivos de mídia no Commons são explicados e discutidos em Commons:Structured data/Modeling.
Declarações básicas de dados estruturados para todos os arquivos do Wikimedia Commons são:
Dados estruturados para adicionar | Instruções breves | Instruções detalhadas sobre o modelo de dados em dados estruturados |
---|---|---|
Legenda(s) dos arquivos (multilíngue) | Uma descrição textual (curta) do arquivo, em pelo menos um idioma. Texto simples; sem marcação Wiki ou hyperlinks. | Diretrizes de modelagem de dados: Legendas dos arquivos |
Data | Normalmente, a data em que o arquivo foi criado; usando uma declaração inception (P571). | Diretrizes de modelagem de dados: Data |
Fonte do arquivo | Informações sobre de onde o arquivo foi retirado. É trabalho próprio do uploader, foi carregado de um site externo, ...? Tipicamente usando uma declaração source of file (P7482). | Diretrizes de modelagem de dados: Fonte do arquivo |
Criador | Quem criou o arquivo? Tipicamente descrito com uma declaração creator (P170). | Diretrizes de modelagem de dados: Criador do arquivo |
Status de direitos autorais e licença | O arquivo ainda está sob copyright ou é de domínio público? Se ainda estiver sob direitos autorais, qual(is) licença(s) se aplicam? Usando copyright status (P6216) e copyright license (P275). | Diretrizes de modelagem de dados: Direitos autorais e licenças |
- Em muitos casos, faz sentido adicionar uma ou mais declarações depicts (P180). Veja Diretrizes de modelagem de dados: Representação
- Se o arquivo mostra uma obra de arte, as declarações main subject (P921) e digital representation of (P6243) também são comumente usadas. Veja Diretrizes de modelagem de dados: Obras de arte visuais
Visualize e envie suas edições para o Wikimedia Commons
Você pode visualizar suas edições clicando na aba Preview
no topo do seu esquema. A aba Issues
informará sobre erros que possam estar presentes nos seus dados ou esquema, para que você possa corrigi-los.
Dica: Comece editando apenas um ou alguns arquivos primeiro, para testar suas edições e verificar se estão boas. Corrigir erros após um grande lote é possível, mas testar em uma fase inicial é melhor.
Quando você estiver pronto para enviar suas edições, selecione Upload edits to Wikibase...
no menu da extensão Wikidata/Wikibase e faça login com suas credenciais do Wikimedia Commons. O OpenRefine irá sugerir que você use uma senha de bot, mas, se preferir, pode ignorar esse aviso. Forneça um resumo descritivo da edição. Não é necessário alterar o valor de maxlag. Clique em Upload edits
e sua edição em lote será iniciada.
Você verá seus arquivos recentemente editados em seu próprio histórico de edições no Wikimedia Commons.
- Visualize suas edições através da aba
Preview
. - Inicie o processo de envio
- Digite seu nome de usuário e senha nos projetos Wikimedia
- Forneça um resumo descritivo da edição
Consulte a sobre envio no manual do usuário do OpenRefine para obter informações gerais sobre esse recurso.
Corrigindo erros com a ferramenta EditGroups
Ao verificar suas contribuições de usuário, você verá suas edições recentes no Wikimedia Commons feitas com o OpenRefine. Cada edição do OpenRefine exibe um link (detalhes) após o resumo da edição, que direciona para o lote de edições na ferramenta .
No EditGroups, lotes inteiros podem ser facilmente desfeitos, caso tenham sido cometidos erros.
Todos os lotes do Wikimedia Commons feitos com o OpenRefine estão listados em https://editgroups-commons.toolforge.org/?tool=OR.
- Lotes do OpenRefine listados na ferramenta EditGroups
- Um lote de envio do OpenRefine na ferramenta EditGroups; ele pode ser revertido caso erros graves tenham sido cometidos