Despejos de dados

Os despejos de dados são uma versão para download dos dados no Freebase. Eles constituem um instantâneo dos dados armazenados no Freebase e no esquema que os estrutura e são fornecidos sob a mesma licença CC-BY. Os mapeamentos do Freebase/Wikidata são fornecidos sob a licença CC0.

  1. Triplos do Freebase
  2. Triplos do Freebase excluídos
  3. Mapeamentos do Freebase/Wikidata
  4. Licença
  5. Citação

Triplos Freebase

Este conjunto de dados contém todos os fatos atualmente no Freebase.
  • Total de triplos: 1,9 bilhão
  • Atualizado: semanalmente
  • Formato de dados: RDF N-Triplos
  • Licença: CC-BY
22 GB gzip
250 GB descompactado

Os dados RDF são serializados usando o formato N-triplos, codificados como texto UTF-8 e compactados com Gzip.

RDF
<http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.date> "2001-02"^^<http://www.w3.org/2001/XMLSchema#gYearMonth>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.source> <http://rdf.freebase.com/ns/g.11x1gf2m6>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/type.object.type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.rate> 4.5 .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .

Se você estiver escrevendo seu próprio código para analisar os despejos de RDF, será mais eficiente ler o arquivo GZip diretamente do que extrair os dados primeiro e depois processar os dados descompactados.

<subject>  <predicate>  <object> .

Observação: no Freebase, os objetos têm MIDs que se parecem com /m/012rkqx. No RDF, esses MIDs se tornam m.012rkqx. Da mesma forma, o esquema do Freebase como /common/topic é escrito como common.topic.

O assunto é o código de um objeto do Freebase. Pode ser um MID Freebase (por exemplo, m.012rkqx) para tópicos e CVTs ou um código legível (por exemplo, common.topic).

O predicado é sempre um código legível para uma propriedade do Freebase ou uma propriedade de um vocabulário RDF padrão, como RDFS. Os namespaces de chave estrangeira do Freebase também são usados como predicados para facilitar a pesquisa de chaves por namespace.

O campo de objeto pode conter um MID Freebase para um objeto ou um ID legível para esquema do Freebase ou de outros vocabulários RDF. Também pode incluir valores literais, como strings, booleanos e valores numéricos.

As descrições dos tópicos geralmente contêm novas linhas. Para fazer cada triplo caber em uma linha, escapamos novas linhas com "\n".

Triplos excluídos do Freebase

Também fornecemos um despejo de triplos que foram excluídos do Freebase ao longo do tempo. Esse despejo é feito uma única vez até março de 2013. No futuro, poderemos considerar fornecer atualizações periódicas de triplos excluídos recentemente, mas no momento não temos um cronograma específico para fazer isso, e estamos apenas fornecendo esse despejo único.

O despejo é distribuído como um arquivo .tar.gz (compactado em 2,1 Gb, não compactado em 7,7 Gb). Ele contém 63.036.271 triplos excluídos em 20 arquivos (não há um significado específico para os arquivos individuais, é apenas mais fácil manipular vários arquivos menores do que um arquivo grande).

Agradecemos a Chun How Tan e John Giannandrea por tornar possível esse lançamento de dados.

  • Total de triplos: 63 milhões
  • Atualizado em: 9 de junho de 2013
  • Formato de dados: CSV
  • Licença: CC-BY
2 GB gzip
8 GB descompactado

O formato de dados é essencialmente CSV com uma ressalva importante. O campo do objeto pode conter quaisquer caracteres, incluindo vírgulas (bem como outros delimitadores razoáveis que você possa imaginar). No entanto, os outros campos não contêm vírgulas, de modo que os dados ainda podem ser analisados sem ambiguidade.

As colunas no conjunto de dados são definidas como:

  • creation_timestamp (Hora Unix epoch em milissegundos)
  • criador
  • exclusão_timestamp (horário Unix da era Unix em milissegundos)
  • deletor
  • assunto (MID)
  • predicado (MID)
  • objeto (MID/Literal)
  • código_de_idioma
CSV
1352854086000,/user/mwcl_wikipedia_en,1352855856000,/user/mwcl_wikipedia_en,/m/03r90,/type/object/key,/wikipedia/en/$B816,en
1355171076000,/user/mwcl_musicbrainz,1364258198000,/user/turtlewax_bot,/m/0nncp9z,/music/recording/artist,/m/01vbfm4,en
1176630380000,/user/mwcl_images,1335928144000,/user/gardening_bot,/m/029w57m,/common/image/size,/m/0kly56,en
1292854917000,/user/mwcl_musicbrainz,1364823418001,/user/mbz_pipeline_merge_bot,/m/0fv1vl8,/type/object/type,/common/topic,en
1205530905000,/user/mwcl_images,1336022041000,/user/gardening_bot,/m/01x5scz,/common/licensed_object/license,/m/02x6b,en
1302391361000,/user/content_administrator,1336190973000,/user/gardening_bot,/m/0gkb45y,/type/object/type,/type/content,en
1176728962002,/user/mwcl_images,1335954186000,/user/gardening_bot,/m/08430h,/common/topic/image,/m/02cs147,en
1172002568007,/user/mwcl_chefmoz,1283588560000,/user/delete_bot,/m/01z4c1z,/type/object/name,La Casa Rosa Mexican Restaurant,en

Mapeamentos do Freebase/Wikidata

Os dados foram criados com base no Wikidata-Dump de 28 de outubro de 2013 e contêm apenas os links que têm pelo menos dois links comuns da Wikipédia, e não um único link conflitante. Além disso, as linhas são classificadas pelo número de links comuns da Wikipédia (embora, no Turtle isso não seja realmente importante).
  • Total de triplos: 2,1 mi
  • Atualizado em: 28 de outubro de 2013
  • Formato de dados: RDF N-Triplos
  • Licença: CC0
21,2 MB gzip
242,9 MB descompactado

Os dados RDF são serializados usando o formato N-triplos, codificados como texto UTF-8 e compactados com Gzip.

RDF
<http://rdf.freebase.com/ns/m.0695j>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q6718> .
<http://rdf.freebase.com/ns/m.05nrg>  <http://www.w3.org/2002/07/owl#sameAs7>  <http://www.wikidata.org/entity/Q538> .
<http://rdf.freebase.com/ns/m.0jgd>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q414> .
<http://rdf.freebase.com/ns/m.0d_23>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q2537> .
<http://rdf.freebase.com/ns/m.04g7d>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q315> .

Licença

Os despejos de dados do Freebase são fornecidos sem custo financeiro para qualquer finalidade, com atualizações regulares do Google. Eles são distribuídos, como o próprio Freebase, de acordo com a Atribuição do Creative Commons (também conhecida como CC-BY) e seu uso está sujeito aos Termos de Serviço. Os mapeamentos de código do Freebase/Wikidata são fornecidos no CC0 e podem ser usados sem restrições.

Citação

Se você deseja citar esses despejos de dados em uma publicação, pode usar:

Google, Freebase Data Dumps, https://developers.google.com/freebase/data, <month> <day>, <year>

Ou como BibTeX:

BibTex
@misc{freebase:datadumps,
  title = "Freebase Data Dumps"
  author = "Google",
  howpublished = "\url{https://developers.google.com/freebase/data}",
  edition = "<month> <day>, <year>",
  year = "<year>"
}