Дампы данных — это загружаемая версия данных Freebase. Они представляют собой снимок данных, хранящихся в Freebase, и схемы, которая их структурирует, и предоставляются по той же лицензии CC-BY. Сопоставления Freebase/Wikidata предоставляются по лицензии CC0.
Freebase Triples
Этот набор данных содержит все факты, которые в настоящее время есть в Freebase. |
| 22 ГБ gzip 250 ГБ несжатого |
Данные RDF сериализуются с использованием формата N-Triples, кодируются как текст UTF-8 и сжимаются с помощью Gzip.
<http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.date> "2001-02"^^<http://www.w3.org/2001/XMLSchema#gYearMonth> . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.source> <http://rdf.freebase.com/ns/g.11x1gf2m6> . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/type.object.type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage> . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.rate> 4.5 . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage> .
Если вы пишете собственный код для анализа RDF-дампов, зачастую эффективнее выполнять прямое чтение из файла GZip, а не сначала извлекать данные, а затем обрабатывать несжатые данные.
<subject> <predicate> <object> .
Примечание: В Freebase объекты имеют MID, которые выглядят как /m/012rkqx
. В RDF эти MID становятся m.012rkqx . Аналогично, схемы Freebase, например /common/topic
записываются как common.topic
.
Субъект — это идентификатор объекта Freebase. Это может быть MID Freebase (например, m.012rkqx) для тем и CVT или понятный человеку идентификатор (например, common.topic
) для схемы.
Предикат всегда представляет собой понятный человеку идентификатор свойства Freebase или свойства из стандартного словаря RDF, например RDFS . Пространства имён внешних ключей Freebase также используются в качестве предикатов для упрощения поиска ключей по пространству имён.
Поле «Объект» может содержать MID Freebase для объекта или понятный человеку идентификатор схемы из Freebase или других словарей RDF. Оно также может включать литеральные значения, такие как строки, логические значения и числовые значения.
Описания тем часто содержат переносы строк. Чтобы каждая тройка умещалась на одной строке, мы экранировали переносы строк символом «\n».
Freebase Deleted Triples
Мы также предоставляем дамп триплетов, удалённых из Freebase с течением времени. Это разовый дамп, доступный до марта 2013 года. В будущем мы могли бы рассмотреть возможность периодического обновления недавно удалённых триплетов, но сейчас у нас нет определённых сроков, поэтому мы предоставляем только этот разовый дамп.
Дамп распространяется в виде файла .tar.gz (2,1 ГБ в сжатом виде, 7,7 ГБ в несжатом виде). Он содержит 63 036 271 удалённую тройку в 20 файлах (отдельные файлы не несут никакой смысловой нагрузки, просто проще работать с несколькими файлами меньшего размера, чем с одним большим).
Благодарим Чуна Хау Тана и Джона Джаннандреа за то, что они сделали возможным публикацию этих данных.
2 ГБ gzip 8 ГБ несжатого |
Формат данных, по сути, CSV, но с одной важной оговоркой. Поле «Объект» может содержать любые символы, включая запятые (а также любые другие разумные разделители, которые только можно придумать). Однако все остальные поля гарантированно не содержат запятых, поэтому данные по-прежнему могут быть проанализированы однозначно.
Столбцы в наборе данных определены как:
- creation_timestamp (время эпохи Unix в миллисекундах)
- создатель
- deletion_timestamp (время эпохи Unix в миллисекундах)
- удалятель
- предмет (MID)
- предикат (MID)
- объект (MID/Литерал)
- код_языка
1352854086000,/user/mwcl_wikipedia_en,1352855856000,/user/mwcl_wikipedia_en,/m/03r90,/type/object/key,/wikipedia/en/$B816,en 1355171076000,/user/mwcl_musicbrainz,1364258198000,/user/turtlewax_bot,/m/0nncp9z,/music/recording/artist,/m/01vbfm4,en 1176630380000,/user/mwcl_images,1335928144000,/user/gardening_bot,/m/029w57m,/common/image/size,/m/0kly56,en 1292854917000,/user/mwcl_musicbrainz,1364823418001,/user/mbz_pipeline_merge_bot,/m/0fv1vl8,/type/object/type,/common/topic,en 1205530905000,/user/mwcl_images,1336022041000,/user/gardening_bot,/m/01x5scz,/common/licensed_object/license,/m/02x6b,en 1302391361000,/user/content_administrator,1336190973000,/user/gardening_bot,/m/0gkb45y,/type/object/type,/type/content,en 1176728962002,/user/mwcl_images,1335954186000,/user/gardening_bot,/m/08430h,/common/topic/image,/m/02cs147,en 1172002568007,/user/mwcl_chefmoz,1283588560000,/user/delete_bot,/m/01z4c1z,/type/object/name,La Casa Rosa Mexican Restaurant,en
Сопоставления Freebase/Wikidata
Данные созданы на основе дампа Wikidata от 28 октября 2013 года и содержат только те ссылки, которые имеют как минимум две общие ссылки Wikipedia и ни одной несовместимой ссылки Wikipedia. Более того, строки отсортированы по количеству общих ссылок Wikipedia (хотя в Turtle это не имеет особого значения). |
| 21,2 МБ gzip 242,9 МБ в несжатом виде |
Данные RDF сериализуются с использованием формата N-Triples, кодируются как текст UTF-8 и сжимаются с помощью Gzip.
<http://rdf.freebase.com/ns/m.0695j> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q6718> . <http://rdf.freebase.com/ns/m.05nrg> <http://www.w3.org/2002/07/owl#sameAs7> <http://www.wikidata.org/entity/Q538> . <http://rdf.freebase.com/ns/m.0jgd> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q414> . <http://rdf.freebase.com/ns/m.0d_23> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q2537> . <http://rdf.freebase.com/ns/m.04g7d> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q315> .
Лицензия
Дампы данных Freebase предоставляются бесплатно для любых целей и регулярно обновляются компанией Google. Они распространяются, как и сам Freebase, по лицензии Creative Commons Attribution (CC-BY) и их использование регулируется Условиями обслуживания . Сопоставление идентификаторов Freebase/Wikidata предоставляется по лицензии CC0 и может использоваться без ограничений.
Ссылаясь
Если вы хотите сослаться на эти свалки данных в публикации, вы можете использовать:
Google, Freebase Data Dumps, https://developers.google.com/freebase/data, <month> <day>, <year>
Или как BibTeX:
@misc{freebase:datadumps, title = "Freebase Data Dumps" author = "Google", howpublished = "\url{https://developers.google.com/freebase/data}", edition = "<month> <day>, <year>", year = "<year>" }