Zrzuty danych

Zrzuty danych to dostępna do pobrania wersja danych w Freebase. Stanowią one zrzut danych przechowywanych w Freebase i schemacie, który je nadaje, oraz są udostępniane na tej samej licencji CC-BY. Mapowania Freebase/Wikidata są udostępniane na licencji CC0.

  1. potrójny Freebase
  2. Potrójne usunięte Freebase
  3. Mapowania Freebase/Wikidata
  4. Licencja
  5. Cytowanie

Triple Freebase

Ten zbiór danych zawiera wszystkie fakty aktualnie w Freebase.
  • Łącznie trzykrotnie: 1,9 miliarda
  • Aktualizacja:co tydzień
  • Format danych: N-Triples RDF
  • Licencja: CC-BY
Nieskompresowany 22 GB gzip
250 GB

Dane RDF są uszeregowane w formacie N-Triples z kodowaniem UTF-8 i skompresowane za pomocą Gzip.

RDF
<http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.date> "2001-02"^^<http://www.w3.org/2001/XMLSchema#gYearMonth>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.source> <http://rdf.freebase.com/ns/g.11x1gf2m6>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/type.object.type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.rate> 4.5 .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .

Jeśli piszesz własny kod do analizowania RDF, często wydajniej jest odczytywać go bezpośrednio z pliku Gzip, zamiast najpierw wyodrębniać dane, a następnie je przetwarzać.

<subject>  <predicate>  <object> .

Uwaga: w Freebase obiekty MID mają postać /m/012rkqx. W RDF numery MID mają postać m.012rkqx. Podobnie schemat Freebase taki jak /common/topic jest zapisywany jako common.topic.

subject to identyfikator obiektu Freebase. Może to być Freebase MID (np. m.012rkqx) dla tematów i identyfikatorów CVT lub identyfikatora zrozumiałego dla człowieka (np. common.topic).

Predykat to zawsze czytelny dla człowieka identyfikator usługi Freebase lub właściwość ze standardowego słownika RDF, np. RDFS. Jako separatorów można też używać przestrzeni nazw kluczy obcych w Freebase, co ułatwia wyszukiwanie kluczy według przestrzeni nazw.

Pole obiektu może zawierać wskaźnik MID Freebase MID dla obiektu albo czytelny dla człowieka identyfikator schematu z Freebase lub innych słowników RDF. Może także zawierać wartości literału takie jak ciągi znaków, wartości logiczne i liczby.

Opisy tematów często zawierają nowe wiersze. Aby dopasować każdą potrójną linię, zmieniliśmy znaczenie znaków nowego wiersza: „\n”.

Freebase potrójne

Udostępniamy też kopię trójstronnych plików usuniętych z Freebase na przestrzeni czasu. To jednorazowy zrzut do marca 2013 roku. W przyszłości możemy rozważyć okresowe aktualizowanie ostatnio usuniętych trójek, ale obecnie nie mamy na to żadnego harmonogramu i jedynie zdajemy sobie sprawę, że to jednorazowy zrzut.

Zrzut jest rozpowszechniany w postaci pliku .tar.gz (skompresowanego 2,1 GB lub 7,7 Gb). Zawiera 63 036 271 potrójnych plików usuniętych w 20 plikach (nie ma znaczenia dla poszczególnych plików – łatwiej jest po prostu przenieść kilka mniejszych plików niż jeden wielki).

Dzięki Chun How'owi i Johnowi Giannandrei za to udostępnienie danych.

  • Potrójnie: 63 miliony
  • Aktualizacja: 9 czerwca 2013 r.
  • Format danych: CSV
  • Licencja: CC-BY
Nieskompresowany 2 GB gzip
8 GB

Format danych to zasadniczo plik CSV z jednym istotnym zastrzeżeniem. Pole obiektu może zawierać dowolne znaki, w tym przecinki (oraz inne rozsądne separatory). Wszystkie pozostałe pola nie mogą jednak zawierać przecinków, dlatego dane mogą zostać przeanalizowane w jednoznaczny sposób.

Kolumny w zbiorze danych są zdefiniowane w ten sposób:

  • create_timestamp (czas uniksowy w milisekundach)
  • twórca
  • delete_timestamp (czas uniksowy w milisekundach)
  • detektor
  • temat (MID)
  • predykat (MID)
  • obiekt (MID/literal)
  • kod_języka
CSV
1352854086000,/user/mwcl_wikipedia_en,1352855856000,/user/mwcl_wikipedia_en,/m/03r90,/type/object/key,/wikipedia/en/$B816,en
1355171076000,/user/mwcl_musicbrainz,1364258198000,/user/turtlewax_bot,/m/0nncp9z,/music/recording/artist,/m/01vbfm4,en
1176630380000,/user/mwcl_images,1335928144000,/user/gardening_bot,/m/029w57m,/common/image/size,/m/0kly56,en
1292854917000,/user/mwcl_musicbrainz,1364823418001,/user/mbz_pipeline_merge_bot,/m/0fv1vl8,/type/object/type,/common/topic,en
1205530905000,/user/mwcl_images,1336022041000,/user/gardening_bot,/m/01x5scz,/common/licensed_object/license,/m/02x6b,en
1302391361000,/user/content_administrator,1336190973000,/user/gardening_bot,/m/0gkb45y,/type/object/type,/type/content,en
1176728962002,/user/mwcl_images,1335954186000,/user/gardening_bot,/m/08430h,/common/topic/image,/m/02cs147,en
1172002568007,/user/mwcl_chefmoz,1283588560000,/user/delete_bot,/m/01z4c1z,/type/object/name,La Casa Rosa Mexican Restaurant,en

Mapowania Freebase/Wikidata

Dane zostały utworzone na podstawie zrzutu Wikidata-Dump z 28 października 2013 r. i zawierają tylko te linki, które mają co najmniej dwa typowe linki do Wikipedii i nie są ze sobą zgodne. Ponadto wiersze są posortowane według liczby popularnych linków w Wikipedii (chociaż nie ma to znaczenia w przypadku żółwia).
  • Łączna liczba trzech: 2,1 mln
  • Aktualizacja: 28 października 2013 r.
  • Format danych: N-Triples RDF
  • Licencja: CC0
21,2 MB po skompresowaniu
242,9 MB

Dane RDF są uszeregowane w formacie N-Triples z kodowaniem UTF-8 i skompresowane za pomocą Gzip.

RDF
<http://rdf.freebase.com/ns/m.0695j>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q6718> .
<http://rdf.freebase.com/ns/m.05nrg>  <http://www.w3.org/2002/07/owl#sameAs7>  <http://www.wikidata.org/entity/Q538> .
<http://rdf.freebase.com/ns/m.0jgd>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q414> .
<http://rdf.freebase.com/ns/m.0d_23>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q2537> .
<http://rdf.freebase.com/ns/m.04g7d>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q315> .

Licencja

Zrzuty danych Freebase są bezpłatnie udostępniane do dowolnych celów dzięki regularnym aktualizacjom od Google. Są one rozpowszechniane, tak jak Freebase, zgodnie z zasadami Creative Commons Uznanie autorstwa (CC-BY) i podlegają Warunkom korzystania z usługi. Mapowania identyfikatorów Freebase/Wikidata są udostępniane w ramach licencji CC0 i można ich używać bez ograniczeń.

Cytowanie

Jeśli chcesz zacytować te informacje o publikacji, możesz:

Google, Freebase Data Dumps, https://developers.google.com/freebase/data, <month> <day>, <year>

Lub jako BibTeX:

BibTex
@misc{freebase:datadumps,
  title = "Freebase Data Dumps"
  author = "Google",
  howpublished = "\url{https://developers.google.com/freebase/data}",
  edition = "<month> <day>, <year>",
  year = "<year>"
}