Zrzuty danych

Zrzuty danych to wersja danych z Freebase, którą można pobrać. Stanowią one migawkę danych przechowywanych w Freebase i schematu, który je strukturyzuje, i są udostępniane na tej samej licencji CC-BY. Mapowania Freebase/Wikidata są udostępniane na licencji CC0.

  1. Freebase Triples
  2. Usunięte trójki Freebase
  3. Mapowania Freebase/Wikidata
  4. Licencja
  5. Cytowanie

Freebase Triples

Ten zbiór danych zawiera wszystkie fakty, które są obecnie w Freebase.
  • Łączna liczba trójek: 1,9 mld
  • Aktualizacja: co tydzień
  • Format danych: N-Triples RDF
  • Licencja: CC-BY
22 GB gzip
250 GB bez kompresji

Dane RDF są serializowane w formacie N-Triples, kodowane jako tekst UTF-8 i kompresowane za pomocą Gzip.

RDF
<http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.date> "2001-02"^^<http://www.w3.org/2001/XMLSchema#gYearMonth>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.source> <http://rdf.freebase.com/ns/g.11x1gf2m6>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/type.object.type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.rate> 4.5 .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .

Jeśli piszesz własny kod do analizowania zrzutów RDF, często bardziej efektywne jest odczytywanie bezpośrednio z pliku GZip niż najpierw wyodrębnianie danych, a potem przetwarzanie nieskompresowanych danych.

<subject>  <predicate>  <object> .

Uwaga: w Freebase obiekty mają identyfikatory MID, które wyglądają jak /m/012rkqx. W RDF te identyfikatory MID stają się m.012rkqx. Podobnie schemat Freebase, np. /common/topic, jest zapisywany jako common.topic.

Temat to identyfikator obiektu Freebase. Może to być identyfikator MID Freebase (np. m.012rkqx) w przypadku tematów i CVT lub identyfikator zrozumiały dla człowieka (np. common.topic) dla schematu.

Predykat to zawsze czytelny dla użytkownika identyfikator usługi Freebase lub usługi ze standardowego słownika RDF, np. RDFS. Przestrzenie nazw kluczy obcych Freebase są też używane jako predykaty, aby ułatwić wyszukiwanie kluczy według przestrzeni nazw.

Pole obiektu może zawierać identyfikator MID Freebase dla obiektu lub identyfikator czytelny dla człowieka dla schematu z Freebase lub innych słowników RDF. Może też zawierać wartości dosłowne, takie jak ciągi znaków, wartości logiczne i wartości liczbowe.

Opisy tematów często zawierają znaki nowej linii. Aby każdy trójka zmieściła się w jednym wierszu, znaki nowego wiersza zostały zastąpione ciągiem znaków „\n”.

Usunięte trójki Freebase

Udostępniamy też zrzut trójek, które zostały z czasem usunięte z Freebase. Jest to jednorazowy zrzut danych do marca 2013 r. W przyszłości możemy rozważyć okresowe aktualizowanie informacji o ostatnio usuniętych trójkach, ale obecnie nie mamy konkretnego harmonogramu i udostępniamy tylko ten jednorazowy zrzut.

Zrzut jest rozpowszechniany jako plik .tar.gz (2,1 GB po skompresowaniu, 7,7 GB po rozpakowaniu). Zawiera 63 036 271 usuniętych trójek w 20 plikach (poszczególne pliki nie mają szczególnego znaczenia, po prostu łatwiej jest manipulować kilkoma mniejszymi plikami niż jednym ogromnym plikiem).

Dziękujemy Chun How Tanowi i Johnowi Giannandrei za udostępnienie tych danych.

  • Łączna liczba trójek: 63 mln
  • Aktualizacja: 9 czerwca 2013 r.
  • Format danych: CSV
  • Licencja: CC-BY
2 GB gzip
8 GB bez kompresji

Format danych to w zasadzie CSV z jednym ważnym zastrzeżeniem. Pole obiektu może zawierać dowolne znaki, w tym przecinki (a także inne rozsądne ograniczniki). Jednak w pozostałych polach nie ma przecinków, więc dane można jednoznacznie przeanalizować.

Kolumny w zbiorze danych są zdefiniowane w ten sposób:

  • creation_timestamp (czas uniksowy w milisekundach)
  • twórca,
  • deletion_timestamp (czas uniksowy w milisekundach)
  • osoba usuwająca
  • subject (MID)
  • predicate (MID)
  • object (MID/Literal)
  • language_code
CSV
1352854086000,/user/mwcl_wikipedia_en,1352855856000,/user/mwcl_wikipedia_en,/m/03r90,/type/object/key,/wikipedia/en/$B816,en
1355171076000,/user/mwcl_musicbrainz,1364258198000,/user/turtlewax_bot,/m/0nncp9z,/music/recording/artist,/m/01vbfm4,en
1176630380000,/user/mwcl_images,1335928144000,/user/gardening_bot,/m/029w57m,/common/image/size,/m/0kly56,en
1292854917000,/user/mwcl_musicbrainz,1364823418001,/user/mbz_pipeline_merge_bot,/m/0fv1vl8,/type/object/type,/common/topic,en
1205530905000,/user/mwcl_images,1336022041000,/user/gardening_bot,/m/01x5scz,/common/licensed_object/license,/m/02x6b,en
1302391361000,/user/content_administrator,1336190973000,/user/gardening_bot,/m/0gkb45y,/type/object/type,/type/content,en
1176728962002,/user/mwcl_images,1335954186000,/user/gardening_bot,/m/08430h,/common/topic/image,/m/02cs147,en
1172002568007,/user/mwcl_chefmoz,1283588560000,/user/delete_bot,/m/01z4c1z,/type/object/name,La Casa Rosa Mexican Restaurant,en

Mapowania Freebase/Wikidata

Dane zostały utworzone na podstawie zrzutu z Wikidanych z 28 października 2013 r. i zawierają tylko te linki, które mają co najmniej 2 wspólne linki do Wikipedii i nie mają żadnego linku do Wikipedii, z którym się nie zgadzają. Ponadto wiersze są sortowane według liczby wspólnych linków do Wikipedii (chociaż w przypadku formatu Turtle nie ma to większego znaczenia).
  • Łączna liczba potrójnych kombinacji: 2,1 mln
  • Ostatnia aktualizacja: 28 października 2013 r.
  • Format danych: N-Triples RDF
  • Licencja: CC0
21,2 MB gzip
242,9 MB bez kompresji

Dane RDF są serializowane w formacie N-Triples, kodowane jako tekst UTF-8 i kompresowane za pomocą Gzip.

RDF
<http://rdf.freebase.com/ns/m.0695j>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q6718> .
<http://rdf.freebase.com/ns/m.05nrg>  <http://www.w3.org/2002/07/owl#sameAs7>  <http://www.wikidata.org/entity/Q538> .
<http://rdf.freebase.com/ns/m.0jgd>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q414> .
<http://rdf.freebase.com/ns/m.0d_23>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q2537> .
<http://rdf.freebase.com/ns/m.04g7d>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q315> .

Licencja

Zrzuty danych Freebase są udostępniane bezpłatnie do dowolnych celów i regularnie aktualizowane przez Google. Są one rozpowszechniane, podobnie jak sama baza Freebase, na licencji Creative Commons Attribution (CC-BY), a ich używanie podlega Warunkom korzystania z usługi. Mapowania identyfikatorów Freebase/Wikidata są udostępniane na licencji CC0 i można ich używać bez ograniczeń.

Cytowanie

Jeśli chcesz podać źródło tych zrzutów danych w publikacji, możesz użyć tego formatu:

Google, Freebase Data Dumps, https://developers.google.com/freebase/data, <month> <day>, <year>

lub w formacie BibTeX:

BibTex
@misc{freebase:datadumps,
  title = "Freebase Data Dumps"
  author = "Google",
  howpublished = "\url{https://developers.google.com/freebase/data}",
  edition = "<month> <day>, <year>",
  year = "<year>"
}