Zrzuty danych to wersja danych z Freebase, którą można pobrać. Stanowią one migawkę danych przechowywanych w Freebase i schematu, który je strukturyzuje, i są udostępniane na tej samej licencji CC-BY. Mapowania Freebase/Wikidata są udostępniane na licencji CC0.
Freebase Triples
Ten zbiór danych zawiera wszystkie fakty, które są obecnie w Freebase. |
|
22 GB gzip 250 GB bez kompresji |
Dane RDF są serializowane w formacie N-Triples, kodowane jako tekst UTF-8 i kompresowane za pomocą Gzip.
<http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.date> "2001-02"^^<http://www.w3.org/2001/XMLSchema#gYearMonth> . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.source> <http://rdf.freebase.com/ns/g.11x1gf2m6> . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/type.object.type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage> . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.rate> 4.5 . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage> .
Jeśli piszesz własny kod do analizowania zrzutów RDF, często bardziej efektywne jest odczytywanie bezpośrednio z pliku GZip niż najpierw wyodrębnianie danych, a potem przetwarzanie nieskompresowanych danych.
<subject> <predicate> <object> .
Uwaga: w Freebase obiekty mają identyfikatory MID, które wyglądają jak /m/012rkqx
. W RDF te identyfikatory MID stają się m.012rkqx. Podobnie schemat Freebase, np. /common/topic
, jest zapisywany jako common.topic
.
Temat to identyfikator obiektu Freebase. Może to być identyfikator MID Freebase (np. m.012rkqx) w przypadku tematów i CVT lub identyfikator zrozumiały dla człowieka (np. common.topic
) dla schematu.
Predykat to zawsze czytelny dla użytkownika identyfikator usługi Freebase lub usługi ze standardowego słownika RDF, np. RDFS. Przestrzenie nazw kluczy obcych Freebase są też używane jako predykaty, aby ułatwić wyszukiwanie kluczy według przestrzeni nazw.
Pole obiektu może zawierać identyfikator MID Freebase dla obiektu lub identyfikator czytelny dla człowieka dla schematu z Freebase lub innych słowników RDF. Może też zawierać wartości dosłowne, takie jak ciągi znaków, wartości logiczne i wartości liczbowe.
Opisy tematów często zawierają znaki nowej linii. Aby każdy trójka zmieściła się w jednym wierszu, znaki nowego wiersza zostały zastąpione ciągiem znaków „\n”.
Usunięte trójki Freebase
Udostępniamy też zrzut trójek, które zostały z czasem usunięte z Freebase. Jest to jednorazowy zrzut danych do marca 2013 r. W przyszłości możemy rozważyć okresowe aktualizowanie informacji o ostatnio usuniętych trójkach, ale obecnie nie mamy konkretnego harmonogramu i udostępniamy tylko ten jednorazowy zrzut.
Zrzut jest rozpowszechniany jako plik .tar.gz (2,1 GB po skompresowaniu, 7,7 GB po rozpakowaniu). Zawiera 63 036 271 usuniętych trójek w 20 plikach (poszczególne pliki nie mają szczególnego znaczenia, po prostu łatwiej jest manipulować kilkoma mniejszymi plikami niż jednym ogromnym plikiem).
Dziękujemy Chun How Tanowi i Johnowi Giannandrei za udostępnienie tych danych.
2 GB gzip 8 GB bez kompresji |
Format danych to w zasadzie CSV z jednym ważnym zastrzeżeniem. Pole obiektu może zawierać dowolne znaki, w tym przecinki (a także inne rozsądne ograniczniki). Jednak w pozostałych polach nie ma przecinków, więc dane można jednoznacznie przeanalizować.
Kolumny w zbiorze danych są zdefiniowane w ten sposób:
- creation_timestamp (czas uniksowy w milisekundach)
- twórca,
- deletion_timestamp (czas uniksowy w milisekundach)
- osoba usuwająca
- subject (MID)
- predicate (MID)
- object (MID/Literal)
- language_code
1352854086000,/user/mwcl_wikipedia_en,1352855856000,/user/mwcl_wikipedia_en,/m/03r90,/type/object/key,/wikipedia/en/$B816,en 1355171076000,/user/mwcl_musicbrainz,1364258198000,/user/turtlewax_bot,/m/0nncp9z,/music/recording/artist,/m/01vbfm4,en 1176630380000,/user/mwcl_images,1335928144000,/user/gardening_bot,/m/029w57m,/common/image/size,/m/0kly56,en 1292854917000,/user/mwcl_musicbrainz,1364823418001,/user/mbz_pipeline_merge_bot,/m/0fv1vl8,/type/object/type,/common/topic,en 1205530905000,/user/mwcl_images,1336022041000,/user/gardening_bot,/m/01x5scz,/common/licensed_object/license,/m/02x6b,en 1302391361000,/user/content_administrator,1336190973000,/user/gardening_bot,/m/0gkb45y,/type/object/type,/type/content,en 1176728962002,/user/mwcl_images,1335954186000,/user/gardening_bot,/m/08430h,/common/topic/image,/m/02cs147,en 1172002568007,/user/mwcl_chefmoz,1283588560000,/user/delete_bot,/m/01z4c1z,/type/object/name,La Casa Rosa Mexican Restaurant,en
Mapowania Freebase/Wikidata
Dane zostały utworzone na podstawie zrzutu z Wikidanych z 28 października 2013 r. i zawierają tylko te linki, które mają co najmniej 2 wspólne linki do Wikipedii i nie mają żadnego linku do Wikipedii, z którym się nie zgadzają. Ponadto wiersze są sortowane według liczby wspólnych linków do Wikipedii (chociaż w przypadku formatu Turtle nie ma to większego znaczenia). |
|
21,2 MB gzip 242,9 MB bez kompresji |
Dane RDF są serializowane w formacie N-Triples, kodowane jako tekst UTF-8 i kompresowane za pomocą Gzip.
<http://rdf.freebase.com/ns/m.0695j> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q6718> . <http://rdf.freebase.com/ns/m.05nrg> <http://www.w3.org/2002/07/owl#sameAs7> <http://www.wikidata.org/entity/Q538> . <http://rdf.freebase.com/ns/m.0jgd> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q414> . <http://rdf.freebase.com/ns/m.0d_23> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q2537> . <http://rdf.freebase.com/ns/m.04g7d> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q315> .
Licencja
Zrzuty danych Freebase są udostępniane bezpłatnie do dowolnych celów i regularnie aktualizowane przez Google. Są one rozpowszechniane, podobnie jak sama baza Freebase, na licencji Creative Commons Attribution (CC-BY), a ich używanie podlega Warunkom korzystania z usługi. Mapowania identyfikatorów Freebase/Wikidata są udostępniane na licencji CC0 i można ich używać bez ograniczeń.
Cytowanie
Jeśli chcesz podać źródło tych zrzutów danych w publikacji, możesz użyć tego formatu:
Google, Freebase Data Dumps, https://developers.google.com/freebase/data, <month> <day>, <year>
lub w formacie BibTeX:
@misc{freebase:datadumps, title = "Freebase Data Dumps" author = "Google", howpublished = "\url{https://developers.google.com/freebase/data}", edition = "<month> <day>, <year>", year = "<year>" }