במסמך הזה מפורטות הבעיות הנפוצות ביותר שבעלי נתונים נתקלים בהן במהלך היצירה של מערכי נתונים של DSPL והעלאת הנתונים האלה ל-Public Data Explorer.
תוכן עניינים
שאלות כלליות
מה זה DSPL?
DSPL הוא ראשי תיבות של Dataset Publishing Language. זהו פורמט לייצוג של המטא-נתונים (מידע על מערך הנתונים, כמו השם והספק שלו, וכן המושגים שהוא מכיל ומציג) וגם של הנתונים בפועל של מערכי הנתונים. המטא-נתונים מצוינים ב-XML, ואילו הנתונים מסופקים בפורמט CSV.
מהם היתרונות המרכזיים של השימוש ב-DSPL?
DSPL תוכנן מהיסוד להמחשות חזותיות עשירות של נתונים, כמו אלה ב-Public Data Explorer. כדי ליצור את הדפים האלה, נדרשים מטא-נתונים מפורטים לגבי פרוסות, מאפיינים ומדדים, ישויות שאין להן תמיכה טובה בפורמטים אחרים של מערכי נתונים.
מערכת DSPL תומכת גם בייבוא של מערכי נתונים, בהיררכיות מושגים (למשל, 'country' הוא הצאצא של 'יבשת', נתונים שעברו קואורדינטות (geocoding) ועוד כמה תכונות ייחודיות שמשפרות את החוויה של ניתוח נתונים.
האם DSPL תחליף לפורמטים אחרים שמשמשים לחילופי נתונים ו/או לניתוח נתונים?
בדרך כלל לא. כפי שצוין בתשובה הקודמת, DSPL מיועד להמחשה חזותית ולניתוח נתונים אינטראקטיביים. היא לא מיועדת לשימוש בפורמט כללי להחלפת נתונים או לניתוח נתונים.
בסופו של דבר, אנחנו מתייחסים ל-DSPL כמשלימה לפורמטים אחרים. צריך לאפשר למשתמשים ליצור מערכי נתונים של DSPL ממקורות אחרים כדי ליצור תצוגות חזותיות ואינטראקטיביות של הנתונים.
מה אפשר לעשות עם מערך נתונים של DSPL?
ניתן לייבא אותם אל Public Data Explorer, לפרסם אותם ולאפשר לאחרים לחקור את הנתונים באמצעות תצוגות חזותיות ועשירות ואינטראקטיביות. מערכי נתונים שפורסמו יכולים גם להיכלל בספריית הנתונים הציבוריים כדי שמשתמשים מעוניינים יוכלו למצוא אותם.
נכון לעכשיו, זו האפליקציה היחידה שמשתמשת ב-DSPL. עם זאת, אנחנו מעודדים אנשים להשתמש בו גם באפליקציות אחרות, ואנחנו צופים שההטמעה תגדל עם הזמן.
אילו סוגים של מערכי נתונים הכי מתאימים ל-DSPL?
פורמט DSPL תומך באוספים שרירותיים של טבלאות, ולכן הוא מתאים למגוון רחב של סוגים של מערכי נתונים. עם זאת, רק קבוצת משנה של מערכי נתונים של DSPL תפיק תצוגות מעניינות ב-Public Data Explorer. המוצר השני מתאים במיוחד לנתונים שהם:
- כמותי: לכל נקודה על הגרף משויך מדד מספרי אחד או יותר (למשל, 'אוכלוסייה', 'מספר מקרי שפעת', 'הכנסה').
- קטגורית: ניתן לארגן את הנתונים במספר סופי של קטגוריות שניתן לתאר באמצעות טקסט (למשל, 'מדינות', 'מגדרים', 'קבוצות גיל').
- פעולות על ציר הזמן: בכל קטגוריה, מדדי הנתונים משתנים כפונקציה של זמן, ונקודות סמוכות שונות זו מזו של יום אחד לפחות (Public Data Explorer לא יכול להמחיש מרווחי זמן קטנים מיום).
- נתונים מצטברים: לכל שילוב של זמן / קטגוריה / מדד, יש נקודה בודדת על הגרף, ולא רשימת אירועים או עובדות.
יצרתי מערך נתונים של DSPL, ואני רוצה שהוא יופיע במאגר הנתונים הציבורי של Google כדי שאחרים יוכלו למצוא אותו. למי צריך לפנות?
ממלאים את הטופס הזה ומצרפים קישור למערך הנתונים.
יש לי בעיה עם DSPL. איפה אפשר לקבל עזרה?
אפשר לפרסם את הבעיה בפורום הדיונים של DSPL.
קובצי מערך נתונים של DSPL
איך מקודדים קובצי XML ו-CSV?
כל קובצי ה-XML וה-CSV צריכים להיות בקידוד UTF-8. חשוב לשים לב ש-ASCII (נקרא לפעמים 'טקסט פשוט') היא קבוצת משנה של UTF-8, ולכן גם מערכי נתונים בפורמט הזה אמורים לפעול.
באיזו תוכנה צריך להשתמש כדי ליצור ולערוך קבצים של מערכי נתונים?
האפשרות המומלצת לעריכת קובצי XML היא כלי לעריכת טקסט פשוט עם הדגשת תחביר למטרות קריאוּת. לקבלת המלצות ספציפיות לפלטפורמה, אפשר לעיין במאמר הזה. לא מומלץ להשתמש במעבדי תמלילים לשימוש כללי עם כל התכונות, כי הם בדרך כלל מוסיפים תגי עיצוב נוספים לקובץ ה-XML, וזה עלול לגרום לשגיאות בייבוא.
בדרך כלל, גיליון אלקטרוני הוא הדרך הקלה ביותר ליצור ולערוך קובצי נתונים. רק חשוב לשמור אותם בפורמט הנכון (ערכים מופרדים בפסיקים או CSV).
יש לי נתונים ב-Excel, SPSS, SAS או מערכת אחרת. האם ניתן לייבא אותם ישירות אל Public Data Explorer?
לא, לא כרגע. קודם צריך לייצא את הנתונים לפורמט CSV, להוסיף את המטא-נתונים המתאימים של ה-XML ואז להעלות מערך נתונים שתואם ל-DSPL ל-Public Data Explorer.
האם זה משנה מה השם של הקבצים שלי?
קובץ ה-XML של מערך הנתונים צריך להיות בשם שמסתיים ב-.xml
.
קובצי נתוני ה-CSV המשויכים יכולים לקבל כל שם, בתנאי שהם תואמים לשמות שצוינו בתגי <file>
במטא-נתונים של ה-XML.
אפשר גם לקבל כל שם לקובץ ה-ZIP שמשמש לאריזה ולייבוא של מערך הנתונים ל-Public Data Explorer.
האם צריך למיין את קובצי ה-CSV?
כן. צריך למיין את התוכן של קובצי ה-CSV לפי המאפיינים שלא קשורים לזמן (בכל סדר או כיוון), ולאחר מכן, אם רוצים, לפי כל אחת מהעמודות האחרות (למשל, זמן).
לדוגמה, אם יש לכם קובץ CSV עם העמודות date
, dimension1
, dimension2
, metric1
ו-metric2
, עליכם למיין לפי dimension1
ולפי dimension2
(בכל סדר שהוא). אם רוצים למיין גם לפי
העמודה 'תאריך/שעה', זה צריך להיות הדבר האחרון שממיינים לפיו.
מיון כזה מאפשר לקבץ יחד את התצפיות על כל סדרת זמנים, וכך לשפר משמעותית את היעילות של תהליך הייבוא דרך DSPL.
מודל ותחביר XML
איך קובעים מה צריך להיות מדד ומה צריך להיות מאפיין?
מאפיין הוא ישות שמשמשת לפילוח או לסינון של הנתונים. לעומת זאת, מדד מתאר את הערך או הערכים שנמדדו שמשויכים לכל נקודה על הגרף.
באופן כללי, המאפיינים מסווגים לקטגוריות ואילו המדדים לא קטגוריים ומשתנים בזמנים שונים. הנה כמה דוגמאות אב טיפוס של כל אחת מהן:
- מאפיינים: מדינה, מדינה, מחוז, אזור, שנה, חודש, מין, קטגוריית גיל, פלח תחום
- מדדים: אוכלוסייה, שיעור אבטלה, אוריינות, הכנסה, עלות, מחיר
מה ההבדל בין נכס לבין מאפיין?
המאפיינים מצורפים לכל מופע של קונספט מסוים. לדוגמה, לנכס יבשת יהיו ערכים שונים למדינות שונות.
לעומת זאת, מאפיינים קשורים לקונספט כולו.
לדוגמה: המאפיין isParent
נכון לכל
היבשות.
האם סדר התגים חשוב?
כן. מוסיפים את התגים לפי הסדר שבו הם מופיעים במדריך למפתחים. לדוגמה, <topic>
צריך להופיע לפני
<type>
בהגדרה של קונספט.
האם חשוב להשתמש באותיות רישיות?
כן, צריך להשתמש באותיות רישיות בשמות המאפיינים ובתגים של ה-XML באותו
כפי שהם מופיעים במדריך למפתחים. לדוגמה, שימוש ב-isparent
במקום ב-isParent
בתג property
יגרום לשגיאת ייבוא.
לרעיון מסוים יכולים להיות שני הורים?
לא. לכל קונספט יכול להיות רק הפניה אחת מסוג isParent
.
האם קונספט מסוים יכול להתייחס לעצמו?
כן. במערך הנתונים של US Retail Sales מוצגת דוגמה להיררכיית מושגים שמתייחסת עצמית.
עיצוב נתונים
איך מעצבים תאריכים?
אפשר לכתוב תאריכים בכל פורמט שניתן לתאר לפי
תקן Joda DateTime. קוד העיצוב של Joda צריך להיות מאוחסן במאפיין format
בתוך רכיב העמודה המתאים בטבלה.
קודי הפורמט של Joda לכמה פורמטים פופולריים של תאריכים מפורטים למטה:
דוגמה לתאריך | פורמט Joda |
---|---|
2010 | yyyy |
מאי 2010 | MMM yyyy |
21.05.2010 | MM/dd/yyyy |
05.21.2010 | dd/MM/yyyy |
2010-05-21 | yyyy-MM-dd |
באופן ספציפי, חשוב לשים לב שהקוד של Joda לתווים של חודש הוא M
ולא m
(שמייצג דקות).
האם אפשר להשתמש ביחידות זמן קטנות מיום אחד?
גם פורמט Joda DateTime, ולכן גם DSPL, תומך בערכי זמן עד לסדר של אלפיות השנייה. עם זאת, סייר המידע הציבורי לא יכול (עדיין) להמחיש פירוטי זמן קטנים מיום.
שימוש במושגים קנוניים
מהם 'מושגים קנוניים' ואיך הם מועילים?
המונח 'מושגים קנוניים' מתייחס לקבוצה של מושגים שנוצרו על ידי Google ונועדו כ'אבני בניין' בסיסיות במערכי נתונים אחרים. המושגים עצמם מוגדרים בשישה מערכי נתונים של DSPL שמקבצים את הפריטים הקודמים לקטגוריות כמו 'time', 'geo' וכו'. כדי לקבל גישה למושגים האלה, צריך רק לייבא את מערכי הנתונים המתאימים של ההורה בתחילת קובץ ה-XML של ה-DSPL.
מושגים קנוניים שימושיים כי הם חוסכים זמן (למשל, כי לא צריך
להזין באופן ידני ערכים של קו רוחב וקו אורך
עבור כל מדינה
בעולם) וגם מציינים איך הנתונים יוצגו באופן חזותי. לדוגמה, Public Data Explorer משתמש במושגים של time:...
כדי לעצב את ציר ה-X של תרשים הקו, משתמש במאפיין name
של הקונספט entity:entity
כדי ליצור מחרוזות לממשק המשתמש של בורר המאפיינים, משתמש במאפיינים latitude
ו-longitude
של geo:location
כדי להציג נתונים על התרשים להמחשת המפה וכן הלאה.
האם כל המושגים הקנוניים מובנים על ידי Public Data Explorer?
אפשר להבין את רוב המושגים הקנוניים שמסופקים על ידי Public Data Explorer, אבל יש כמה מהם (עדיין) לא ניתנים לצפייה. הם מפורטים בהמשך, יחד עם כמה הצעות לפתרונות:
קונספט | פתרון |
---|---|
quantity:index |
במקומו צריך להשתמש ב-quantity:ratio או ב-quantity:magnitude . |
time:quarter |
צריך להשתמש ב-time:month כמו שמתואר בספר המתכונים של DSPL. |
time:week |
צריך להשתמש ב-time:day כמו שמתואר בספר המתכונים של DSPL. |
כדאי להמשיך להתעדכן כדי שנוכל לספק תמיכה טובה יותר למושגים האלה בעתיד.
איך משתמשים בקונספט קנוני במערך הנתונים?
אפשר לקרוא את מאמרי העזרה לגבי הקונספט הספציפי שבו רוצים להשתמש, וגם לקרוא את המתכונים של DSPL, שכוללים הוראות מפורטות לפי ההוראות הנפוצות ביותר.
ייבוא והמחשה חזותית של מערכי נתונים
למה אי אפשר לייבא את מערך הנתונים ?
בממשק ההעלאה של Public Data Explorer ייסרקו מערך הנתונים של DSPL ויחסום את הייבוא אם יזוהו שגיאות. היבואן רגיש מאוד לאיות, לשימוש באותיות רישיות ולסדר של התגים בקובץ ה-XML, וגם לפריסה ולמיון של הנתונים בקובצי ה-CSV, לכן יכול להיות שיידרשו כמה בדיקות כדי לתקן את הפרטים האלה ולייבא את מערך הנתונים בהצלחה.
השלב הראשון בפתרון הבעיות האלה הוא לעיין בהודעות השגיאה שמופיעות בממשק המשתמש ולנקוט פעולה מתאימה לתיקון. מאחר שלפעמים הודעות אלה לא תמיד הכי קל להבין (משהו שאנחנו מנסים לשפר), יצרנו טבלה שמציגה את ההודעות הנפוצות ביותר:
שגיאה | הסבר |
---|---|
מפתח כפול: ... | בטבלת ההגדרות של הקונספט יש ערך מזהה חוזר (כלומר, ערך בעמודה עם שם זהה לזה של הקונספט). הערכים האלה משמשים לזיהוי ייחודי של מופעים ספציפיים של הקונספט, ולכן אי אפשר ליצור כפילויות. |
החריגה בניתוח שורות נתונים ממקור נתונים שנבעה משילוב הנכסים, [...], מופיע ביותר מקבוצה נפרדת של שורות בנתונים. | קובץ ה-CSV לא ממוין כראוי. הסבר איך לעשות את זה מופיע בדיון שלמעלה. |
חריגה בניתוח שורות נתונים ממקור אחר שנגרמה בגלל פורמט לא חוקי: '...' שגוי ב-'...' | הפורמט של הערך הזה (בדרך כלל תאריך) בקובץ ה-CSV לא תואם לפורמט שמצוין בקובץ ה-XML. שנו את הפורמט או את הערך כך שיתאימו. |
חריג בניתוח שורות נתונים ממקור שנגרם על-ידי מספר הרכיבים בשורה (...) לא תאם למספר הנכסים שצוינו (...) בשורה: [...] | שורה בקובץ ה-CSV מכילה יותר מדי או מעט מדי ערכים. צריך לתקן את העיצוב של השורה הזו. |
חריגה בניתוח שורות נתונים ממקור שנגרמו על-ידי עבור מחרוזת הקלט: "..." | ערך בקובץ ה-CSV (בדרך כלל מספר שלם או מספר ממשי) כולל תווים לא מספריים (למשל, סמל דולר, סימן אחוז וכו') שמונעים ממנו לנתח אותו כראוי. צריך להסיר את התווים המיותרים. |
חריגה בניתוח שורות נתונים מהמקור שנגרמו על ידי ערך הנתונים '...' בנכס '...' של הפלח '...' היא לא ערך מפתח של המושג '...' שאליו מתבצעת הפניה. | אחת מהפרוסות מכילה ערך מאפיין לא מזוהה (כלומר שלא מופיע ברשימת כל הערכים האפשריים של הקונספט המתאים). חוזרים לטבלה של הגדרת הקונספט של המאפיין ומוסיפים את הערך, אם צריך. |
הכותרת '...' בנתונים היא נכס קבוע בטבלה | כותרת העמודה בקובץ ה-CSV לא תואמת למזהה העמודה שהוגדר בהגדרה של טבלת ה-XML. צריך לשנות אחד מהשניים כך שיתאימו. |
שגיאה בניתוח XML ... נמצא תוכן לא תקין שמתחיל באלמנט '...'. צפוי אחד מהערכים '{...}', '{...}', .... | רכיב ה-XML שאליו מתבצעת ההפניה לא נמצא במקום הנכון. צריך לוודא
שהסדר נכון, ולוודא שלרכיב יש את ההורה הנכון (למשל, info עבור name ). |
שגיאה בניתוח XML ... אסור למאפיין '...' להופיע ברכיב '...'. | האיות, האותיות או המיקום של מאפיין תג ה-XML הזה שגויים. כדאי לבדוק בתיעוד של השימוש המתאים. |
שגיאה בניתוח XML. ... הרכיב '...' לא יכול להכיל תו [children], כי סוג התוכן של הסוג הוא רכיב בלבד. | יש טקסט שגוי בקובץ ה-XML (יכול להיות שנגרם על ידי תג שחסר בו < או > ). צריך לתקן
את הטקסט ולנסות שוב. |
אם לא הצלחת להבין הודעה שלא מופיעה ברשימה שלמעלה, אפשר לפרסם הודעה בפורום של DSPL, וננסה לעזור.
ייבוא מערך הנתונים הושלם בהצלחה, אבל לא הצלחתי להציג רכיבים חזותיים ב-Public Data Explorer. מה הבעיה?
הבעיה הזו מתרחשת כשמערך הנתונים הוא DSPL חוקי, אבל הוא לא נמצא בקבוצת המשנה של DSPL שניתן לראות ב-Public Data Explorer. יש הרבה סיבות אפשריות לכך, והנפוצה ביותר היא:
- הגדרת קונספט של מאפיין בלי טבלה: בלי המידע הזה, Public Data Explorer לא יודע אילו אפשרויות להציג בממשק המשתמש.
- יצירת מערך נתונים עם מדדים בלבד: ב-Public Data Explorer צריך להגדיר לפחות מאפיין קטגורי אחד (כלומר, לא זמן) במקום כלשהו במערך הנתונים כדי לבנות בצורה תקינה את ממשק המשתמש של התצוגה החזותית.
- אם לא כוללים מימד זמן בפרוסות: Public Data Explorer יכול להציג רק פעולות על ציר הזמן. המוצר יתעלם מקטעים שלא מופיעים בזמן זמן.
- שימוש במימד זמן שאינו מהמאפיינים הקנוניים של
time:...
: ה-Public Data Explorer משתמש במושגים הקנוניים שלtime
לפריסה ואנימציה של המחשות החזותיות השונות במוצר. הוא לא מבין מושגים אחרים של זמן, כמו למשל אלה שנוצרו בתוך מערך הנתונים שלך. - שימוש בערכי זמן גדולים או קטנים מדי: Public Data Explorer עדיין לא מציג מערכי נתונים עם פירוטי זמן קטנים מיום אחד. בצד השני של הספקטרום, הכלי נתקל בבעיות עם ערכי שנים גדולים מאוד (למשל, עשרות אלפים). אנחנו מקווים להפוך את הפירוט הזה לגמיש יותר בעתיד.
איך אפשר לשלב את מערך הנתונים החזותי שלי באתר שלי?
אפשר לעיין במאמר הזה במרכז העזרה של Public Data Explorer. כמו שמוסבר בהמשך, אפשר לקבל 'הטמעה מלאה' (כלומר, הטמעה שכוללת את אמצעי הבקרה של הניתוח) על ידי התאמה ידנית של כתובת ה-URL להטמעה.