يتناول هذا المستند المشاكل الأكثر شيوعًا التي يواجهها مالكو البيانات عند إنشاء مجموعات بيانات DSPL وتحميلها إلى "مستكشف البيانات العامة".
المحتويات
أسئلة عامة
ما المقصود بمعيار DSPL؟
يشير الاختصار DSPL إلى لغة نشر مجموعة البيانات. وهو تنسيق تمثيلي لكل من البيانات الوصفية (معلومات عن مجموعة البيانات، مثل اسمها وموفّرها، والمفاهيم التي تحتوي عليها وتعرضها) والبيانات الفعلية لمجموعات البيانات. يتم تحديد البيانات الوصفية بتنسيق XML، بينما يتم توفير البيانات بتنسيق CSV.
ما هي المزايا الرئيسية لاستخدام DSPL؟
تم تصميم DSPL من البداية لإنشاء عروض مرئية غنية للبيانات، مثل تلك المعروضة في مستكشف البيانات العامة. لإنشاء هذه العناصر، يجب تقديم بيانات وصفية مفصّلة حول الشرائح والسمات والمقاييس، وهي عناصر غير متاحة بشكل جيد في تنسيقات مجموعات البيانات الأخرى.
يدعم DSPL أيضًا عمليات استيراد مجموعات البيانات، والتسلسلات الهرمية للمفاهيم (على سبيل المثال، كلمة "country" هي فرع من "القارة" والبيانات المرمّزة جغرافيًا وعدد من الميزات الفريدة الأخرى التي تحسِّن تجربة استكشاف البيانات.
هل يشكّل DSPL بديلاً للتنسيقات الأخرى المستخدَمة لتبادل البيانات و/أو تحليلها؟
لا يتم ذلك بشكل عام. كما هو موضّح في الإجابة السابقة، تم تصميم DSPL للتمثيل البصري والاستكشاف التفاعلي. وليس الغرض منه أن يكون تنسيقًا عامًا لتبادل البيانات أو تحليلها.
في النهاية، نعتبر أن DSPL مُكمّل للتنسيقات الأخرى. يجب أن يتمكّن المستخدمون من إنشاء مجموعات بيانات DSPL من مصادر أخرى بغرض إنشاء عروض مرئية تفاعلية وغنية للبيانات.
ماذا يمكنني أن أفعل بمجموعة بيانات DSPL؟
يمكنك استيرادها إلى Public Data Explorer ونشره والسماح للآخرين باستكشاف البيانات من خلال عروض مرئية تفاعلية وغنية بصريًا. يمكن أيضًا تضمين مجموعات البيانات المنشورة في دليل البيانات العام حتى يتمكّن المستخدمون المهتمون من العثور عليها.
وهذا هو التطبيق الوحيد الذي يستخدم DSPL حاليًا. في المقابل، نشجّع المستخدمين على استخدامه في تطبيقات أخرى، ونتوقع أن يزداد معدّل استخدام التطبيق بمرور الوقت.
وما هي أنواع مجموعات البيانات الأنسب لبرنامج DSPL؟
يتيح تنسيق DSPL المجموعات العشوائية من الجداول، وبالتالي يُعدّ مناسبًا لمجموعة متنوعة من أنواع مجموعات البيانات. في المقابل، ستنتج مجموعة فرعية فقط من مجموعات بيانات DSPL تمثيلات مرئية مثيرة للاهتمام في "مستكشف البيانات العامة". وعلى وجه التحديد، يناسب المنتج الأخير البيانات التالية:
- الكمّية: تتضمّن كل نقطة بيانات مقياسًا رقميًا واحدًا أو أكثر مرتبطًا بها (مثل "السكان" أو "عدد حالات الإنفلوانزا" أو "الأرباح").
- التصنيف الفئوي: يمكن تنظيم البيانات في عدد محدود من الفئات التي يمكن وصفها نصيًا (على سبيل المثال: "البلدان" أو "الجنس" أو "الفئات العمرية").
- السلسلة الزمنية: بالنسبة إلى كل فئة، تختلف مقاييس البيانات كدالة وقت، وتكون النقاط المتجاورة عن بعضها لمدة يوم واحد على الأقل (لا يمكن لأداة "مستكشف البيانات العامة" عرض فترات الزيادة الزمنية التي تقل عن يوم واحد).
- مجمّعة: لكل مجموعة بيانات أو فئة أو مقياس، يتم توفير نقطة بيانات واحدة وليس قائمة بأحداث أو حقائق.
لقد أنشأتُ مجموعة بيانات DSPL وأريد أن تظهر في "دليل البيانات العامة من Google" حتى يتمكّن الآخرون من العثور عليها. بمن أتصل؟
يُرجى ملء هذا النموذج وتقديم رابط يؤدي إلى مجموعة بياناتك.
أواجه مشكلة مع DSPL. أين أذهب للحصول على المساعدة؟
يُرجى نشر مشكلتك على منتدى مناقشة DSPL.
ملفات مجموعات بيانات DSPL
كيف يمكنني ترميز ملفات XML وCSV؟
يجب أن تكون جميع ملفات XML وCSV بترميز UTF-8. ويُرجى العِلم أنّ ASCII (يُشار إليه أحيانًا باسم "النص العادي") هو مجموعة فرعية من UTF-8، لذا من المفترض أن تعمل مجموعات البيانات بهذا التنسيق أيضًا.
ما البرنامج الذي يجب أن أستخدمه لإنشاء ملفات مجموعة البيانات وتحريرها؟
ويُعدّ محرر النص العادي، الذي يتميّز بتمييز البنية لأغراض القراءة، الخيار المقترَح لتعديل ملفات XML. يمكنك مراجعة هذه المقالة للاطّلاع على بعض الاقتراحات الخاصة بالنظام الأساسي. وننصحك بعدم استخدام معالِجات كلمات ذات ميزات كاملة ولأغراض عامة، لأنّها غالبًا ما تؤدي إلى إدراج علامات تنسيق إضافية في ملف XML، ما قد يؤدي إلى حدوث أخطاء في الاستيراد.
يشكّل جدول البيانات عادةً أسهل طريقة لإنشاء ملفات البيانات وتعديلها. ما عليك سوى الحرص على حفظها بالتنسيق الصحيح (ملف CSV أو قيم مفصولة بفواصل).
لدي بيانات في Excel أو SPSS أو SAS أو أي نظام آخر. هل يمكنني استيرادها مباشرةً إلى Public Data Explorer؟
لا، ليس في الوقت الحالي يجب عليك أولاً تصدير بياناتك إلى تنسيق CSV، وإضافة البيانات الوصفية المناسبة بتنسيق XML، ثم تحميل مجموعة بيانات متوافقة مع DSPL إلى Public Data Explorer.
هل من المهم تسمية ملفاتي؟
يجب أن يكون لملف XML الخاص بمجموعة البيانات اسم ينتهي بـ .xml
.
يمكن أن تحتوي ملفات بيانات CSV المرتبطة على أي أسماء، شرط أن تتطابق مع الأسماء الواردة في علامات <file>
في البيانات الوصفية بتنسيق XML.
يمكن أيضًا أن يكون لملف ZIP المُستخدَم في حزم مجموعة البيانات واستيرادها إلى Public Data Explorer أي اسم.
هل يجب ترتيب ملفات CSV؟
رائع عليك ترتيب محتوى ملفات CSV حسب السمات التي ليس لها وقت (بأي ترتيب أو اتجاه)، ثم حسب أي من الأعمدة الأخرى (مثل الوقت)، إذا أردت ذلك.
على سبيل المثال، إذا كان لديك ملف CSV يتضمّن الأعمدة date
وdimension1
وdimension2
وmetric1
وmetric2
، عليك ترتيبها حسب dimension1
وdimension2
(بأي ترتيب). وإذا كنت تريد أيضًا الترتيب حسب
عمود التاريخ/الوقت، من المفترض أن يكون هذا هو آخر عنصر رتِّب البيانات حسبه.
يؤدي الترتيب بهذه الطريقة إلى الحفاظ على تجميع الملاحظات لكل سلسلة زمنية معًا، ما يحسّن بشكل كبير من كفاءة عملية استيراد DSPL.
نموذج وبنية XML
كيف أحدّد المقياس الذي يجب أن يكون مقياسًا وما يجب أن يكون سمة؟
السمة هي كيان يُستخدَم لتقسيم بياناتك أو فلترتها. أما المقياس، فيصف القيمة أو القيم المرصودة المرتبطة بكل نقطة بيانات.
بشكل عام، تكون السمات فئوية، في حين أنّ المقاييس عبارة عن قيم رقمية غير فئوية ومتغيرة زمنيًا. في ما يلي بعض الأمثلة النموذجية لكل منهما:
- السمات: البلد، والولاية، والمقاطعة، والمنطقة، والسنة، والشهر، والجنس، والفئة العمرية، وشريحة المجال
- المقاييس: عدد السكان، الناتج المحلي الإجمالي، معدّل البطالة، محو الأمية، الإيرادات، التكلفة، السعر
ما هو الفرق بين السمة والسمة؟
ترتبط الخصائص بكل مثيل من المفهوم. على سبيل المثال، تختلف القيم الخاصة بالقارة باختلاف البلدان.
من ناحية أخرى، ترتبط السمات بالمفهوم ككل.
على سبيل المثال، تكون السمة isParent
صحيحة لجميع القارات.
هل لترتيب العلامات أهمية؟
رائع أضِف علاماتك بالترتيب الذي تظهر به في دليل المطوِّر. على سبيل المثال، يجب أن تظهر السمة <topic>
قبل السمة <type>
في تعريف المفهوم.
هل للأحرف الكبيرة أهمية؟
نعم، يجب كتابة علامة XML وأسماء السمات بالأحرف اللاتينية الكبيرة بالطريقة نفسها التي تظهر بها في دليل المطوِّر. على سبيل المثال، سيؤدي استخدام isparent
بدلاً من isParent
في العلامة property
إلى حدوث خطأ في الاستيراد.
هل يمكن أن يكون للمفهوم اثنان من الوالدين؟
لا، يمكن أن يحتوي كل مفهوم على مرجع isParent
واحد فقط.
هل يمكن أن يشير المفهوم إلى نفسه؟
رائع راجِع مجموعة بيانات مبيعات البيع بالتجزئة في الولايات المتحدة للحصول على مثال على التسلسل الهرمي لمفهوم الإحالة الذاتية.
تنسيق البيانات
كيف يمكنني تنسيق التواريخ؟
يمكن كتابة التواريخ بأي تنسيق يمكن وصفه باستخدام
معيار Joda DateTime. يجب تخزين رمز تنسيق Joda في السمة format
ضمن عنصر العمود في الجدول المقابل.
في ما يلي رموز تنسيق جودا لبعض تنسيقات التاريخ الرائجة:
مثال على التاريخ | تنسيق جودا |
---|---|
2010 | yyyy |
أيار (مايو) 2010 | MMM yyyy |
2010/05/21 | MM/dd/yyyy |
2010/21/05 | dd/MM/yyyy |
2010-05-21 | yyyy-MM-dd |
وعلى وجه الخصوص، يُرجى العلم أنّ رمز الجودا لأحرف الشهر هو M
، وليس m
(الذي يمثّل الدقائق).
هل يمكنني استخدام وحدات زمنية أصغر من يوم واحد؟
يتيح تنسيق Joda DateTime، وبالتالي DSPL أيضًا، استخدام قيم الوقت وصولاً إلى ترتيب المللي ثانية. ومع ذلك، لا يمكن لأداة "مستكشف البيانات العامة" (بعد) عرض أي درجات دقة زمنية أصغر من يوم واحد.
استخدام المفاهيم الأساسية
ما هي "المفاهيم الأساسية" وما مدى الاستفادة منها؟
يشير مصطلح "المفاهيم الأساسية" إلى مجموعة من المفاهيم التي أنشأها Google والتي تهدف إلى أن تكون "وحدات أساسية" أساسية في مجموعات البيانات الأخرى. ويتم تحديد المفاهيم نفسها في ست مجموعات بيانات DSPL تجمِّع السابقة في فئات مثل "الوقت" و"الموقع الجغرافي" وما إلى ذلك. وللوصول إلى هذه المفاهيم، ما عليك سوى استيراد مجموعات البيانات الرئيسية المناسبة في بداية ملف XML الخاص ببرنامج DSPL.
تُعد المفاهيم الأساسية مفيدة لأنّها تساعد في توفير الوقت (على سبيل المثال، في حال عدم
الحاجة إلى إدخال قيم خطوط الطول والعرض يدويًا لكل بلد في
العالم)، كما أنّها تشير إلى كيفية عرض البيانات بشكل مرئي. على سبيل المثال، تستخدم "مستكشف البيانات العامة" مفاهيم time:...
لتنسيق المحور "س" للرسم البياني الخطي، كما تستخدم السمة name
لمفهوم entity:entity
لإنشاء سلاسل لواجهة مستخدم أداة اختيار السمات، كما تستخدم السمتَين latitude
وlongitude
في geo:location
لعرض البيانات في التمثيل البصري للخريطة وما إلى ذلك.
هل يفهم مستكشف البيانات العامة جميع المفاهيم الأساسية؟
بإمكان "مستكشف البيانات العامة" فهم معظم المفاهيم الأساسية المقدَّمة، إلا أنّ هناك بعض المفاهيم التي لا يمكن عرضها (بعد). تم إدراج ما يلي، بالإضافة إلى بعض الحلول المقترحة:
الفكرة | الحل |
---|---|
quantity:index |
استخدِم quantity:ratio أو quantity:magnitude
بدلاً منها. |
time:quarter |
استخدِم السمة time:month كما هو موضّح في دليل وصف العميل (DSPL). |
time:week |
استخدِم السمة time:day كما هو موضّح في دليل وصف العميل (DSPL). |
يُرجى متابعتنا للحصول على دعم أفضل لهذه المفاهيم في المستقبل.
كيف يمكنني استخدام مفهوم أساسي في مجموعة البيانات الخاصة بي؟
اطّلِع على المستندات الخاصة بالمفهوم المحدّد الذي تريد استخدامه، واطّلِع أيضًا على دليل وصفات DSPL الذي يحتوي على توجيهات مفصّلة مفصّلة حول المفهوم الأكثر شيوعًا.
استيراد مجموعات البيانات وعرضها مرئيًا
لماذا لا يمكنني استيراد مجموعة البيانات بنجاح؟
ستفحص واجهة التحميل في Public Data Explorer مجموعة بيانات DSPL وتحظر استيرادها في حال اكتشاف أي أخطاء. تُعدّ أداة الاستيراد حساسة للغاية في ما يتعلق بالتهجئة والكتابة بالأحرف اللاتينية الكبيرة وترتيب العلامات / موضعها في ملف XML، فضلاً عن تنسيق البيانات وترتيبها في ملفات CSV، لذا قد يستغرق الأمر بضع تمريرات لإكمال هذه العملية بشكل صحيح واستيراد مجموعة البيانات بنجاح.
الخطوة الأولى لحلّ هذه المشاكل هي الاطّلاع على رسائل الخطأ الواردة في واجهة المستخدم واتّخاذ الإجراء التصحيحي المناسب. بما أنّ هذه الرسائل ليست دائمًا أسهل في الفهم (وهي أمر نعمل جاهدين على تحسينه)، جمعنا جدولاً يشرح أكثرها شيوعًا:
خطأ | الشرح |
---|---|
نسخة طبق الأصل من المفتاح: ... | يحتوي جدول التعريفات الخاصة بمفهومك على قيمة رقم تعريف متكرّرة (أي قيمة في العمود تحمل اسم المفهوم نفسه). ويتم استخدام هذه القيم لتحديد الحالات الفردية للمفهوم بشكل فريد، وبالتالي لا يُسمح بالنسخ المكررة. |
هناك استثناء في تحليل صفوف البيانات من المصدر الذي يسببه مجموعة السمات، [...]، في أكثر من مجموعة مميزة واحدة من الصفوف في البيانات. | لم يتم ترتيب ملف CSV بشكل صحيح. راجِع المناقشة أعلاه للحصول على إرشادات حول كيفية إجراء ذلك. |
هناك استثناء في تحليل صفوف البيانات من المصدر بسبب التنسيق غير الصالح: تمت كتابة "..." بشكل غير صحيح في "..." | تنسيق هذه القيمة (عادةً ما يكون تاريخًا) في ملف CSV غير متّسق مع التنسيق الوارد في ملف XML. غيِّر التنسيق أو القيمة لكي يتطابقا. |
هناك استثناء في تحليل صفوف البيانات من المصدر الذي نتج عن عدد العناصر في السطر (...) لم يطابق عدد الخصائص المحددة (...) للسطر: [...] | يحتوي أحد الصفوف في ملف CSV على قيم كثيرة جدًا أو قليلة جدًا. أصلح تنسيق هذا الصف. |
هناك استثناء في تحليل صفوف البيانات من المصدر بسبب سلسلة الإدخال: "..." | تحتوي قيمة في ملف CSV (عادةً عدد صحيح أو عدد عائم) على أحرف غير رقمية (مثل رمز الدولار أو علامة النسبة المئوية، وما إلى ذلك) التي تمنع تحليلها بشكل صحيح. أزِل هذه الأحرف الإضافية. |
الاستثناء في تحليل صفوف البيانات من المصدر الذي تسبب فيه قيمة البيانات "..." الخاص بالموقع "..." الخاص بالشريحة "..." ليس قيمة أساسية للمفهوم '...' المُشار إليه. | تحتوي إحدى الشرائح على قيمة بُعد غير معروفة (أي قيمة ليست في قائمة جميع القيم المحتملة للمفهوم المقابل). ارجع إلى جدول تعريف مفهوم السمة وأضِف القيمة إذا لزم الأمر. |
العنوان "..." في البيانات هو خاصية ثابتة في الجدول | لا يتطابق رأس العمود في ملف CSV مع رقم تعريف العمود المحدّد في تعريف جدول XML. غيِّر أحدهما أو الآخر لكي يتطابقا. |
حدث خطأ في تحليل XML ... تم العثور على محتوى غير صالح عند البدء بالعنصر '...'. من المتوقع إدخال أحد "{...}" أو "{...}" أو .... | عنصر XML المُشار إليه ليس في المكان الصحيح. تأكّد من صحة الترتيب ومن أنّ العنصر يحتوي على الأصل الصحيح (على سبيل المثال، info في name ). |
حدث خطأ في تحليل XML ... لا يُسمح بظهور السمة "..." في العنصر '...'. | هناك خطأ في الهجاء أو حالة الأحرف أو موقع سمة علامة XML هذه. راجع الوثائق لمعرفة الاستخدام المناسب. |
حدث خطأ أثناء تحليل XML. ... لا يمكن أن يحتوي العنصر '...' على الحرف [children]، لأنّ نوع محتوى النوع هو عنصر فقط. | يوجد نص ضال في ملف XML (من المحتمل أن يكون سبب ذلك
عدم توفّر علامة < أو > ). أصلِح
النص ثم أعِد المحاولة. |
إذا واجهتك مشكلة في فهم رسالة غير مدرَجة في القائمة أعلاه، يُرجى نشر رسالة في منتدى DSPL، وسنحاول مساعدتك.
يتم استيراد مجموعة البيانات بنجاح، ولكن لا يمكنني ظهور أي عروض مرئية في Public Data Explorer. ما هي المشكلة؟
تحدث هذه المشكلة عندما تكون مجموعة البيانات DSPL صالحة، ولكنها ليست في المجموعة الفرعية من DSPL التي يمكن عرضها في Public Data Explorer. هناك عدة أسباب محتمَلة لذلك، ومن أكثرها شيوعًا:
- تحديد مفهوم السمة بدون جدول: بدون هذه المعلومات، لن يعرف مستكشف البيانات العامة الخيارات التي يجب عرضها في واجهة المستخدم.
- إنشاء مجموعة بيانات بمقاييس فقط: تتطلّب "مستكشف البيانات العامة" واحدًا على الأقل من السمات الفئوية (أي غير الزمنية) المحددة في مكان ما في مجموعة البيانات لتحسين بنية واجهة المستخدم المرئية بشكل سليم.
- عدم تضمين سمة زمنية في الشرائح: يمكن لأداة "مستكشف البيانات العامة" عرض السلسلة الزمنية فقط. وسيتجاهل المنتج الشرائح التي ليست لها وقت.
- استخدام سمة زمنية غير سمات
time:...
الأساسية: تستخدم "مستكشف البيانات العامة" مفاهيمtime
الأساسية من أجل تخطيط وتحريك الرسومات البيانية المختلفة في المنتج، ولا يمكنه فهم المفاهيم الزمنية الأخرى، مثل المفاهيم التي تم إنشاؤها داخل مجموعة البيانات الخاصة بك. - استخدام قيم وقت كبيرة جدًا أو صغيرة جدًا: لا تعرض أداة "مستكشف البيانات العامة" حتى الآن مجموعات بيانات بمستويات دقة زمنية أصغر من يوم واحد. على الجانب الآخر، تواجه الأداة مشكلة في قيم السنوات الكبيرة جدًا (على سبيل المثال، في عشرات الآلاف). ونأمل أن تصبح هذه التفاصيل أكثر مرونة في المستقبل.
كيف يمكنني دمج مجموعة البيانات المرئية في موقعي الإلكتروني؟
يُرجى الاطّلاع على هذه المقالة في مركز مساعدة Public Data Explorer. كما هو موضّح في الخطوة الثانية، يمكنك الحصول على "تضمين كامل" (أي تضمين عناصر التحكّم في الاستكشاف) من خلال إجراء تعديل يدوي على عنوان URL المضمّن.