سوالات متداول DSPL

این سند متداول ترین مسائلی را که صاحبان داده هنگام ایجاد مجموعه داده های DSPL و آپلود آنها در کاوشگر داده های عمومی تجربه می کنند، پوشش می دهد.

فهرست

سوالات عمومی

DSPL چیست؟

DSPL مخفف Dataset Publishing Language است. این یک فرمت نمایشی برای ابرداده (اطلاعات مربوط به مجموعه داده، مانند نام و ارائه‌دهنده آن، و همچنین مفاهیمی که حاوی و نمایش داده می‌شود) و داده‌های واقعی مجموعه‌های داده است. فراداده در XML مشخص شده است، در حالی که داده ها در قالب CSV ارائه می شوند.

مزایای کلیدی استفاده از DSPL چیست؟

DSPL از ابتدا برای تجسم داده های غنی مانند آنچه در Public Data Explorer طراحی شده است. ایجاد این موارد به ابرداده‌های دقیق پیرامون برش‌ها، ابعاد و معیارها نیاز دارد، موجودیت‌هایی که در قالب‌های دیگر مجموعه داده‌ها به خوبی پشتیبانی نمی‌شوند.

DSPL همچنین از واردات داده، سلسله مراتب مفهومی (به عنوان مثال، "کشور" فرزند "قاره" است)، داده های جغرافیایی کدگذاری شده و تعدادی ویژگی منحصر به فرد دیگر که تجربه کاوش داده ها را بهبود می بخشد، پشتیبانی می کند.

آیا DSPL جایگزین فرمت های دیگری است که برای تبادل و/یا تجزیه و تحلیل داده ها استفاده می شود؟

به طور کلی نه. همانطور که در پاسخ قبلی اشاره شد، DSPL برای تجسم و کاوش تعاملی طراحی شده است. این به عنوان یک قالب کلی، مبادله یا تجزیه و تحلیل داده‌ها در نظر گرفته نشده است.

در نهایت، ما DSPL را مکمل سایر فرمت‌ها می‌دانیم. کاربران باید بتوانند مجموعه داده های DSPL را از منابع دیگر به منظور ایجاد تجسم داده های تعاملی و غنی ایجاد کنند.

با مجموعه داده DSPL چه کاری می توانم انجام دهم؟

می‌توانید آن را به اکسپلورر داده‌های عمومی وارد کنید، آن را منتشر کنید و به دیگران اجازه دهید از طریق تجسم‌های غنی و تعاملی، داده‌ها را کاوش کنند. مجموعه داده های منتشر شده را نیز می توان در فهرست داده های عمومی گنجاند تا کاربران علاقه مند بتوانند آنها را پیدا کنند.

در حال حاضر، این تنها برنامه ای است که از DSPL استفاده می کند. با این حال، ما مردم را تشویق می کنیم که از آن برای سایر برنامه ها استفاده کنند و انتظار داریم که پذیرش در طول زمان افزایش یابد.

چه نوع از مجموعه داده ها برای DSPL مناسب هستند؟

قالب DSPL از مجموعه های دلخواه جداول پشتیبانی می کند و بنابراین برای طیف گسترده ای از انواع داده ها مناسب است. با این حال، تنها زیر مجموعه‌ای از مجموعه داده‌های DSPL، تجسم‌های جالبی را در Public Data Explorer ایجاد می‌کند. محصول دوم به ویژه برای داده هایی که عبارتند از:

  • کمی: هر نقطه داده دارای یک یا چند معیار عددی مرتبط با آن است (به عنوان مثال، "جمعیت"، "تعداد موارد آنفولانزا"، "درآمد").
  • طبقه‌بندی : داده‌ها را می‌توان در تعداد محدودی از دسته‌های قابل توصیف متنی سازمان‌دهی کرد (مانند «کشورها»، «جنس‌ها»، «گروه‌های سنی»).
  • سری های زمانی: برای هر دسته، معیارهای داده بر حسب زمان متفاوت است و نقاط مجاور حداقل یک روز از هم فاصله دارند (کاوشگر داده های عمومی نمی تواند افزایش های زمانی کوچکتر از یک روز را تجسم کند).
  • تجمیع شده: برای هر ترکیب زمان / دسته / متریک، یک نقطه داده واحد وجود دارد، نه فهرستی از رویدادها یا حقایق.

من یک مجموعه داده DSPL ایجاد کرده‌ام، و می‌خواهم در فهرست اطلاعات عمومی Google ظاهر شود تا دیگران بتوانند آن را پیدا کنند. با چه کسی تماس بگیرم؟

لطفاً این فرم را پر کنید و پیوندی به مجموعه داده خود ارائه دهید.

من با DSPL مشکل دارم. برای کمک به کجا مراجعه کنم؟

لطفاً مشکل خود را در انجمن گفتگوی DSPL ارسال کنید.

فایل های مجموعه داده DSPL

چگونه باید فایل های XML و CSV خود را رمزگذاری کنم؟

همه فایل‌های XML و CSV باید دارای کد UTF-8 باشند. توجه داشته باشید که ASCII (گاهی اوقات به عنوان "متن ساده" شناخته می شود) زیر مجموعه ای از UTF-8 است، بنابراین مجموعه داده ها در آن فرمت نیز باید کار کنند.

از چه نرم افزاری برای ایجاد و ویرایش فایل های مجموعه داده خود استفاده کنم؟

یک ویرایشگر متن ساده، با برجسته سازی نحو برای اهداف خوانایی، انتخاب توصیه شده برای ویرایش فایل های XML شما است. برای برخی از توصیه های پلتفرم خاص، این مقاله را ببینید. ما توصیه می‌کنیم از استفاده از واژه‌پردازهای همه‌منظوره با ویژگی‌های کامل خودداری کنید، زیرا اینها تمایل دارند برچسب‌های قالب‌بندی اضافی را در XML شما وارد کنند، که می‌تواند باعث خطاهای وارد شود.

صفحه گسترده معمولاً ساده ترین راه برای ایجاد و ویرایش فایل های داده شما است. فقط مطمئن شوید که آنها را در قالب صحیح (CSV / مقادیر جدا شده با کاما) ذخیره کنید.

من اطلاعاتی در اکسل، SPSS، SAS یا سیستم های دیگر دارم. آیا می توانم اینها را مستقیماً به Public Data Explorer وارد کنم؟

نه الان نه. ابتدا باید داده های خود را به فرمت CSV صادر کنید، ابرداده مناسب XML را اضافه کنید و سپس یک مجموعه داده سازگار با DSPL را در Public Data Explorer آپلود کنید.

آیا اسم فایل هایم مهم است؟

فایل XML مجموعه داده شما باید نامی داشته باشد که به .xml . ختم می شود. فایل های داده CSV مرتبط می توانند هر نامی داشته باشند، مشروط بر اینکه با نام های داده شده در تگ های <file> در فراداده XML شما مطابقت داشته باشند. فایل زیپ مورد استفاده برای بسته بندی و وارد کردن مجموعه داده به Public Data Explorer نیز می تواند هر نامی داشته باشد.

آیا فایل های CSV من باید مرتب شوند؟

آره. شما باید محتوای فایل‌های CSV خود را بر اساس ابعاد غیر زمان (به هر ترتیب یا جهت) و سپس، به صورت اختیاری، بر اساس هر یک از ستون‌های دیگر (مثلاً زمان) مرتب کنید.

بنابراین، برای مثال، اگر یک CSV با ستون‌های date ، dimension1 ، dimension2 ، metric1 و metric2 دارید، باید بر اساس dimension1 1 و dimension2 2 (به هر ترتیبی) مرتب‌سازی کنید. اگر می خواهید بر اساس ستون تاریخ/زمان نیز مرتب کنید، این آخرین چیزی است که بر اساس آن مرتب می کنید.

مرتب‌سازی به این روش مشاهدات هر سری زمانی را در کنار هم نگه می‌دارد، که کارایی فرآیند واردات DSPL را تا حد زیادی بهبود می‌بخشد.

مدل XML و نحو

چگونه تصمیم بگیرم که چه چیزی باید یک متریک و چه چیزی یک بعد باشد؟

بعد موجودی است که برای بخش بندی یا فیلتر کردن داده های شما استفاده می شود. از سوی دیگر، یک متریک، مقدار یا مقادیر مشاهده شده مرتبط با هر نقطه داده را توصیف می کند.

به طور کلی، ابعاد مقوله ای هستند در حالی که متریک ها مقادیر عددی غیر مقوله ای، متغیر با زمان هستند. برخی از نمونه های اولیه هر یک به شرح زیر است:

  • ابعاد : کشور، ایالت، شهرستان، منطقه، سال، ماه، جنس، رده سنی، بخش صنعت
  • معیارها : جمعیت، تولید ناخالص داخلی، نرخ بیکاری، سواد، درآمد، هزینه، قیمت

تفاوت بین یک ویژگی و یک ویژگی چیست؟

ویژگی هایی به هر نمونه از یک مفهوم متصل می شود. به عنوان مثال، یک ملک قاره برای کشورهای مختلف ارزش های متفاوتی خواهد داشت. از سوی دیگر، صفات با مفهوم به عنوان یک کل مرتبط هستند. به عنوان مثال: یک ویژگی isParent برای همه قاره ها صادق است.

آیا ترتیب برچسب ها مهم است؟

آره. برچسب‌های خود را به ترتیبی که در راهنمای برنامه‌نویس ظاهر می‌شوند اضافه کنید. برای مثال، <topic> باید قبل از <type> در تعریف یک مفهوم ظاهر شود.

آیا حروف بزرگ مهم است؟

بله، تگ XML و نام‌های مشخصه شما باید به همان شکلی که در راهنمای برنامه‌نویس ظاهر می‌شوند، با حروف بزرگ نوشته شوند. به عنوان مثال، استفاده از isparent به جای isParent در تگ property باعث خطای import می شود.

آیا یک مفهوم می تواند دو پدر و مادر داشته باشد؟

خیر. هر مفهوم می تواند تنها یک مرجع isParent باشد.

آیا یک مفهوم می تواند به خودش اشاره کند؟

آره. برای نمونه ای از سلسله مراتب مفهومی خودارجاعی، به مجموعه داده خرده فروشی ایالات متحده مراجعه کنید.

قالب بندی داده ها

چگونه تاریخ ها را قالب بندی کنم؟

تاریخ ها را می توان در هر قالبی که با استاندارد Joda DateTime قابل توصیف باشد، نوشت. کد قالب بندی Joda باید در یک ویژگی format در عنصر ستون جدول مربوطه ذخیره شود.

کدهای قالب‌بندی Joda برای برخی از قالب‌های محبوب تاریخ در زیر فهرست شده‌اند:

مثال تاریخ فرمت جودا
2010 yyyy
می 2010 MMM yyyy
2010/05/21 MM/dd/yyyy
21/05/2010 dd/MM/yyyy
2010/05/21 yyyy-MM-dd

به ویژه، توجه داشته باشید که کد جودا برای کاراکترهای ماه M است، نه m (که نشان دهنده دقیقه است).

آیا می توانم از واحدهای زمانی کوچکتر از یک روز استفاده کنم؟

فرمت Joda DateTime، و از این رو DSPL نیز، از مقادیر زمان تا مرتبه میلی ثانیه پشتیبانی می کند. با این حال، کاوشگر اطلاعات عمومی (هنوز) نمی تواند جزئیات زمانی کوچکتر از یک روز را تجسم کند.

استفاده از مفاهیم متعارف

"مفاهیم متعارف" چیست و چگونه مفید است؟

اصطلاح "مفاهیم متعارف" به مجموعه ای از مفاهیم ایجاد شده توسط گوگل اشاره دارد که به عنوان "بلوک های سازنده" اساسی در مجموعه داده های دیگر در نظر گرفته شده اند. خود مفاهیم در شش مجموعه داده DSPL تعریف شده‌اند که اولی را در دسته‌هایی مانند "زمان"، "جغرافیا" و غیره دسته‌بندی می‌کنند. برای دسترسی به این مفاهیم، ​​کافی است مجموعه داده‌های مادر مناسب را در ابتدای DSPL XML خود وارد کنید. فایل.

مفاهیم متعارف مفید هستند زیرا به صرفه جویی در زمان کمک می کنند (مثلاً با عدم نیاز به وارد کردن دستی مقادیر طول و عرض جغرافیایی برای هر کشور در جهان) و همچنین نشان می دهند که چگونه داده های شما باید تجسم شوند. برای مثال، Public Data Explorer از time:... مفاهیم برای قالب‌بندی نمودار خطی محور x استفاده می‌کند، از ویژگی name مفهوم entity:entity برای تولید رشته‌هایی برای رابط کاربری انتخاب‌کننده ابعاد استفاده می‌کند، از ویژگی‌های طول و latitude longitude استفاده می‌کند. geo:location برای نمایش داده ها در تجسم نقشه و غیره.

آیا همه مفاهیم متعارف توسط Public Data Explorer درک می شوند؟

در حالی که اکثر مفاهیم متعارف ارائه شده توسط Public Data Explorer درک می شوند، تعداد کمی وجود دارند که (هنوز) قابل مشاهده نیستند. این موارد به همراه چند راه حل پیشنهادی در زیر ذکر شده است:

مفهوم راه حل
quantity:index به جای آن از quantity:ratio یا quantity:magnitude استفاده کنید.
time:quarter time:month همانطور که در کتاب آشپزی DSPL توضیح داده شده است.
time:week استفاده از time:day همانطور که در کتاب آشپزی DSPL توضیح داده شده است.

برای پشتیبانی بهتر از این مفاهیم در آینده با ما همراه باشید.

چگونه از یک مفهوم متعارف در مجموعه داده خود استفاده کنم؟

مستندات مفهوم خاصی را که می‌خواهید استفاده کنید، ببینید، و همچنین کتاب آشپزی DSPL را بررسی کنید، که دستورالعمل‌های دقیق و گام به گام برای رایج‌ترین موارد دارد.

وارد کردن و تجسم مجموعه داده ها

چرا نمی توانم مجموعه داده خود را با موفقیت وارد کنم؟

رابط آپلود Public Data Explorer مجموعه داده DSPL شما را اسکن می کند و در صورت شناسایی هر گونه خطایی، ورود آن را مسدود می کند. واردکننده به املا، حروف بزرگ، و ترتیب برچسب/قرار دادن برچسب در فایل XML شما، و همچنین طرح‌بندی و مرتب‌سازی داده‌ها در فایل‌های CSV شما بسیار حساس است، بنابراین ممکن است چند پاس طول بکشد تا این موارد به درستی انجام شود و مجموعه داده شما وارد شود. با موفقیت.

اولین گام برای حل این مشکلات این است که به پیام(های) خطای داده شده در UI نگاه کنید و اقدامات اصلاحی مناسب را انجام دهید. از آنجایی که درک این پیام ها همیشه آسان نیست (چیزی که ما فعالانه روی بهبود آن کار می کنیم)، جدولی را گردآوری کرده ایم که رایج ترین آنها را توضیح می دهد:

خطا توضیح
کلید تکراری: ... جدول تعریف مفهوم شما دارای یک مقدار ID مکرر است (یعنی مقدار در ستونی با همان نام مفهوم). این مقادیر برای شناسایی منحصربه‌فرد نمونه‌های مفهومی استفاده می‌شوند، بنابراین تکرار مجاز نیست.
استثنا در تجزیه ردیف های داده از منبع ناشی از ترکیب ویژگی ها، [...]، در بیش از یک گروه مجزا از ردیف ها در داده ها ظاهر می شود. CSV شما به درستی مرتب نشده است. برای دستورالعمل نحوه انجام این کار به بحث بالا مراجعه کنید.
استثنا در تجزیه ردیف های داده از منبع ناشی از قالب نامعتبر: "..." در "..." بد شکل است. قالب بندی این مقدار (معمولاً یک تاریخ) در CSV شما با قالب ارائه شده در فایل XML شما سازگار نیست. قالب یا مقدار را طوری تغییر دهید که مطابقت داشته باشند.
استثنا در تجزیه ردیف های داده از منبع ناشی از تعداد عناصر در خط (...) با تعداد ویژگی های مشخص شده (...) برای خط مطابقت نداشت: [...] یک ردیف در CSV شما مقادیر بسیار زیاد یا بسیار کمی دارد. فرمت این ردیف را اصلاح کنید.
استثنا در تجزیه ردیف های داده از منبع ناشی از رشته ورودی For: "..." یک مقدار در CSV شما (معمولاً یک عدد صحیح یا شناور) دارای کاراکترهای غیر عددی (مثلاً نماد دلار، علامت درصد و غیره) است که از تجزیه صحیح آن جلوگیری می کند. این کاراکترهای اضافی را حذف کنید.
استثنا در تجزیه ردیف های داده از منبع ناشی از مقدار داده "..." برای ویژگی "..." از Slice "..." یک مقدار کلیدی مفهوم ارجاع شده "..." نیست. یکی از برش‌های شما حاوی یک مقدار بعد ناشناخته است (یعنی یکی که در لیست همه مقادیر ممکن برای مفهوم مربوطه نیست). به جدول تعریف مفهوم ابعاد برگردید و در صورت لزوم مقدار را اضافه کنید.
هدر "..." در داده ها یک ویژگی ثابت در جدول است سرصفحه ستون در CSV با شناسه ستون تعریف شده در تعریف جدول XML مطابقت ندارد. یکی یا دیگری را طوری تغییر دهید که مطابقت داشته باشند.
خطای تجزیه XML ... محتوای نامعتبر پیدا شد که با عنصر "..." شروع می شود. یکی از «{...}»، «{...}»، ... مورد انتظار است. عنصر XML ارجاع شده در جای درستی قرار ندارد. بررسی کنید تا مطمئن شوید ترتیب درست است، و همچنین اینکه عنصر دارای والد صحیح است (به عنوان مثال، info برای name ).
خطای تجزیه XML ... مشخصه '...' مجاز نیست در عنصر '...' ظاهر شود. املا، حروف کوچک یا مکان این ویژگی تگ XML نادرست است. اسناد را برای استفاده مناسب بررسی کنید.
خطای تجزیه XML. ... عنصر '...' نمی تواند شخصیت [فرزند] داشته باشد، زیرا نوع محتوای آن فقط عنصر است. مقداری متن سرگردان در فایل XML شما وجود دارد (احتمالاً ناشی از برچسبی است که علامت < یا > را ندارد). متن را اصلاح کنید و دوباره امتحان کنید.

اگر در درک پیامی که در لیست بالا نیست مشکل دارید، لطفاً یک پیام در انجمن DSPL ارسال کنید و ما سعی خواهیم کرد کمک کنیم.

مجموعه داده من با موفقیت وارد شد، اما نمی توانم هیچ تصویرسازی را برای نمایش در Public Data Explorer دریافت کنم. چه خبر است؟

این مشکل زمانی رخ می دهد که مجموعه داده شما DSPL معتبر باشد، اما در زیرمجموعه DSPL نیست که در اکسپلورر داده های عمومی قابل مشاهده است. دلایل زیادی برای این وجود دارد؛ رایج ترین آنها عبارتند از:

  • تعریف مفهوم ابعاد بدون جدول: بدون این اطلاعات، Public Data Explorer نمی داند چه انتخاب هایی را در UI نمایش دهد.
  • ایجاد یک مجموعه داده تنها با معیارها: Public Data Explorer حداقل به یک بعد طبقه بندی شده (به عنوان مثال، غیرزمان) در جایی از مجموعه داده نیاز دارد تا به درستی رابط کاربری تجسم را ساختار دهد.
  • عدم درج بعد زمانی در برش‌های شما: کاوشگر داده عمومی فقط می‌تواند سری‌های زمانی را تجسم کند. برش های غیر زمان توسط محصول نادیده گرفته می شود.
  • استفاده از یک بعد زمانی غیر از time:... ones: Public Data Explorer از مفاهیم time متعارف برای چیدمان و متحرک سازی تجسم های مختلف در محصول استفاده می کند. دیگر مفاهیم زمانی را نمی‌فهمد، مثلاً مفاهیمی که در مجموعه داده‌های شما ایجاد شده‌اند.
  • استفاده از مقادیر زمانی که خیلی بزرگ یا خیلی کوچک هستند: Public Data Explorer هنوز مجموعه داده هایی را با جزئیات زمانی کوچکتر از یک روز تجسم نمی کند. در طرف دیگر طیف، ابزار با مقادیر بسیار بزرگ سال (مثلاً در ده ها هزار) مشکل دارد. ما امیدواریم که بتوانیم این جزئیات را در آینده انعطاف پذیرتر کنیم.

چگونه می توانم مجموعه داده های بصری خود را در وب سایت خود ادغام کنم؟

این مقاله را در مرکز راهنمای عمومی داده اکسپلورر ببینید. همانطور که در مورد دوم توضیح داده شد، می توانید با تنظیم دستی URL جاسازی، یک "جاسازی کامل" (یعنی یکی شامل کنترل های کاوش) دریافت کنید.