Часто задаваемые вопросы о DSPL

В этом документе рассматриваются наиболее частые проблемы, с которыми сталкиваются владельцы данных при создании наборов данных DSPL и их загрузке в Public Data Explorer.

Содержание

Общие вопросы

Что такое ДСПЛ?

DSPL расшифровывается как язык публикации наборов данных. Это формат представления как для метаданных (информация о наборе данных, такая как его имя и поставщик, а также концепции, которые он содержит и отображает), так и для фактических данных наборов данных. Метаданные указываются в формате XML, тогда как данные предоставляются в формате CSV.

Каковы основные преимущества использования DSPL?

DSPL разработан с нуля для визуализации богатых данных, таких как в Public Data Explorer . Для их создания требуются подробные метаданные о срезах, измерениях и метриках, объектах, которые не так хорошо поддерживаются в других форматах наборов данных.

DSPL также поддерживает импорт наборов данных, иерархию понятий (например, «страна» является потомком «континента»), геокодированные данные и ряд других уникальных функций, расширяющих возможности исследования данных.

Является ли DSPL заменой другим форматам, используемым для обмена данными и/или анализа?

Как правило, нет. Как отмечалось в предыдущем ответе, DSPL предназначен для интерактивной визуализации и исследования. Он не предназначен для использования в качестве универсального универсального формата обмена данными или анализа.

В конечном счете, мы рассматриваем DSPL как дополнение к другим форматам. Пользователи должны иметь возможность создавать наборы данных DSPL из других источников для создания многофункциональных интерактивных визуализаций данных.

Что я могу сделать с набором данных DSPL?

Вы можете импортировать их в обозреватель общедоступных данных , опубликовать и предоставить другим пользователям возможность исследовать данные с помощью многофункциональных интерактивных визуализаций. Опубликованные наборы данных также могут быть включены в каталог общедоступных данных , чтобы заинтересованные пользователи могли их найти.

В настоящее время это единственное приложение, использующее DSPL. Тем не менее, мы призываем людей использовать его для других приложений, и мы ожидаем, что со временем его внедрение будет расти.

Какие типы наборов данных наиболее подходят для DSPL?

Формат DSPL поддерживает произвольные наборы таблиц и, таким образом, подходит для множества типов наборов данных. Однако только часть наборов данных DSPL создаст интересные визуализации в обозревателе общедоступных данных. Последний продукт, в частности, лучше всего работает с данными, которые:

  • Количественные: каждая точка данных имеет одну или несколько связанных с ней числовых метрик (например, «население», «количество случаев гриппа», «доход»).
  • Категориальный: данные могут быть организованы в конечное число категорий, описываемых текстом (например, «страны», «пол», «возрастные группы»).
  • Временные ряды. Для каждой категории показатели данных различаются в зависимости от времени, а соседние точки отстоят друг от друга не менее чем на один день (Обозреватель общедоступных данных не может визуализировать временные приращения меньше одного дня).
  • Агрегированный: для каждой комбинации времени/категории/показателя существует одна точка данных, а не список событий или фактов.

Я создал набор данных DSPL и хочу, чтобы он появился в каталоге общедоступных данных Google, чтобы другие могли его найти. К кому мне обратиться?

Пожалуйста, заполните эту форму и предоставьте ссылку на ваш набор данных.

У меня проблемы с DSPL. Куда мне обратиться за помощью?

Пожалуйста, опубликуйте свой вопрос на форуме обсуждения DSPL .

Файлы набора данных DSPL

Как мне кодировать файлы XML и CSV?

Все файлы XML и CSV должны иметь кодировку UTF-8. Обратите внимание, что ASCII (иногда называемый «обычным текстом») является подмножеством UTF-8, поэтому наборы данных в этом формате также должны работать.

Какое программное обеспечение следует использовать для создания и редактирования файлов набора данных?

Для редактирования XML-файлов рекомендуется использовать текстовый редактор с подсветкой синтаксиса для удобства чтения. см. эту статью для некоторых рекомендаций для конкретной платформы. Мы не рекомендуем использовать полнофункциональные текстовые процессоры общего назначения, поскольку они имеют тенденцию вставлять в ваш XML дополнительные теги форматирования, что может привести к ошибкам импорта.

Электронная таблица обычно является самым простым способом создания и редактирования файлов данных. Просто не забудьте сохранить их в правильном формате (CSV/значения, разделенные запятыми).

У меня есть данные в Excel, SPSS, SAS или какой-либо другой системе. Могу ли я импортировать их непосредственно в обозреватель общедоступных данных?

Нет, не сейчас. Вам необходимо сначала экспортировать данные в формат CSV, добавить соответствующие метаданные XML, а затем загрузить набор данных, совместимый с DSPL, в обозреватель общедоступных данных.

Имеет ли значение, как я называю свои файлы?

Имя XML-файла набора данных должно заканчиваться на .xml . Связанные файлы данных CSV могут иметь любые имена при условии, что они совпадают с именами, указанными в тегах <file> в метаданных XML. ZIP-файл, используемый для упаковки и импорта набора данных в Public Data Explorer, также может иметь любое имя.

Должны ли мои CSV-файлы сортироваться?

Да. Вы должны отсортировать содержимое ваших CSV-файлов по измерениям, не относящимся к времени (в любом порядке или направлении), а затем, при желании, по любому из других столбцов (например, по времени).

Так, например, если у вас есть CSV- metric1 со столбцами date , 1 , metric2 dimension1 dimension2 следует отсортировать по dimension1 1 и dimension2 2 (в любом порядке). Если вы хотите также сортировать по столбцу даты/времени, то это должно быть последнее, по чему вы сортируете.

Такая сортировка позволяет сгруппировать наблюдения для каждого временного ряда, что значительно повышает эффективность процесса импорта DSPL.

XML-модель и синтаксис

Как мне решить, что должно быть метрикой, а что должно быть измерением?

Измерение — это сущность, которая используется для сегментации или фильтрации данных. С другой стороны, метрика описывает наблюдаемое значение или значения, связанные с каждой точкой данных.

Как правило, измерения являются категориальными, тогда как метрики являются некатегориальными, изменяющимися во времени числовыми значениями. Вот некоторые прототипы каждого из них:

  • Размеры : страна, штат, округ, регион, год, месяц, пол, возрастная категория, отраслевой сегмент.
  • Показатели : население, ВВП, уровень безработицы, грамотность, доход, стоимость, цена.

В чем разница между свойством и атрибутом?

Свойства присоединяются к каждому экземпляру понятия. Например, свойство континента будет иметь разные значения для разных стран. Атрибуты, с другой стороны, связаны с понятием в целом. Например: атрибут isParent истинен для всех континентов.

Имеет ли значение порядок тегов?

Да. Добавляйте теги в том порядке, в котором они указаны в Руководстве разработчика . Например, <topic> должен стоять перед <type> в определении понятия.

Имеет ли значение капитализация?

Да, ваши XML-теги и имена атрибутов должны быть написаны с заглавной буквы так же, как они указаны в Руководстве разработчика . Например, использование isparent вместо isParent в теге property вызовет ошибку импорта.

Может ли концепт иметь двух родителей?

Нет. Каждое понятие может иметь только одну ссылку isParent .

Может ли понятие относиться к самому себе?

Да. См . набор данных о розничных продажах в США для примера иерархии самоссылающихся понятий.

Форматирование данных

Как форматировать даты?

Даты могут быть записаны в любом формате, описываемом стандартом Joda DateTime. Код форматирования Joda должен храниться в атрибуте format в соответствующем элементе столбца таблицы.

Коды форматирования Joda для некоторых популярных форматов даты перечислены ниже:

Пример даты Джода Формат
2010 yyyy
май 2010 г. MMM yyyy
21.05.2010 MM/dd/yyyy
21.05.2010 dd/MM/yyyy
21 мая 2010 г. yyyy-MM-dd

В частности, обратите внимание, что код Joda для символов месяца — M , а не m (который представляет минуты).

Могу ли я использовать единицы времени меньше одного дня?

Формат Joda DateTime и, следовательно, DSPL также поддерживает значения времени вплоть до порядка миллисекунд. Однако Public Data Explorer не может (пока) визуализировать временную гранулярность меньше одного дня.

Использование канонических концепций

Что такое «канонические концепции» и чем они полезны?

Термин «канонические концепции» относится к набору концепций, созданных Google, которые предназначены в качестве основных «строительных блоков» в других наборах данных. Сами концепции определены в шести наборах данных DSPL , которые группируют первые по категориям, таким как «время», «гео» и т. д. Чтобы получить доступ к этим концепциям, просто импортируйте соответствующие родительские наборы данных в начале XML-файла DSPL. файл.

Канонические концепции полезны, потому что они помогают сэкономить время (например, за счет отсутствия необходимости вручную вводить значения широты и долготы для каждой страны мира), а также указывают, как ваши данные должны быть визуализированы. Например, Public Data Explorer использует понятия time:... для форматирования оси x линейной диаграммы, использует свойство name концепции entity:entity для создания строк для пользовательского интерфейса средства выбора измерений, использует свойства latitude и longitude geo:location для отображения данных в визуализации карты и так далее.

Все ли канонические концепции понятны обозревателю общедоступных данных?

Хотя большинство представленных канонических концепций понятны обозревателю общедоступных данных, есть некоторые, которые (пока) не визуализируются. Они перечислены ниже вместе с некоторыми предлагаемыми обходными путями:

Концепция Обходной путь
quantity:index Вместо этого используйте quantity:ratio или quantity:magnitude .
time:quarter Используйте time:month , как описано в DSPL Cookbook .
time:week Используйте time:day , как описано в DSPL Cookbook .

Следите за обновлениями для лучшей поддержки этих концепций в будущем.

Как использовать каноническую концепцию в моем наборе данных?

См. документацию по конкретной концепции, которую вы хотели бы использовать, а также ознакомьтесь с Поваренной книгой DSPL , в которой есть подробные пошаговые инструкции для наиболее распространенных.

Импорт и визуализация наборов данных

Почему я не могу успешно импортировать свой набор данных?

Интерфейс загрузки Public Data Explorer просканирует ваш набор данных DSPL и заблокирует его импорт, если будут обнаружены какие-либо ошибки. Импортер очень чувствителен к правописанию, использованию заглавных букв и порядку/размещению тегов в вашем XML-файле, а также к макету и сортировке данных в ваших CSV-файлах, поэтому может потребоваться несколько проходов, чтобы сделать все правильно и импортировать ваш набор данных. успешно.

Первым шагом в решении этих проблем является просмотр сообщений об ошибках, отображаемых в пользовательском интерфейсе, и выполнение соответствующих корректирующих действий. Поскольку эти сообщения не всегда самые простые для понимания (мы активно работаем над улучшением), мы составили таблицу, объясняющую наиболее распространенные из них:

Ошибка Объяснение
дубликат ключа: ... Таблица определений для вашего понятия имеет повторяющееся значение идентификатора (т. е. значение в столбце с тем же именем, что и у понятия). Эти значения используются для уникальной идентификации отдельных экземпляров концепции, поэтому дубликаты не допускаются.
Исключение при синтаксическом анализе строк данных из источника, вызванное сочетанием свойств [...], появляется более чем в одной отдельной группе строк в данных. Ваш CSV не отсортирован должным образом. См . обсуждение выше для получения инструкций о том, как это сделать.
Исключение при синтаксическом анализе строк данных из источника, вызванное недопустимым форматом: "..." имеет неверный формат в "..." Форматирование этого значения (обычно даты) в CSV-файле не соответствует формату, указанному в XML-файле. Измените формат или значение, чтобы они совпадали.
Исключение при синтаксическом анализе строк данных из источника, вызванное тем, что количество элементов в строке (...) не соответствует количеству указанных свойств (...) для строки: [...] Строка в вашем CSV имеет либо слишком много, либо слишком мало значений. Исправьте форматирование этой строки.
Исключение при синтаксическом анализе строк данных из источника, вызванное Для входной строки: "..." Значение в вашем CSV (обычно целое число или число с плавающей запятой) содержит нечисловые символы (например, символ доллара, знак процента и т. д.), которые препятствуют его правильному анализу. Удалите эти лишние символы.
Исключение при синтаксическом анализе строк данных из источника, вызванное тем, что значение данных "..." для свойства "..." среза "..." не является ключевым значением упомянутого понятия "...". Один из ваших срезов содержит нераспознанное значение измерения (то есть такое, которого нет в списке всех возможных значений для соответствующего понятия). Вернитесь к таблице определения концепции измерения и при необходимости добавьте значение.
Заголовок '...' в данных является постоянным свойством в таблице Заголовок столбца в CSV-файле не соответствует идентификатору столбца, указанному в определении таблицы XML. Измените одно или другое, чтобы они совпадали.
Ошибка синтаксического анализа XML... Обнаружено недопустимое содержимое, начинающееся с элемента '...'. Ожидается один из '{...}', '{...}', .... Ссылочный XML-элемент находится не в том месте. Убедитесь, что порядок правильный, а также что у элемента правильный родитель (например, info для name ).
Ошибка синтаксического анализа XML... Атрибут '...' не может появляться в элементе '...'. Неверное написание, регистр или расположение этого атрибута тега XML. Проверьте документацию для соответствующего использования.
Ошибка синтаксического анализа XML. ... Элемент '...' не может иметь символ [дочерние элементы], потому что тип содержимого типа относится только к элементам. В вашем XML-файле есть какой-то беспорядочный текст (возможно, вызванный тегом, в котором отсутствует < или > ). Исправьте текст и повторите попытку.

Если у вас возникли проблемы с пониманием сообщения, которого нет в приведенном выше списке, опубликуйте сообщение на форуме DSPL , и мы постараемся помочь.

Мой набор данных успешно импортирован, но я не могу отобразить визуализацию в обозревателе общедоступных данных. В чем дело?

Эта проблема возникает, когда ваш набор данных является допустимым DSPL, но не входит в подмножество DSPL, которое можно визуализировать в обозревателе общедоступных данных. Для этого есть много возможных причин; наиболее распространенными являются:

  • Определение концепции измерения без таблицы. Без этой информации обозреватель общедоступных данных не знает, какие варианты отображать в пользовательском интерфейсе.
  • Создание набора данных только с метриками: обозревателю общедоступных данных требуется по крайней мере одно категориальное (т. е. не связанное со временем) измерение, определенное где-то в наборе данных, чтобы правильно структурировать пользовательский интерфейс визуализации.
  • Отсутствие измерения времени в срезах: обозреватель общедоступных данных может отображать только временные ряды . Срезы, не относящиеся к времени, будут игнорироваться продуктом.
  • Использование временного измерения, отличного от канонического time:... одно: Public Data Explorer использует концепции канонического time для компоновки и анимации различных визуализаций в продукте; он не понимает других концепций времени, например созданных в вашем собственном наборе данных.
  • Использование слишком больших или слишком малых значений времени . Обозреватель общедоступных данных еще не визуализирует наборы данных с временной детализацией менее одного дня. На другом конце спектра инструмент имеет проблемы с очень большими значениями года (например, в десятках тысяч). В будущем мы надеемся сделать эти детали более гибкими.

Как мне интегрировать мой визуализированный набор данных в мой веб-сайт?

См. эту статью в Справочном центре Public Data Explorer. Как объяснялось в последнем случае, вы можете получить «полное встраивание» (т. е. включение элементов управления исследованием), вручную изменив URL-адрес встраивания.