Часто задаваемые вопросы по DSPL

В этом документе рассматриваются наиболее частые проблемы, с которыми сталкиваются владельцы данных при создании наборов данных DSPL и их загрузке в Public Data Explorer.

Содержание

Общие вопросы

Что такое ДСПЛ?

DSPL означает язык публикации наборов данных. Это формат представления как метаданных (информация о наборе данных, такая как его имя и поставщик, а также концепции, которые он содержит и отображает), так и фактических данных наборов данных. Метаданные указываются в формате XML, а данные предоставляются в формате CSV.

Каковы основные преимущества использования DSPL?

DSPL изначально разработан для расширенной визуализации данных, подобной той, что используется в Public Data Explorer . Для их создания требуются подробные метаданные о срезах, измерениях и метриках — объектах, которые не так хорошо поддерживаются в других форматах наборов данных.

DSPL также поддерживает импорт наборов данных, концептуальные иерархии (например, «страна» является дочерним элементом «континента»), геокодированные данные и ряд других уникальных функций, которые расширяют возможности исследования данных.

Является ли DSPL заменой других форматов, используемых для обмена и/или анализа данных?

Обычно нет. Как отмечалось в предыдущем ответе, DSPL предназначен для интерактивной визуализации и исследования. Он не предназначен для использования в качестве универсального формата обмена данными или анализа.

В конечном счете, мы рассматриваем DSPL как дополнение к другим форматам. Пользователи должны иметь возможность создавать наборы данных DSPL из других источников с целью создания насыщенной интерактивной визуализации данных.

Что я могу делать с набором данных DSPL?

Вы можете импортировать их в Public Data Explorer , опубликовать и позволить другим изучать данные с помощью насыщенных интерактивных визуализаций. Опубликованные наборы данных также можно включить в каталог общедоступных данных , чтобы заинтересованные пользователи могли их найти.

На данный момент это единственное приложение, использующее DSPL. Однако мы призываем людей использовать его для других приложений и ожидаем, что со временем его распространение будет расти.

Какие типы наборов данных наиболее подходят для DSPL?

Формат DSPL поддерживает произвольные наборы таблиц и, таким образом, подходит для самых разных типов наборов данных. Однако только подмножество наборов данных DSPL обеспечит интересные визуализации в Public Data Explorer. Последний продукт, в частности, лучше всего работает с данными, которые:

  • Количественный: с каждой точкой данных связан один или несколько числовых показателей (например, «население», «количество случаев гриппа», «доход»).
  • Категориальный: данные могут быть организованы в ограниченное число описываемых текстом категорий (например, «страны», «пол», «возрастные группы»).
  • Временной ряд: для каждой категории показатели данных изменяются в зависимости от времени, а расстояние между соседними точками составляет как минимум один день (Обозреватель общедоступных данных не может визуализировать приращения времени менее одного дня).
  • Агрегированный: для каждой комбинации времени/категории/метрики существует одна точка данных, а не список событий или фактов.

Я создал набор данных DSPL и хочу, чтобы он появился в каталоге общедоступных данных Google, чтобы другие могли его найти. С кем мне связаться?

Пожалуйста, заполните эту форму и предоставьте ссылку на ваш набор данных.

У меня проблемы с DSPL. Куда мне обратиться за помощью?

Пожалуйста, опубликуйте свою проблему на дискуссионном форуме DSPL .

Файлы набора данных DSPL

Как мне закодировать файлы XML и CSV?

Все файлы XML и CSV должны иметь кодировку UTF-8. Обратите внимание, что ASCII (иногда называемый «простым текстом») является подмножеством UTF-8, поэтому наборы данных в этом формате также должны работать.

Какое программное обеспечение мне следует использовать для создания и редактирования файлов набора данных?

Для редактирования файлов XML рекомендуется использовать текстовый редактор с подсветкой синтаксиса для удобства чтения; в этой статье приведены некоторые рекомендации для конкретных платформ. Мы не советуем использовать полнофункциональные текстовые процессоры общего назначения, поскольку они имеют тенденцию вставлять в ваш XML дополнительные теги форматирования, что может вызвать ошибки импорта.

Электронная таблица обычно является самым простым способом создания и редактирования файлов данных. Только обязательно сохраните их в правильном формате (CSV/значения, разделенные запятыми).

У меня есть данные в Excel, SPSS, SAS или какой-либо другой системе. Могу ли я импортировать их непосредственно в Public Data Explorer?

Нет, не сейчас. Сначала вам необходимо экспортировать данные в формат CSV, добавить соответствующие метаданные XML, а затем загрузить набор данных, совместимый с DSPL, в Public Data Explorer.

Имеет ли значение, как я назову свои файлы?

XML-файл набора данных должен иметь имя, оканчивающееся на .xml . Связанные файлы данных CSV могут иметь любые имена при условии, что они соответствуют именам, указанным в тегах <file> в метаданных XML. ZIP-файл, используемый для упаковки и импорта набора данных в Public Data Explorer, также может иметь любое имя.

Должны ли мои файлы CSV быть отсортированы?

Да. Вам следует отсортировать содержимое ваших CSV-файлов по измерениям, не связанным со временем (в любом порядке и направлении), а затем, при необходимости, по любому из других столбцов (например, по времени).

Так, например, если у вас есть CSV со столбцами date , dimension1 , dimension2 , metric1 и metric2 , вам следует отсортировать данные по dimension1 и dimension2 (в любом порядке). Если вы хотите также выполнить сортировку по столбцу даты и времени, то это должно быть последнее, по чему вы выполняете сортировку.

При такой сортировке наблюдения для каждого временного ряда группируются вместе, что значительно повышает эффективность процесса импорта DSPL.

XML-модель и синтаксис

Как решить, что должно быть метрикой, а что — измерением?

Измерение – это сущность, которая используется для сегментации или фильтрации ваших данных. С другой стороны, метрика описывает наблюдаемое значение или значения, связанные с каждой точкой данных.

Как правило, измерения являются категориальными, тогда как метрики представляют собой некатегориальные, изменяющиеся во времени числовые значения. Вот некоторые прототипные примеры каждого из них:

  • Размеры : страна, штат, округ, регион, год, месяц, пол, возрастная категория, отраслевой сегмент.
  • Метрики : население, ВВП, уровень безработицы, грамотность, доходы, стоимость, цена.

В чем разница между свойством и атрибутом?

Свойства прикрепляются к каждому экземпляру концепции. Например, свойство континента будет иметь разные значения для разных стран. Атрибуты, с другой стороны, связаны с концепцией в целом. Например: атрибут isParent верен для всех континентов.

Имеет ли значение порядок тегов?

Да. Добавляйте теги в том порядке, в котором они указаны в Руководстве разработчика . Например, <topic> должен стоять перед <type> в определении понятия.

Имеет ли значение капитализация?

Да, имена тегов и атрибутов XML должны быть написаны с заглавной буквы так же, как они указаны в Руководстве разработчика . Например, использование isparent вместо isParent в теге property приведет к ошибке импорта.

Может ли у концепта быть два родителя?

Нет. Каждая концепция может иметь только одну ссылку isParent .

Может ли понятие относиться к самому себе?

Да. См. набор данных по розничным продажам в США, где приведен пример самоссылающейся иерархии концепций.

Форматирование данных

Как форматировать даты?

Даты могут быть записаны в любом формате, который можно описать стандартом Joda DateTime. Код форматирования Joda должен храниться в атрибуте format внутри соответствующего элемента столбца таблицы.

Коды форматирования Joda для некоторых популярных форматов дат перечислены ниже:

Пример даты Формат Джода
2010 год yyyy
май 2010 г. MMM yyyy
21.05.2010 MM/dd/yyyy
21.05.2010 dd/MM/yyyy
21 мая 2010 г. yyyy-MM-dd

В частности, обратите внимание, что код Joda для символов месяца — M , а не m (который представляет минуты).

Могу ли я использовать единицы времени меньше одного дня?

Формат Joda DateTime и, следовательно, DSPL поддерживают значения времени вплоть до миллисекунд. Однако Public Data Explorer (пока) не может визуализировать детализацию времени меньше дня.

Использование канонических концепций

Что такое «канонические концепции» и чем они полезны?

Термин «канонические концепции» относится к набору концепций, созданных Google, которые предназначены в качестве основных «строительных блоков» в других наборах данных. Сами концепции определяются в шести наборах данных DSPL , которые группируют первые по таким категориям, как «время», «география» и т. д. Чтобы получить доступ к этим концепциям, просто импортируйте соответствующие родительские наборы данных в начало XML-файла DSPL. файл.

Канонические концепции полезны, поскольку помогают сэкономить время (например, благодаря тому, что не нужно вручную вводить значения широты и долготы для каждой страны мира), а также указывают, как следует визуализировать ваши данные. Например, Public Data Explorer использует концепции time:... для форматирования оси X линейной диаграммы, использует свойство name entity:entity для создания строк для пользовательского интерфейса средства выбора измерений, использует свойства latitude и longitude geo:location для отображения данных в визуализации карты и т. д.

Все ли канонические концепции понятны Public Data Explorer?

Хотя большинство представленных канонических концепций понятны Public Data Explorer, есть некоторые, которые (пока) невозможно визуализировать. Они перечислены ниже вместе с некоторыми предлагаемыми обходными путями:

Концепция Обходной путь
quantity:index Вместо этого используйте quantity:ratio или quantity:magnitude .
time:quarter Используйте time:month , как описано в кулинарной книге DSPL .
time:week Используйте time:day , как описано в кулинарной книге DSPL .

Оставайтесь с нами для лучшей поддержки этих концепций в будущем.

Как использовать каноническую концепцию в моем наборе данных?

Ознакомьтесь с документацией по конкретной концепции, которую вы хотите использовать, а также ознакомьтесь с «Поваренной книгой DSPL» , в которой приведены подробные пошаговые инструкции для наиболее распространенных из них.

Импорт и визуализация наборов данных

Почему я не могу успешно импортировать свой набор данных?

Интерфейс загрузки Public Data Explorer просканирует ваш набор данных DSPL и заблокирует его импорт, если будут обнаружены какие-либо ошибки. Импортер очень чувствителен к написанию, использованию заглавных букв и порядку/размещению тегов в вашем XML-файле, а также к расположению и сортировке данных в ваших файлах CSV, поэтому может потребоваться несколько проходов, чтобы сделать все правильно и импортировать ваш набор данных. успешно.

Первым шагом в решении этих проблем является просмотр сообщений об ошибках, представленных в пользовательском интерфейсе, и принятие соответствующих корректирующих действий. Поскольку эти сообщения не всегда легко понять (над чем мы активно работаем), мы составили таблицу, объясняющую наиболее распространенные из них:

Ошибка Объяснение
дубликат ключа: ... Таблица определений вашего понятия имеет повторяющееся значение идентификатора (т. е. значение в столбце с тем же именем, что и понятие). Эти значения используются для уникальной идентификации отдельных экземпляров концепции, поэтому дублирование не допускается.
Исключение при синтаксическом анализе строк данных из источника, вызванное Комбинацией свойств [...] появляется более чем в одной отдельной группе строк в данных. Ваш CSV-файл отсортирован неправильно. Инструкции о том, как это сделать, см. в обсуждении выше .
Исключение при анализе строк данных из источника, вызванное недопустимым форматом: «...» имеет неверный формат «...» Формат этого значения (обычно даты) в вашем CSV не соответствует формату, указанному в вашем XML-файле. Измените формат или значение так, чтобы они совпадали.
Исключение при анализе строк данных из источника, вызванное тем, что количество элементов в строке (...) не соответствует количеству указанных свойств (...) для строки: [...] В строке CSV содержится слишком много или слишком мало значений. Исправьте форматирование этой строки.
Исключение при анализе строк данных из источника, вызванное Для входной строки: "..." Значение в вашем CSV (обычно целое число или число с плавающей запятой) содержит нечисловые символы (например, символ доллара, знак процента и т. д.), которые не позволяют его правильно проанализировать. Удалите эти лишние символы.
Исключение при синтаксическом анализе строк данных из источника, вызванное значением данных "..." для свойства "..." среза "..." не является ключевым значением связанной концепции "...". Один из ваших срезов содержит нераспознанное значение измерения (т. е. то, которого нет в списке всех возможных значений для соответствующего понятия). Вернитесь к таблице определения концепции измерения и при необходимости добавьте значение.
Заголовок «...» в данных является постоянным свойством в таблице. Заголовок столбца в CSV-файле не соответствует идентификатору столбца, определенному в определении таблицы XML. Измените одно или другое так, чтобы они совпадали.
Ошибка синтаксического анализа XML... Обнаружено недопустимое содержимое, начиная с элемента "...". Ожидается одно из '{...}', '{...}', .... Указанный элемент XML находится не в нужном месте. Убедитесь, что порядок правильный, а также что у элемента правильный родительский элемент (например, info для name ).
Ошибка синтаксического анализа XML... Атрибут '...' не может появляться в элементе '...'. Написание, регистр или расположение этого атрибута тега XML неверны. Проверьте документацию на предмет надлежащего использования.
Ошибка синтаксического анализа XML. ... Элемент '...' не может иметь символ [дочерние элементы], поскольку тип содержимого типа предназначен только для элементов. В вашем XML-файле есть какой-то случайный текст (возможно, из-за того, что в теге отсутствует < или > ). Исправьте текст и повторите попытку.

Если у вас возникли проблемы с пониманием сообщения, которого нет в приведенном выше списке, отправьте сообщение на форуме DSPL , и мы постараемся помочь.

Мой набор данных успешно импортирован, но я не могу отобразить какие-либо визуализации в Public Data Explorer. Что происходит?

Эта проблема возникает, когда ваш набор данных соответствует допустимому DSPL, но не входит в подмножество DSPL, которое можно визуализировать в Public Data Explorer. Для этого есть много возможных причин; наиболее распространенными являются:

  • Определение концепции измерения без таблицы. Без этой информации Public Data Explorer не знает, какие варианты отображать в пользовательском интерфейсе.
  • Создание набора данных только с метриками. Для правильного структурирования пользовательского интерфейса визуализации для Public Data Explorer требуется хотя бы одно категориальное (т. е. не связанное со временем) измерение, определенное где-то в наборе данных.
  • Отсутствие измерения времени в срезах: Public Data Explorer может визуализировать только временные ряды . Невременные фрагменты будут игнорироваться продуктом.
  • Использование измерения времени, отличного от канонического time:... one: Public Data Explorer использует концепции канонического time для компоновки и анимации различных визуализаций в продукте; он не понимает другие концепции времени, например, созданные внутри вашего собственного набора данных.
  • Использование слишком больших или слишком маленьких значений времени: Public Data Explorer еще не визуализирует наборы данных с детализацией по времени менее одного дня. На другом конце спектра у инструмента возникают проблемы с очень большими значениями года (например, в десятках тысяч). Мы надеемся сделать эту детализацию более гибкой в ​​будущем.

Как мне интегрировать визуализированный набор данных на свой веб-сайт?

См. эту статью в Справочном центре Public Data Explorer. Как объяснено в последнем разделе, вы можете получить «полное встраивание» (т. е. включая элементы управления исследованием), вручную изменив URL-адрес встраивания.