このドキュメントでは、データオーナーが DSPL データセットを作成して Public Data Explorer にアップロードする際によく発生する問題について説明します。
目次
一般的な質問
DSPL とは
DSPL は、Dataset Publishing Language の略です。これは、データセットのメタデータ(名前、プロバイダ、データセットに含まれるコンセプト、表示されるコンセプトなどのデータセットに関する情報)と実際のデータの両方の表現形式です。メタデータは XML で指定されますが、データは CSV 形式で提供されます。
DSPL を使用する主な利点は何ですか。
DSPL は、Public Data Explorer のようなリッチデータを可視化するためにゼロから設計されています。データセットを作成するには、スライス、ディメンション、指標(他のデータセット形式では十分にサポートされていないエンティティ)に関する詳細なメタデータが必要です。
DSPL は、データセットのインポート、コンセプト階層(「country」は「共有」の子)、ジオコーディングされたデータなど、データ探索エクスペリエンスを強化する独自の特徴が多数用意されています。
DSPL は、データ交換や分析に使用される他の形式に代わるものですか?
通常はそうではありません。前の回答で述べたように、DSPL はインタラクティブな可視化と探索を念頭に置いて設計されています。汎用的なデータ交換や分析形式を意図したものではありません。
Google は最終的に、DSPL は他の形式を補完するものであると考えています。ユーザーがリッチでインタラクティブなデータ可視化を行う目的で、ユーザーが他のソースから DSPL データセットを作成できるようにする必要があります。
DSPL データセットでできること
データを Public Data Explorer にインポートして公開し、リッチでインタラクティブな可視化を通じて他のユーザーがデータを探索できるようにすることができます。公開データセットを一般公開データ ディレクトリに含めることで、関心のあるユーザーがデータセットを見つけることもできます。
現在、DSPL を使用するアプリケーションはこの 1 つだけです。ただし、Google では他のアプリケーションにもこのツールを使用することを推奨しており、今後さらに普及することが予想されます。
DSPL に最適なデータセットの種類
DSPL 形式は、任意のテーブル コレクションをサポートしているため、さまざまなデータセット タイプに適しています。ただし、Public Data Explorer で興味深い可視化できるのは、DSPL データセットのサブセットのみです。後者のプロダクトは、特に次のようなデータに最適です。
- 定量的: 各データポイントには、1 つ以上の数値指標が関連付けられています(例:「人口」、「インフルエンザの症例数」、「収益」)などがあります。
- カテゴリ: データは、テキスト記述可能な有限のカテゴリ(例:「国」、「性別」、「年齢層」)。
- 時系列: カテゴリごとに、データ指標は時間の関数として変化し、隣接するポイントは 1 日以上空けます(Public Data Explorer は 1 日未満の時間増分を可視化できません)。
- 集計: 時間 / カテゴリ / 指標の組み合わせごとに、イベントや事実のリストではなく、単一のデータポイントがあります。
作成した DSPL データセットを Google Public Data Directory に登録し、他のユーザーが見つけられるようにしたいと考えています。どこに問い合わせればよいですか?
こちらのフォームに記入し、データセットへのリンクを入力してください。
DSPL がうまく機能しません。サポートが必要な場合はどうすればよいですか?
問題を DSPL ディスカッション フォーラムに投稿してください。
DSPL データセット ファイル
XML ファイルと CSV ファイルをエンコードするにはどうすればよいですか?
XML ファイルと CSV ファイルはすべて UTF-8 でエンコードする必要があります。ASCII(「書式なしテキスト」と呼ばれることもあります)は UTF-8 のサブセットであるため、この形式のデータセットも機能します。
データセット ファイルを作成、編集するには、どのソフトウェアを使用する必要がありますか?
XML ファイルの編集には、読みやすくするために構文がハイライトされる書式なしテキスト エディタを使用することをおすすめします。プラットフォーム固有の推奨事項については、こちらの記事をご覧ください。多機能の汎用ワード プロセッサは、XML に追加のフォーマット タグを挿入する傾向があり、インポート エラーを引き起こす可能性があるため、使用しないことをおすすめします。
データファイルの作成と編集には、通常、スプレッドシートを使用するのが最も簡単な方法です。必ず正しい形式(CSV / カンマ区切り値)で保存してください。
Excel、SPSS、SAS などのシステムにデータがあります。これらを Public Data Explorer に直接インポートできますか?
いいえ、現時点ではできません。まず、データを CSV 形式でエクスポートし、適切な XML メタデータを追加してから、DSPL 準拠のデータセットを Public Data Explorer にアップロードする必要があります。
ファイルに名前を付けることは重要ですか?
データセットの XML ファイルの名前は、.xml
で終わる名前にします。関連付けられた CSV データファイルには、任意の名前を付けることができます。ただし、XML メタデータの <file>
タグで指定された名前と一致する必要があります。データセットをパッケージ化して Public Data Explorer にインポートするために使用する zip ファイルにも任意の名前を付けることができます。
CSV ファイルは並べ替える必要がありますか?
はい。CSV ファイルのコンテンツは、時間以外のディメンション(任意の順序や方向)で並べ替え、必要に応じて他の列(時間など)で並べ替える必要があります。
たとえば、date
列、dimension1
列、dimension2
列、metric1
列、metric2
列を含む CSV がある場合は、dimension1
と dimension2
で並べ替える必要があります(順不同)。日付/時刻列で並べ替える場合は、これを最後に並べ替える必要があります。
この方法で並べ替えると、各時系列の観測値がグループ化されるため、DSPL インポート プロセスの効率が大幅に向上します。
XML モデルと構文
指標とディメンションを指定するにはどうすればよいですか?
ディメンションとは、データのセグメント化またはフィルタ処理に使用されるエンティティです。一方、指標は、各データポイントに関連付けられた観測値を表します。
通常、ディメンションはカテゴリですが、指標はカテゴリではなく時間変化する数値です。それぞれのプロトタイプの例を以下に示します。
- ディメンション: 国、都道府県、郡、地域、年、月、性別、年齢層、業界セグメント
- 指標: 人口、GDP、失業率、リテラシー、収益、費用、価格
プロパティと属性の違いは何ですか?
プロパティはコンセプトの各インスタンスに関連付けられます。たとえば、大陸のプロパティは国ごとに値が異なります。一方、属性は、コンセプト全体に関連付けられます。たとえば、isParent
属性はすべての大陸で true です。
タグの順序は重要ですか?
はい。デベロッパー ガイドに記載されている順序でタグを追加します。たとえば、コンセプトの定義では <topic>
は <type>
の前に配置する必要があります。
大文字と小文字は区別されますか?
はい。XML タグと属性名は、デベロッパー ガイドと同じように大文字にする必要があります。たとえば、property
タグで isParent
ではなく isparent
を使用すると、インポート エラーが発生します。
1 つのコンセプトが 2 つの親を持つことはできますか?
いいえ。各コンセプトに設定できる isParent
参照は 1 つのみです。
あるコンセプトはそれ自体を指すことができますか?
はい。自己参照のコンセプト階層の例については、US Retail Sales データセットをご覧ください。
データ形式
日付の形式
日付は、
Joda DateTime 標準で記述できる任意の形式で記述できます。Joda フォーマット コードは、対応するテーブル列要素内の format
属性に保存する必要があります。
一般的な日付形式の Joda 形式コードを以下に示します。
日付の例 | Joda 形式 |
---|---|
2010 | yyyy |
2010 年 5 月 | MMM yyyy |
2010 年 5 月 21 日 | MM/dd/yyyy |
2010 年 5 月 21 日 | dd/MM/yyyy |
2010-05-21 | yyyy-MM-dd |
特に、月の文字の Joda コードは m
(分を表す)ではなく M
であることにご注意ください。
1 日未満の時間単位を使用できますか?
Joda DateTime 形式(つまり DSPL も同様)は、ミリ秒単位の時刻の値をサポートします。ただし、Public Data Explorer では、1 日未満の時間粒度を(現時点では)可視化できません。
正規概念の使用
「正規の概念」とは何か、またそれらがどのように役立つのか?
「正規のコンセプト」という用語は、他のデータセットで基本的な「構成要素」として使用される、Google が作成した一連のコンセプトを指します。コンセプト自体は、6 つの DSPL データセットで定義され、データセットは「time」、「geo」などのカテゴリにグループ化されています。これらのコンセプトにアクセスするには、DSPL XML ファイルの先頭で適切な親データセットをインポートします。
正規の概念は、時間を節約でき(世界中のすべての国について緯度と経度の値を手動で入力する必要がないなど)、データの可視化方法を示すために役立ちます。たとえば、Public Data Explorer では、time:...
のコンセプトを使用して折れ線グラフの X 軸の形式を設定し、entity:entity
コンセプトの name
プロパティを使用してディメンション選択ツール UI の文字列を生成し、geo:location
の latitude
プロパティと longitude
プロパティを使用して、地図の可視化にデータを表示します。
Public Data Explorer はすべての標準的なコンセプトを理解していますか?
提供されている標準的なコンセプトのほとんどは Public Data Explorer で理解できますが、中には(まだ)可視化できないものもあります。以下に、これらの問題と推奨される回避策を示します。
コンセプト | 対応策 |
---|---|
quantity:index |
代わりに quantity:ratio または quantity:magnitude を使用してください。 |
time:quarter |
DSPL クックブックで説明されているように、time:month を使用します。 |
time:week |
DSPL クックブックで説明されているように、time:day を使用します。 |
今後、これらのコンセプトが効果的にサポートされる予定ですので、ご期待ください。
データセットで正規の概念を使用するにはどうすればよいですか?
使用する具体的なコンセプトについては、ドキュメントをご覧ください。また、DSPL クックブックもご覧ください。ここには、一般的なものについて詳細な手順が記載されています。
データセットのインポートと可視化
データセットを正常にインポートできないのはなぜですか?
Public Data Explorer のアップロード インターフェースが DSPL データセットをスキャンし、エラーが検出された場合はインポートをブロックします。インポータは、XML ファイル内のスペル、大文字 / 小文字、タグの順序 / 配置に加え、CSV ファイル内のデータのレイアウトと並べ替えに非常に敏感であるため、これらを正しく行わせてデータセットを正常にインポートするには、いくつかの操作が必要となる場合があります。
これらの問題を解決するには、まず UI に表示されるエラー メッセージを確認し、適切な是正措置を講じます。これらのメッセージは必ずしも理解しやすいとは限らないため(Google は改善に向けて積極的に取り組んでいます)、最も一般的なメッセージを以下にまとめました。
エラー | 解説 |
---|---|
重複キー: ... | コンセプトの定義テーブルに繰り返し ID 値がある(つまり、コンセプトと同じ名前の列の値)。これらの値は、コンセプトの個々のインスタンスを一意に識別するために使用されるため、重複は許可されません。 |
プロパティの組み合わせ [...] が、データ内の複数の別個の行に存在していることが原因で発生する、ソースからのデータ行の解析中に例外が発生しました。 | CSV が正しく並べ替えられていません。これを行う方法については、上記の説明をご覧ください。 |
無効な形式が原因でソースからのデータ行の解析中に例外が発生しました: 「...」の形式が正しくありません | CSV のこの値の形式(通常は日付)が XML ファイルの形式と一致していません。一致するように形式または値を変更してください。 |
ソースからのデータ行の解析中に、行(...)の要素数が行 [...] で指定されたプロパティの数(...)と一致しなかったために例外が発生しました。 | CSV の行に含まれる値が多すぎるか、少なすぎます。この行の書式を修正してください。 |
For input string: "..." が原因でソースからのデータ行の解析中に例外が発生した | CSV の値(通常は整数または浮動小数点数)に数字以外の文字(ドル記号、パーセント記号など)が含まれているため、適切に解析されません。これらの余分な文字を削除してください。 |
スライス「...」のプロパティ「...」のデータ値「...」が原因で、ソースからのデータ行の解析中の例外が、参照されるコンセプト「...」のキー値ではありません。 | いずれかのスライスに認識できないディメンション値(例:対応するコンセプトの有効な値のリストに含まれていない)。ディメンションのコンセプトの定義の表に戻り、必要に応じて値を追加します。 |
data のヘッダー「...」はテーブル内の定数プロパティ | CSV の列ヘッダーが、XML テーブル定義で定義された列 ID と一致しません。どちらか一方を一致するように変更します。 |
XML 解析エラー...要素「...」で始まる無効なコンテンツが見つかりました。「{...}」、「{...}」、... のいずれかが必要です。 | 参照される XML 要素が正しい場所にありません。順序が正しいこと、要素に正しい親(name の info )。 |
XML 解析エラーです。属性「...」を要素「...」に含めることはできません。 | この XML タグ属性のスペル、大文字と小文字、または場所が正しくありません。適切な使用方法については、ドキュメントをご覧ください。 |
XML 解析エラーです。... 要素「...」に文字 [children] を含めることはできません。タイプのコンテンツ タイプが要素のみであるためです。 | XML ファイルに不要なテキストがあります(タグに < または > がないことが原因である可能性があります)。テキストを修正してもう一度お試しください。 |
上記以外のメッセージで問題がある場合は、DSPL フォーラムにメッセージを投稿してください。Google がサポートいたします。
データセットは正常にインポートされましたが、Public Data Explorer にビジュアリゼーションを表示できません。どうしましたか?
この問題は、データセットが有効な DSPL であるにもかかわらず、Public Data Explorer で可視化できる DSPL のサブセットにない場合に発生します。これにはさまざまな原因が考えられますが、最も一般的なものは次のとおりです。
- テーブルを使用せずにディメンションのコンセプトを定義する場合: この情報がないと、公共データ エクスプローラでは UI に表示する選択肢がわかりません。
- 指標のみを含むデータセットの作成: Public Data Explorer では、可視化 UI を適切に構造化するために、データセット内に少なくとも 1 つのカテゴリ(つまり、時間以外の)ディメンションが定義されている必要があります。
- スライスに時間ディメンションが含まれていない: Public Data Explorer で可視化できるのは時系列のみです。時間以外のスライスは、プロダクトで無視されます。
- 正規の
time:...
以外の時間ディメンションを使用する: Public Data Explorer は、プロダクト内のさまざまな可視化のレイアウトとアニメーション化に正規のtime
コンセプトを使用します。他の時間コンセプト(独自のデータセット内で作成されたものなど)は理解しません。 - 大きすぎる時間または小さすぎる時間値の使用: Public Data Explorer では、1 日未満の時間粒度のデータセットはまだ可視化されません。一方、このツールには、年の値が非常に大きい(数万など)という問題があります。Google では、将来的にこれらの粒度の柔軟性を高めたいと考えています。
可視化したデータセットをウェブサイトに統合するにはどうすればよいですか?
Public Data Explorer ヘルプセンターのこちらの記事をご覧ください。後者で説明しているように、埋め込み URL を手動で調整することで、「フル埋め込み」(データ探索コントロールを含むもの)を取得できます。