DSPL Check は、DSPL データセットを検証するユーティリティです。 さまざまな基準に照らして、正式な DSPL スキーマの遵守、 CSV ファイル構造の一貫性を確保できます。このユーティリティでは DSPL インポート エラーの原因となる多くの問題を捕捉し、 入力プロセスを開始する前に、これらの問題をすばやく修正します。
ユーティリティでは、DSPL データセットの あらゆる問題に対応できます。ただし、最も一般的な ツールによってデータセットが正常に検証されると、 一般公開データでインポートおよび可視化できる可能性が高い 。詳細の確認セクションをご覧ください。 ご覧ください。
DSPL チェックの実行
基本
注: 以下の手順は、 すでにインストールに従った 手順をご覧ください。
DSPL チェックを実行するには、システムのターミナル / プロンプトに移動し、 type:
python dsplcheck.py [path to dataset XML or zip file]
かっこで囲まれた用語は、アプリケーションの相対パスで データセット XML ファイルまたは圧縮された DSPL バンドルを返します。
データセットが有効な場合は、「Validation」という 成功」表示されます。それ以外の場合は、1 つ以上のエラー メッセージが出力されます。 検証が失敗した理由を示します。発生した場合は、 ツールを再実行してください。
確認中
デフォルトでは、DSPL チェックは CSV を含むデータセット全体を検査します。 メインの DSPL XML ファイルから参照されます。このプロセスは、小規模な メモリ不足になる可能性はありますが、 非常に大規模(たとえば、数百メガバイトまたは 大きくなります。
このようなケースに対処するために、このツールにはチェックレベルが用意されています。
オプションを使用して、チェックの範囲を設定し、
パフォーマンスを調整できます使用するには、--checking_level=[...]
を挿入します
(データセット パスの前)に、かっこで囲まれた用語が
次の値を使用します。
schema_only
: データセット XML ファイルを 確認してから停止しますschema_and_model
: スキーマと基本的なモデルの検証を行いますが、 ヘッダー行の後の CSV コンテンツは無視します。full
: スキーマ、モデル、データの検証を行います(デフォルト)。
詳細を確認しています
DSPL チェックでは、次の一連の検証を行います。
- XML スキーマ検証: データセットが メタデータ ファイルは有効な XML であり、 公式の DSPL スキーマを使用します。
- CSV の存在: すべての CSV ファイルが、 データセットから参照されているものが存在し、読み込めます。
-
コンセプト チェック: 試験ガイドの各コンセプトについて
以下を含むデータセット:
<ph type="x-smartling-placeholder">
- </ph>
- データセットに少なくとも 1 つのコンセプトがある*
- すべてのトピック参照が有効です
- コンセプトが時間以外のものとして使用される場合は、テーブル参照が存在する ディメンション*
- テーブル参照が存在する場合は有効です
- 参照先のテーブルに、コンセプト ID に対応する列がある
-
スライスのチェック: テスト内の各スライスの
以下を含むデータセット:
<ph type="x-smartling-placeholder">
- </ph>
- データセットに少なくとも 1 つのスライスが含まれている*
- 少なくとも 1 つのスライスが時間以外のディメンションを参照しています*
- スライスには少なくとも 1 つの指標と 1 つのディメンションがあります
- 1 つのディメンションの参照のみ
time
正規コンセプト* - 各スライスのディメンションの組み合わせは一意
- ローカルのコンセプトへの参照はすべて有効です
- テーブル参照があります
- テーブル参照が有効です
- 参照されるテーブルには、ディメンションと指標ごとに列がある スライス内
- 参照先テーブルの列の型は、データ型が スライスで使用されるコンセプト
-
テーブルのチェック: 構成内の各テーブルのさまざまなチェック
以下を含むデータセット:
<ph type="x-smartling-placeholder">
- </ph>
- データセットには少なくとも 1 つのテーブルがある*
- CSV ファイルの列数はテーブルと同じです
- CSV ヘッダー文字列は列 ID と一致します
- すべての日付列に
format
属性があります - 日付の形式は、関連する時刻の概念と(おおむね)一致しています。
たとえば、
time:year
列の形式には少なくとも 1 個のy
文字*
-
CSV データのチェック: CSV データファイルのさまざまなチェック
以下が含まれます。
<ph type="x-smartling-placeholder">
- </ph>
- CSV の各行の列数はヘッダーと同じ数です
- コンセプト定義の CSV に含まれる各行が 1 行のみ コンセプト ID
- Slice CSV に含まれるのは、次の組み合わせごとに 1 行以内です 寸法
- スライス CSV で参照されているディメンション値は有効です
- Slice CSV が適切に並べ替えられています
- CSV の整数値と浮動小数点値の形式が正しい形式です
* が付いている条件は、 使用できますが、Google Cloud では技術的に 変換されます。
一方、このツールでは、次の項目はまだ確認されません。
- データセットのインポート
- 属性とプロパティの参照
- コンセプト拡張