DSPL のチェック

DSPL Check は、DSPL データセットを検証するユーティリティです。 さまざまな基準に照らして、正式な DSPL スキーマの遵守、 CSV ファイル構造の一貫性を確保できます。このユーティリティでは DSPL インポート エラーの原因となる多くの問題を捕捉し、 入力プロセスを開始する前に、これらの問題をすばやく修正します。

ユーティリティでは、DSPL データセットの あらゆる問題に対応できます。ただし、最も一般的な ツールによってデータセットが正常に検証されると、 一般公開データでインポートおよび可視化できる可能性が高い 。詳細の確認セクションをご覧ください。 ご覧ください。

DSPL チェックの実行

基本

注: 以下の手順は、 すでにインストールに従った 手順をご覧ください。

DSPL チェックを実行するには、システムのターミナル / プロンプトに移動し、 type:

python dsplcheck.py [path to dataset XML or zip file]

かっこで囲まれた用語は、アプリケーションの相対パスで データセット XML ファイルまたは圧縮された DSPL バンドルを返します。

データセットが有効な場合は、「Validation」という 成功」表示されます。それ以外の場合は、1 つ以上のエラー メッセージが出力されます。 検証が失敗した理由を示します。発生した場合は、 ツールを再実行してください。

確認中

デフォルトでは、DSPL チェックは CSV を含むデータセット全体を検査します。 メインの DSPL XML ファイルから参照されます。このプロセスは、小規模な メモリ不足になる可能性はありますが、 非常に大規模(たとえば、数百メガバイトまたは 大きくなります。

このようなケースに対処するために、このツールにはチェックレベルが用意されています。 オプションを使用して、チェックの範囲を設定し、 パフォーマンスを調整できます使用するには、--checking_level=[...] を挿入します (データセット パスの前)に、かっこで囲まれた用語が 次の値を使用します。

  • schema_only: データセット XML ファイルを 確認してから停止します
  • schema_and_model: スキーマと基本的なモデルの検証を行いますが、 ヘッダー行の後の CSV コンテンツは無視します。
  • full: スキーマ、モデル、データの検証を行います(デフォルト)。

詳細を確認しています

DSPL チェックでは、次の一連の検証を行います。

  • XML スキーマ検証: データセットが メタデータ ファイルは有効な XML であり、 公式の DSPL スキーマを使用します。
  • CSV の存在: すべての CSV ファイルが、 データセットから参照されているものが存在し、読み込めます。
  • コンセプト チェック: 試験ガイドの各コンセプトについて 以下を含むデータセット: <ph type="x-smartling-placeholder">
      </ph>
    • データセットに少なくとも 1 つのコンセプトがある*
    • すべてのトピック参照が有効です
    • コンセプトが時間以外のものとして使用される場合は、テーブル参照が存在する ディメンション*
    • テーブル参照が存在する場合は有効です
    • 参照先のテーブルに、コンセプト ID に対応する列がある
  • スライスのチェック: テスト内の各スライスの 以下を含むデータセット: <ph type="x-smartling-placeholder">
      </ph>
    • データセットに少なくとも 1 つのスライスが含まれている*
    • 少なくとも 1 つのスライスが時間以外のディメンションを参照しています*
    • スライスには少なくとも 1 つの指標と 1 つのディメンションがあります
    • 1 つのディメンションの参照のみ time 正規コンセプト*
    • 各スライスのディメンションの組み合わせは一意
    • ローカルのコンセプトへの参照はすべて有効です
    • テーブル参照があります
    • テーブル参照が有効です
    • 参照されるテーブルには、ディメンションと指標ごとに列がある スライス内
    • 参照先テーブルの列の型は、データ型が スライスで使用されるコンセプト
  • テーブルのチェック: 構成内の各テーブルのさまざまなチェック 以下を含むデータセット: <ph type="x-smartling-placeholder">
      </ph>
    • データセットには少なくとも 1 つのテーブルがある*
    • CSV ファイルの列数はテーブルと同じです
    • CSV ヘッダー文字列は列 ID と一致します
    • すべての日付列に format 属性があります
    • 日付の形式は、関連する時刻の概念と(おおむね)一致しています。 たとえば、time:year 列の形式には少なくとも 1 個の y 文字*
  • CSV データのチェック: CSV データファイルのさまざまなチェック 以下が含まれます。 <ph type="x-smartling-placeholder">
      </ph>
    • CSV の各行の列数はヘッダーと同じ数です
    • コンセプト定義の CSV に含まれる各行が 1 行のみ コンセプト ID
    • Slice CSV に含まれるのは、次の組み合わせごとに 1 行以内です 寸法
    • スライス CSV で参照されているディメンション値は有効です
    • Slice CSV が適切に並べ替えられています
    • CSV の整数値と浮動小数点値の形式が正しい形式です

* が付いている条件は、 使用できますが、Google Cloud では技術的に 変換されます。

一方、このツールでは、次の項目はまだ確認されません。

  • データセットのインポート
  • 属性とプロパティの参照
  • コンセプト拡張