DSPL 檢查

DSPL 檢查是一項公用程式,可用來驗證 DSPL 資料集 包括遵守官方 DSPL 架構等等 內部參考資料的一致性和 CSV 檔案結構。公用程式 找出許多會導致 DSPL 匯入錯誤的問題,協助您偵測 並迅速修正這些問題,再開始輸入程序。

請注意,公用程式尚未 (尚) 檢查您的 DSPL 資料集: 然而,此函式會擷取 因此,如果資料集成功驗證資料集 很有可能會匯入「公開資料」中,並能以圖表呈現 。請參閱「檢查詳細資料」一節 請參閱下文。

執行 DSPL 檢查

基本資訊

注意:以下指示假設您 已在安裝 操作說明

如要執行 DSPL 檢查,請前往系統上的終端機 / 提示,並 類型:

python dsplcheck.py [path to dataset XML or zip file]

其中,括號中的字詞會替換為前往 資料集 XML 檔案或壓縮的 DSPL 組合。

如果資料集有效,工具會顯示「驗證作業」 成功」撰寫新的電子郵件訊息否則,它會輸出一或多則錯誤訊息 說明驗證失敗的原因。如果發生後者,請修正 然後按照指示執行,然後再次執行這項工具。

檢查等級

根據預設,DSPL 檢查會檢查整個資料集,包括 CSV 從主 DPL XML 檔案參照而來。如果使用 但記憶體容量不足或記憶體不足 例如數百 MB 或超大型資料集 。

為因應這些情況,這項工具會進行檢查層級 選項可讓你設定檢查和改善範圍 視需要調整儲存空間設定如要使用,請插入「--checking_level=[...]」 ,其中括號中的字詞會替換為 下列值:

  • schema_only:依據 官方 DSPL 結構定義中的「跟著我跳躍」
  • schema_and_model:進行結構定義和基本模型驗證,但 忽略標題行後方的 CSV 內容。
  • full:執行結構定義、模型和資料驗證 (預設值)。

檢查詳細資料

DSPL 檢查會執行下列序列驗證:

  • XML 結構定義驗證:驗證資料集 中繼資料檔案是有效的 XML,並且符合 官方 DSPL 結構定義
  • CSV 檔案存在:檢查所有 CSV 檔案 且可載入。
  • 概念檢查:檢查模型中每個概念的各個概念 資料集,其中包括:
    • 資料集至少包含一個概念*
    • 所有主題參考資料均有效
    • 如果概念做為非時間使用,則存在表格參考資料 維度*
    • 資料表參照 (如有) 有效
    • 參照資料表有與概念 ID 相對應的欄
  • 配量檢查:對每個配量執行多項檢查 資料集,其中包括:
    • 資料集至少有一個配量*
    • 至少有一個片段參照了非時間維度*
    • Slice 至少有一個指標和一個維度
    • 只有一個維度參照 time 標準概念*
    • 每個片段都有獨特的維度組合
    • 所有提及當地概念皆有效
    • 資料表參照已存在
    • 資料表參照有效
    • 在參照的表格中,每個維度和指標都會自成一個欄 切片
    • 參照資料表中的資料欄類型,與 先前在配量中
  • 表格檢查:對報表中的每個資料表進行以下檢查: 資料集,其中包括:
    • 資料集至少有一個資料表*
    • CSV 檔案的欄數與資料表相同
    • CSV 標題字串與欄 ID 相符
    • 所有日期欄都具有 format 屬性
    • 日期格式可 (大致) 與關聯的時間概念保持一致 舉例來說,time:year 欄的格式至少包含 一個 y 個字元*
  • CSV 資料檢查:CSV 資料檔案的多項檢查 由資料集 XML 檔案參照,包括:
    • 每個 CSV 資料列的欄數與標題相同
    • 概念定義 CSV 檔中的每個資料列不超過一個資料列 概念 ID
    • Slice CSV 檔案每個組合的資料列都不超過一個資料列 尺寸
    • 配量 CSV 中參照的維度值有效
    • Slice CSV 已正確排序
    • 整數和浮點數的 CSV 值格式正確

以 * 標示的條件是指 顯示在「公開資料瀏覽器」的圖表中,但就技術上來說 格式為 DSPL

另一方面,此工具目前不會 (尚未) 檢查下列項目:

  • 資料集匯入項目
  • 屬性與資源參照
  • 概念擴充功能