ML パイプラインの概要

これで完了です。モデルは、本番環境 ML パイプラインにデプロイする準備ができています。このセクションでは、ML パイプラインのテスト ガイドラインを紹介します。ただし、サンドボックス環境ではこのようなデモは行えないため、このセクションではこれらのガイドラインを示しません

学習内容:

  • リリースと本番環境に適したテストを作成する。
  • テストを使用して ML パイプラインの障害モードを検出する。
  • 本番環境でのモデル品質の評価

ML パイプラインとは

図に示すように、ML パイプラインは複数のコンポーネントで構成されています。これらのコンポーネントについては、後ほど説明します。ここでは、「モデル」(ブラック ボックス)は本番環境 ML に必要なパイプライン インフラストラクチャのほんの一部です。

一般的な機械学習パイプラインの概略図。この図は、複数のコンポーネント(パイプラインのコンポーネントごとに 1 つ)を示しています。「model」というラベルの付いたボックスは、回路図の中心にあります。他のボックスは「model」ボックスの周囲に配置されています。これらのボックスには、データ収集、データ検証、マシンリソース管理、サービス提供インフラストラクチャ、特徴抽出、分析ツール、プロセス管理ツール、構成、モニタリングというラベルが付いています。
図 1: 一般的な機械学習パイプラインの概略図。

ML パイプラインでのテストの役割

ソフトウェア開発では、テスト ドリブンな開発(TDD)に従うのが理想的なワークフローです。しかし、ML ではテストから始めるのは簡単なことではありません。テストは、データ、モデル、問題によって異なります。たとえば、モデルをトレーニングする前に、損失を検証するテストを作成することはできません。代わりに、モデルの開発中に達成可能な損失を見つけ、達成可能な損失に対して新しいモデル バージョンをテストします。

以下のテストが必要です。

  • 入力データを検証する。
  • 特徴量エンジニアリングの検証。
  • 新しいモデル バージョンの品質を検証する。
  • サービス提供インフラストラクチャを検証する。
  • パイプライン コンポーネント間の統合をテストしています。