データセット、一般化、過剰適合

はじめに

このモジュールは先頭の質問から始まります。 次のいずれかを選択します。

次の分野のいずれかの改善を優先する必要がある場合 最もレイテンシの高い部分が多いため、 効果は?
データセットの品質を改善する
データがすべてを凌駕します。 データセットの品質とサイズは何よりも モデルの構築に使用できます
より巧妙な損失関数を適用してモデルをトレーニングする
正しい損失関数にするとモデルのトレーニングが速くなりますが リストの別のアイテムとはかけ離れています。

そして、さらに重要な質問です。

機械学習プロジェクトで、データの準備と変換に通常どれくらいの時間を費やしていますか?
プロジェクト時間の半分以上
はい。ML 担当者は、データセットの構築と特徴量エンジニアリングに大部分の時間を費やします。
プロジェクト時間の半分未満
今後の計画を立てましょう。通常、機械学習プロジェクトの時間の 80% は、データセットの構築とデータの変換に費やされます。

このモジュールでは、機械学習データセットの特性と、モデルのトレーニングと評価で高品質な結果を得るためにデータを準備する方法について学習します。