サンプリングと分割: 理解度チェック

次の質問については、目的の矢印をクリックして答えを確認してください。

正負の比率が 1:1000 のデータセットがあるとします。残念ながら、モデルは常に過半数クラスを予測しています。この問題に取り組むうえで、どの手法が最良でしょうか。モデルでは、調整された確率を報告する必要があります。
ネガティブ サンプルをダウンサンプリングするだけです。
最初は良い方法ですが、モデルの基本レートを変更するため、調整が行われなくなります。
ネガティブ サンプル(過半数クラス)をダウンサンプリングします。ダウンサンプリングしたクラスを同じ係数で重み付けします。
これは、不均衡なデータを処理しながら、ラベルの実際の分布を効果的に進める方法です。モデルが調整済み確率を報告するかどうかが重要な点に注意してください。調整が不要な場合は、基本レートの変更を心配する必要はありません。
データセットからデータを欠落させる手法はどれですか。該当する項目をすべて選択してください。
PII フィルタリング
データから PII をフィルタすると、テールから情報が削除され、分布が歪む可能性があります。
回答の重要度の評価
重み付けの例によって、さまざまな例の重要度が変わりますが、情報が失われることはありません。実際のところ、テールの例にウェイトを追加すると、モデルがテールに関する行動を学習しやすくなります。
ダウンサンプリング
特徴分布のテールでは、ダウンサンプリングにおいて情報が失われます。ただし、通常は大半のクラスをダウンサンプリングするため、この損失は通常大きな問題ではありません。
Normalization
正規化は個別の例に対して行われるため、サンプリング バイアスは発生しません。
分類の問題に取り組んでおり、データをトレーニング セット、評価セット、テストセットにランダムに分割します。分類器は正常に動作しているようです。ただし、本番環境では、分類器は完全な失敗となります。後になって、問題の原因がランダムに分割されていることが分かります。この問題の影響を受けやすいのは、どのような種類のデータですか。
時系列データ
ランダム分割は、各クラスタをテスト/トレーニング分割に分割し、本番環境では利用できないモデルに「プレビュー」を提供します。
時間が経過してもあまり変化しないデータ
時間の経過とともにデータがあまり変化しない場合は、ランダム分割により可能性が高くなります。たとえば、写真の犬の種類を特定し、生体認証システムの過去のデータに基づいて心臓病のリスクがある患者を予測することができます。どちらの場合も、データは時間の経過とともに変化しないため、ランダム分割によって問題が起きることはありません。
データのグループ化
類似したデータのクラスタが両方のセットに含まれているため、テストセットは常にトレーニング セットに非常に類似しています。このモデルは、予測能力よりも優れた予測力を持っているように見えます。
バースト性のあるデータ(連続するストリームではなく断続的にバーストするデータ)
類似したデータのクラスタ(バースト)が、トレーニングとテストの両方に表示されます。テストの際には、新しいデータを使用した場合よりもモデルの予測精度が上がります。