Google uses AI technology to translate content into your preferred language. AI translations can contain errors.
数値データ: スクラブ
コレクションでコンテンツを整理
必要に応じて、コンテンツの保存と分類を行います。
リンゴの木には、素晴らしい果実と害虫が混在しています。
しかし、高級食料品店のリンゴは 100% 完璧なフルーツです。
果樹園と食料品店の間では、誰かが果物を運ぶのに多大な時間を費やしている
傷んだリンゴに ワックスを吹き付け
ML エンジニアは膨大な時間を費やして
不適切な例を捨てて 残存可能な例を一掃します
たとえ悪いリンゴのいくつかでも、大規模なデータセットが損なわれる可能性があります。
データセットのサンプルの多くは信頼性が低いものですが、
次のような問題があります。
| 問題のカテゴリ | 例 |
| 省略された値 |
国勢調査担当者が住民の年齢を記録していません。 |
| 重複した例 |
サーバーが同じログを 2 回アップロードします。 |
| 範囲外の特徴値。 |
人間が誤って余分な数字を入力する。 |
| 不適切なラベル |
人間の評価者が、オークの木の写真を
カエデ。 |
次のような問題を検出するプログラムやスクリプトを作成できます。
たとえば、次のデータセットには 6 つの繰り返し値が含まれています。
図 15. 最初の 6 つの値は繰り返されます。
別の例として、特定の特徴の温度範囲が
10 度以上 30 度以下である必要があります。しかし 事故は
体温計が一時的に日光にさらされているため、異常値が発生しています。
プログラムまたはスクリプトは、10 未満の温度値を識別する必要があります
です。
図 16. 範囲外の値。
複数のユーザーがラベルを生成する場合は、統計的に
各評価者が同等のラベルセットを生成したかどうかを判別します。
評価担当者の 1 人が他の評価者よりも厳しい採点基準であったり、
どうなるでしょうか
検出されると、通常は不適切な特徴を含む例
不適切なラベルをデータセットから削除するか、値を代入します。
詳しくは、
データの特性
セクション(
データセット、一般化、過学習
説明します。
特に記載のない限り、このページのコンテンツはクリエイティブ・コモンズの表示 4.0 ライセンスにより使用許諾されます。コードサンプルは Apache 2.0 ライセンスにより使用許諾されます。詳しくは、Google Developers サイトのポリシーをご覧ください。Java は Oracle および関連会社の登録商標です。
最終更新日 2024-08-13 UTC。
[[["わかりやすい","easyToUnderstand","thumb-up"],["問題の解決に役立った","solvedMyProblem","thumb-up"],["その他","otherUp","thumb-up"]],[["必要な情報がない","missingTheInformationINeed","thumb-down"],["複雑すぎる / 手順が多すぎる","tooComplicatedTooManySteps","thumb-down"],["最新ではない","outOfDate","thumb-down"],["翻訳に関する問題","translationIssue","thumb-down"],["サンプル / コードに問題がある","samplesCodeIssue","thumb-down"],["その他","otherDown","thumb-down"]],["最終更新日 2024-08-13 UTC。"],[],[]]