ステップ 1: データを収集する

教師あり機械学習の問題を解決する際に、データの収集は最も重要です。テキスト分類器の品質は、作成元であるデータセットと同等にとどまります。

解決したい特定の問題がなく、テキスト分類全般に興味がある場合は、多くのオープンソース データセットを利用できます。そうしたリソースへのリンクは GitHub リポジトリにあります。一方、特定の問題に対処する場合は、必要なデータを収集する必要があります。多くの組織では、データにアクセスするための公開 API(Twitter APINY Times API など)を提供しています。解決しようとしている問題については、これらを活用できることがあります。

データを収集する際は、次の点にご注意ください。

  • 公開 API を使用している場合は、使用する前に API の制限事項を理解してください。たとえば、一部の API では、クエリの実行速度に制限を設定しています。
  • トレーニング例(このガイドでは以降のサンプル)が多いほど効果的です。これにより、モデルの一般化が改善されます。
  • すべてのクラスまたはトピックのサンプル数が過度に不均衡になっていないことを確認します。つまり、各クラスには同等のサンプル数が必要です。
  • サンプルは、一般的なケースだけでなく、入力が可能なスペースを十分にカバーしていることを確認してください。

このガイドでは、Internet Movie Database(IMDb)映画レビュー データセットを使用してワークフローについて説明します。このデータセットには、IMDb のウェブサイトで投稿された映画のレビューと、レビュー担当者が映画を高く評価したかどうかを示すラベル(「ポジティブ」または「ネガティブ」)が含まれます。これは、感情分析に関する問題の典型的な例です。