第 1 步:收集数据
使用集合让一切井井有条
根据您的偏好保存内容并对其进行分类。
收集数据是解决任何监督式机器学习问题的最重要一步。文本分类器的质量取决于构建它时使用的数据集。
如果您没有要解决的特定问题,而只是有兴趣了解一般文本分类,则可以使用大量的开源数据集。您可以在我们的 GitHub 代码库中找到一些代码库的链接。另一方面,如果您正在解决特定问题,则需要收集必要的数据。许多组织都提供用于访问其数据的公共 API,例如 X API 或 NY Times API。您或许可以利用这些 API 来解决问题。
在收集数据时,请注意以下重要事项:
- 如果您使用的是公共 API,请先了解 API 的限制,然后再加以使用。例如,某些 API 对查询的速率设置了限制。
- 您拥有的训练示例(在本指南其余部分称为示例)越多越好。这有助于模型更好地泛化。
- 确保每个类或主题的样本数量不会过于不均衡。也就是说,每个类别中的样本数量应该相当。
- 确保您的样本充分覆盖可能输入的空间,而不仅仅是常见情况。
在本指南中,我们将使用互联网电影数据库 (IMDb) 影评数据集来说明该工作流程。此数据集包含用户在 IMDb 网站上发布的影评,以及表明评价者是否喜欢该影片的相应标签(“正面”或“负面”)。这就是情感分析问题的典型示例。
如未另行说明,那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可,并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情,请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。
最后更新时间 (UTC):2024-06-25。
[[["易于理解","easyToUnderstand","thumb-up"],["解决了我的问题","solvedMyProblem","thumb-up"],["其他","otherUp","thumb-up"]],[["没有我需要的信息","missingTheInformationINeed","thumb-down"],["太复杂/步骤太多","tooComplicatedTooManySteps","thumb-down"],["内容需要更新","outOfDate","thumb-down"],["翻译问题","translationIssue","thumb-down"],["示例/代码问题","samplesCodeIssue","thumb-down"],["其他","otherDown","thumb-down"]],["最后更新时间 (UTC):2024-06-25。"],[],[]]