适合决策森林的数据
使用集合让一切井井有条
根据您的偏好保存内容并对其进行分类。
当您拥有表格数据集(您可能在电子表格、CSV 文件或数据库表中表示的数据)时,决策树最为有效。表格数据是最常见的数据格式之一,决策树应是用于对其进行建模的“首选”解决方案。
表 1. 表格数据集示例。
航段数 |
眼睛数量 |
重量(磅) |
物种(标签) |
2 | 2 | 12 | 企鹅 |
8 | 6 | 0.1 | 蜘蛛 |
4 | 2 | 44 | 狗 |
… | … | … | … |
与神经网络不同,决策树会原生使用模型表格数据。在开发决策森林时,您无需执行以下任务:
- 执行特征归一化或独热编码等预处理。
- 执行插值(例如,将缺失值替换为
-1
)。
不过,决策树不适合直接使用非表格数据(也称为非结构化数据),例如图片或文本。是的,确实存在针对此限制的权宜解决方法,但神经网络通常能更好地处理非结构化数据。
决策森林对样本的利用率很高。也就是说,决策树非常适合在小数据集上进行训练,或者在特征数 / 示例数比率较高(可能大于 1)的数据集上进行训练。虽然决策树对样本的利用效率很高,但与所有机器学习模型一样,决策树在有大量数据可用时效果最好。
决策树通常比类似的神经网络推理速度更快。例如,中等规模的决策森林可以在新型 CPU 上几微秒内完成推理。
如未另行说明,那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可,并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情,请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。
最后更新时间 (UTC):2025-07-27。
[[["易于理解","easyToUnderstand","thumb-up"],["解决了我的问题","solvedMyProblem","thumb-up"],["其他","otherUp","thumb-up"]],[["没有我需要的信息","missingTheInformationINeed","thumb-down"],["太复杂/步骤太多","tooComplicatedTooManySteps","thumb-down"],["内容需要更新","outOfDate","thumb-down"],["翻译问题","translationIssue","thumb-down"],["示例/代码问题","samplesCodeIssue","thumb-down"],["其他","otherDown","thumb-down"]],["最后更新时间 (UTC):2025-07-27。"],[],[]]