我们将于 2021 年 7 月 30 日从此网站上移除《机器学习速成课程》。英语版本依然会提供。

特征组合 (Feature Crosses):检查您的理解情况

查看以下选项。

加利福尼亚州不同城市的房价有很大差异。假设您必须创建一个模型来预测房价。以下哪组特征或特征组合可以反映出特定城市中 roomsPerPerson 与房价之间的关系?
三个独立的分箱特征:[binned latitude]、[binned longitude]、[binned roomsPerPerson]
建议您采用分箱方式,因为这样可以让模型了解单个特征内的非线性关系。不过,一个城市存在于多个维度上;因此,要了解特定于城市的关系,需要对纬度与经度进行组合。
一个特征组合:[latitude X longitude X roomsPerPerson]
在本例中,不建议您组合实值特征。例如,将纬度的实值与 roomsPerPerson 组合后,一个特征(比如纬度)上发生 10% 的变化就相当于另一个特征(比如 roomsPerPerson)上发生 10% 的变化。
一个特征组合:[binned latitude X binned longitude X binned roomsPerPerson]
将分箱纬度与分箱经度组合可以让模型了解 roomsPerPerson 特定于城市的效果。分箱可防止纬度变化与经度变化产生相同的效果。根据箱的精细程度,此特征组合可以反映出特定于城市、特定于社区,甚至特定于街区的效果。
两个特征组合:[binned latitude X binned roomsPerPerson] [binned longitude X binned roomsPerPerson]
建议您采用分箱方式;不过,城市是纬度和经度的结合体,因此单独的特征组合会导致模型无法了解特定于城市的价格。