浏览以下选项。
加利福尼亚州不同城市的效果
房价。
假设您必须创建一个模型来预测房价。其中哪一个
学习到的特征集或特征组合
roomsPerPerson 与具体城市之间的关系
房价?
三个独立的分箱特征:[binned latitude]、
[binned longitude]、[binned roomsPerPerson]
分箱很好,因为它可以让模型学习非线性
单个特征之间的关系。但如果某个城市
因此,要学习与城市相关的具体关系,
要求结合使用纬度和经度。
一个特征组合: [纬度 X 经度 X
roomsPerPerson]
在本例中,建议不要组合实值特征。
例如,将纬度的实值与
RoomPerPerson 在一项功能(比如纬度)上实现 10% 的变化。
相当于另一个特征的 10% 变化(例如,
roomPerPerson)。
一个特征组合:[分箱纬度 X 分箱经度 X 分箱
roomsPerPerson]
将分箱纬度与分箱经度交叉可以实现
该模型学习 RoomPerPerson 对城市特有的影响。
分箱可防止纬度发生变化产生相同的结果
以经度的变化表示具体取决于
这个特征组合可以学习特定于城市或
特定街区甚至区域特有的影响。
两个特征组合:[binned latitude X binned roomsPerPerson]
和[binned longitude X binned roomsPerPerson]
分箱是一个好主意而“城市”则是
因此单独的特征组合可防止
来学习特定城市的价格。