Изучите варианты ниже.
В разных городах Калифорнии заметно различаются цены на жилье . Предположим, вам необходимо создать модель для прогнозирования цен на жилье. Какой из следующих наборов функций или пересечений функций мог бы изучить специфичные для города взаимосвязи между
roomsPerPerson и ценой на жилье? Три отдельных группированных объекта: [группированная широта], [группированная долгота], [группированные комнаты на человека]
Биннинг хорош тем, что позволяет модели изучать нелинейные связи внутри одного объекта. Однако город существует более чем в одном измерении, поэтому изучение взаимоотношений, специфичных для города, требует пересечения широты и долготы.
Пересечение одного объекта: [широта X долгота X комнаты на человека]
В этом примере пересечение вещественных признаков не является хорошей идеей. Пересечение реального значения, скажем, широты с номерамиPerPerson позволяет сделать 10%-ное изменение одного признака (скажем, широты) эквивалентным 10%-ному изменению другого признака (скажем,roomPerPerson).
Пересечение одного объекта: [группировка широты X группировка долготы X группировка комнат на человека]
Пересечение бинированной широты с бинированной долготой позволяет модели изучить эффекты roomPerPerson, специфичные для города. Биннинг предотвращает изменение широты, приводящее к тому же результату, что и изменение долготы. В зависимости от степени детализации интервалов этот перекрестный признак может изучать эффекты, специфичные для города, района или даже для конкретного квартала.
Два перекрестия объектов: [группировка широты X группировка комнат на человека] и [группировка долготы X группировка комнат на человека]
Биннинг — хорошая идея; однако город представляет собой сочетание широты и долготы, поэтому отдельные пересечения объектов не позволяют модели изучать цены для конкретного города.