Перегляньте варіанти нижче.
У різних містах Каліфорнії ціни на житло помітно відрізняються.
Припустімо, вам потрібно створити модель для прогнозування цін на житло. Які ознаки або їх поєднання, наведені нижче, можуть стати джерелом інформації про характерні для міста взаємозв’язки між показником
roomsPerPerson і цінами на житло?
Три окремі сегментовані ознаки: [binned latitude], [binned longitude], [binned roomsPerPerson]
Групування корисне тим, що дає змогу моделі вивчати нелінійні взаємозв’язки в межах однієї ознаки. Однак місто – це не одновимірний простір, тому, щоб навчити модель взаємозв’язків, характерних для нього, потрібно поєднати широту (latitude) і довготу (longitude).
Одне поєднання ознак: [latitude X longitude X roomsPerPerson]
Для цього прикладу поєднувати ознаки, що мають реальну цінність, – не найкраща ідея.
Якщо поєднати справжнє значення, наприклад, широти (latitude) з кількістю кімнат на людину (roomsPerPerson), 10-відсоткова зміна однієї ознаки (скажімо, широти) дорівнюватиме 10-відсотковій зміні іншої ознаки (наприклад, кількості кімнат на людину).
Одне поєднання ознак: [binned latitude X binned longitude X binned roomsPerPerson]
Поєднання сегментованих ознак широти (binned latitude) і довготи (binned longitude) дає змогу моделі враховувати, який вплив має зміна кількості кімнат на людину (roomsPerPerson) у конкретному місті.
Групування запобігає тому, щоб зміна широти давала такий самий результат, як і зміна довготи. Залежно від деталізації сегментів це поєднання функцій може стати джерелом інформації про вплив, характерний для міста, району або навіть кварталу.
Два поєднання ознак: [binned latitude X binned roomsPerPerson] і [binned longitude X binned roomsPerPerson]
Групування – гарна ідея, але місто – це комбінації широти (latitude) і довготи (longitude), тому окремі поєднання ознак заважають моделі вивчати ціни, характерні для конкретного міста.