Тримайте все під контролем за допомогою колекцій
Зберігайте контент і організовуйте його за категоріями відповідно до своїх потреб.
Уявіть, що ви розробляєте додаток, який рекомендує страви. Користувачі вводять свої улюблені страви, а додаток пропонує щось схоже, що може їм сподобатися. Ви хочете розробити модель машинного навчання, яка може прогнозувати схожість страв, щоб ваш додаток надавав високоякісні рекомендації (наприклад: "Оскільки ви любите млинці, вам варто спробувати оладки").
Щоб навчити свою модель, ви готуєте набір даних із 5000 популярних страв, серед яких – борщ, хот-дог, салат, піца й шаурма.
Рисунок 1. Вибірка страв, включених до набору даних.
Ви створюєте ознаку meal, яка містить представлення кожної страви з набору даних як пряме кодування.
Кодування означає процес вибору початкового числового представлення даних для навчання моделі.
Рисунок 2. Прямі кодування борщу, хот-дога й шаурми.
Кожен вектор прямого кодування має довжину 5000 (один запис для кожної страви з набору даних). Три крапки на діаграмі – це 4995 записів, які не показано.
Типові помилки в представленнях розріджених даних
Переглядаючи ці вектори прямого кодування, можна помітити, що представлення даних має кілька недоліків.
Кількість ваг. Якщо вектори вхідних даних великі, у нейронній мережі буде дуже багато ваг.
Якщо кількість записів у прямому кодуванні дорівнює M, а кількість вузлів першого шару мережі після введення даних – N, навчання моделі має охоплювати M x N ваг для цього шару.
Кількість точок даних. Що більше ваг у моделі, то більше даних потрібно для ефективного навчання.
Обсяг обчислень. Що більше ваг, то більше обчислень потрібно, щоб навчати й використовувати модель. Можна легко перевищити можливості апаратного забезпечення.
Обсяг пам’яті. Що більше ваг у моделі, то більше пам’яті потрібно прискорювачам, які її навчають і обслуговують. Ефективно масштабувати її дуже складно.
Складність підтримки машинного навчання на пристрої (ODML).
Якщо ви маєте намір запустити свою модель машинного навчання на локальних пристроях (а не через платформу), вам потрібно буде зробити її меншою і, відповідно, зменшити кількість ваг.
Із цього модуля ви дізнаєтеся, як створювати векторні представлення – низьковимірні представлення розріджених даних, які вирішують ці проблеми.
[[["Easy to understand","easyToUnderstand","thumb-up"],["Solved my problem","solvedMyProblem","thumb-up"],["Other","otherUp","thumb-up"]],[["Missing the information I need","missingTheInformationINeed","thumb-down"],["Too complicated / too many steps","tooComplicatedTooManySteps","thumb-down"],["Out of date","outOfDate","thumb-down"],["Translation issue","translationIssue","thumb-down"],["Проблема з кодом або зразками","samplesCodeIssue","thumb-down"],["Other","otherDown","thumb-down"]],["Останнє оновлення: 2025-05-23 (UTC)."],[[["This module explains how to create embeddings, which are lower-dimensional representations of sparse data that address the problems of large input vectors and lack of meaningful relations between vectors in one-hot encoding."],["One-hot encoding creates large input vectors, leading to a huge number of weights in a neural network, requiring more data, computation, and memory."],["One-hot encoding vectors lack meaningful relationships, failing to capture semantic similarities between items, like the example of hot dogs and shawarmas being more similar than hot dogs and salads."],["Embeddings offer a solution by providing dense vector representations that capture semantic relationships and reduce the dimensionality of data, improving efficiency and performance in machine learning models."],["This module assumes familiarity with introductory machine learning concepts like linear regression, categorical data, and neural networks."]]],[]]