Оптимизируйте свои подборки
Сохраняйте и классифицируйте контент в соответствии со своими настройками.
Машинное обучение помогает нам находить закономерности в данных — закономерности, которые мы затем используем для прогнозирования новых точек данных. Чтобы сделать эти прогнозы правильными, мы должны построитьнабор данных и правильно преобразовать данные. Этот курс охватывает эти два ключевых шага. Мы также увидим, как соображения обучения/обслуживания играют роль в этих шагах.
Зачем изучать подготовку данных и разработку функций?
Вы можете думать о разработке признаков, как о помощи модели понимать набор данных так же, как и вы. Учащиеся часто приходят на курс машинного обучения, посвященный построению моделей, но в конечном итоге тратят гораздо больше времени на данные.
Для следующего вопроса щелкните нужную стрелку, чтобы проверить свой ответ:
Если бы вам пришлось уделить первоочередное внимание улучшению одной из областей, перечисленных ниже, в вашем проекте машинного обучения, что бы оказало наибольшее влияние?
Качество и размер ваших данных
Данные превыше всего. Это правда, что обновление вашего алгоритма обучения или архитектуры модели позволит вам изучать различные типы шаблонов, но если ваши данные плохие, вы в конечном итоге создадите функции, которые не подходят. Качество и размер набора данных имеют гораздо большее значение, чем используемый вами блестящий алгоритм.
Использование новейшего алгоритма оптимизации
Вы определенно можете увидеть некоторые преимущества в продвижении оптимизаторов, но это не окажет такого значительного влияния на вашу модель, как другой элемент в этом списке.
Более глубокая сеть
Хотя более глубокая сеть может улучшить вашу модель, ее влияние не будет таким значительным, как у другого элемента в этом списке.
Более умная функция потерь
Закрывать! Улучшенная функция проигрыша может дать вам большой выигрыш, но она по-прежнему уступает другому пункту в этом списке.
Почему важно собрать хороший набор данных?
Гугл переводчик
«... одно из наших самых значительных достижений в области качества со времен нейромашинного перевода заключалось в определении наилучшего подмножества наших обучающих данных для использования».— инженер-программист, Google Translate
У команды Google Translate больше обучающих данных, чем они могут использовать. Вместо того, чтобы настраивать свою модель, команда добилась больших успехов, используя лучшие функции своих данных.
«...в большинстве случаев, когда я пытался вручную отладить интересные на вид ошибки, их можно было отследить до проблем с обучающими данными».— инженер-программист, Google Translate
«Интересно выглядящие» ошибки обычно вызваны данными. Ошибочные данные могут привести к тому, что ваша модель изучит неправильные шаблоны, независимо от того, какие методы моделирования вы применяете.
Проект мозговой диабетической ретинопатии
В проекте диабетической ретинопатии Google Brain использовалась архитектура нейронной сети, известная как Inception. для выявления заболеваний путем классификации изображений. Команда не настраивала модели. Вместо этого им удалось создать набор данных из 120 000 примеров, помеченных офтальмологами. (Подробнее читайте на странице https://research.google.com/pubs/pub43022.html .)