Измерение успеха

Как понять, стоило ли внедрение машинного обучения затраченных усилий? Когда начинать праздновать: сразу после запуска модели в эксплуатацию и получения первого прогноза или только после того, как количественная бизнес-метрика начнёт двигаться в правильном направлении?

Перед началом проекта крайне важно определить показатели успеха и согласовать результаты. Вам необходимо определить и отслеживать следующие два типа показателей:

  • Бизнес-показатели. Показатели для количественной оценки эффективности бизнеса, например, доход, кликабельность или количество пользователей.

  • Метрики модели. Метрики для количественной оценки качества модели, например, среднеквадратическая ошибка , точность или полнота .

Бизнес-показатели

Бизнес-показатели — самые важные. Именно они являются причиной использования машинного обучения: вы хотите улучшить бизнес.

Начните с количественных показателей продукта или бизнеса. Метрика должна быть максимально детализированной и узконаправленной. Ниже приведены примеры специализированных, количественно измеряемых бизнес-показателей:

  • Сократите ежемесячные расходы на электроэнергию в центре обработки данных на 30 процентов.
  • Увеличить доход от рекомендаций продуктов на 12 процентов.
  • Увеличьте показатель кликов на 9 процентов.
  • Повысить уровень настроений клиентов, принявших участие в опросах, на 20 процентов.
  • Увеличьте время нахождения на странице на 4 процента.

Отслеживание бизнес-показателей

Если вы не отслеживаете бизнес-показатели, которые хотите улучшить, начните с внедрения соответствующей инфраструктуры. Постановка цели по увеличению CTR на 15% нелогична, если вы сейчас не измеряете CTR.

Что ещё важнее, убедитесь, что вы измеряете правильную метрику для решения вашей проблемы. Например, не тратьте время на написание инструментов для отслеживания кликов, если более важной метрикой может быть доход от рекомендаций.

По мере развития проекта вы поймёте, насколько реалистична целевая метрика успеха. В некоторых случаях вы можете решить, что проект нежизнеспособен с учётом заданных метрик успеха.

Метрики модели

Когда следует запускать модель в эксплуатацию? Когда AUC достигает определённого значения? Когда модель достигает определённого значения F1 ? Ответ на этот вопрос зависит от типа решаемой задачи и качества прогнозирования, которое, по вашему мнению, необходимо для улучшения бизнес-показателей.

При определении показателей, по которым следует оценивать вашу модель, примите во внимание следующее:

  • Определите единую метрику для оптимизации . Например, модели классификации можно оценивать по различным метрикам ( AUC , AUC-PR и т. д.). Выбор оптимальной модели может быть сложной задачей, когда разные метрики дают преимущество разным моделям. Поэтому согласуйте единую метрику для оценки моделей.

  • Определите цели приемлемости, которым необходимо соответствовать . Цели приемлемости отличаются от метрик оценки модели. Они относятся к целям, которым модель должна соответствовать, чтобы считаться приемлемой для предполагаемого варианта использования. Например, цель приемлемости может быть такой: «неверный результат менее 0,1%» или «полнота по пяти основным категориям более 97%».

Например, предположим, что модель бинарной классификации выявляет мошеннические транзакции. Её метрикой оптимизации может быть полнота, а целью приемлемости — точность. Другими словами, мы бы отдали приоритет полноте (правильному выявлению мошенничества в большинстве случаев), а точность стремились бы поддерживать на определённом уровне или выше (выявляя действительно мошеннические транзакции).

Связь между метриками модели и бизнес-метриками

По сути, вы пытаетесь разработать модель, качество прогнозов которой будет причинно-следственно связано с вашими бизнес-показателями. Отличные метрики модели не обязательно подразумевают улучшение бизнес-показателей. Ваша команда может разработать модель с впечатляющими метриками, но прогнозы модели могут не улучшить бизнес-показатели.

Когда вы будете удовлетворены качеством прогнозов вашей модели, попробуйте определить, как метрики модели влияют на бизнес-показатели. Обычно команды внедряют модель для 1% пользователей, а затем отслеживают бизнес-показатели.

Например, ваша команда разрабатывает модель для увеличения дохода путём прогнозирования оттока клиентов. Теоретически, если вы можете предсказать, покинет ли клиент платформу, вы можете мотивировать его остаться.

Ваша команда создаёт модель с 95%-ным качеством прогнозирования и тестирует её на небольшой выборке пользователей. Однако доход не растёт. Отток клиентов даже увеличивается. Вот несколько возможных объяснений:

  • Прогнозы не делаются достаточно рано, чтобы на их основе можно было действовать . Модель может предсказать отток клиентов только в течение семи дней, что недостаточно рано, чтобы стимулировать их удержание на платформе.

  • Неполные характеристики . Возможно, отток клиентов обусловлен другими факторами, которых не было в обучающем наборе данных.

  • Пороговое значение недостаточно высокое . Для того чтобы модель была полезной, качество прогнозирования должно быть 97% или выше.

Этот простой пример подчеркивает два момента:

  • Важно провести раннее пользовательское тестирование, чтобы доказать (и понять) связь между показателями модели и бизнес-показателями.
  • Отличные показатели модели не гарантируют улучшения бизнес-показателей.

Генеративный ИИ

Оценка результатов генеративного ИИ представляет собой особую сложность. Во многих случаях, например, когда речь идёт о результатах открытого или творческого поиска, это сложнее, чем оценка результатов традиционного машинного обучения.

Результаты LLM можно оценить по различным показателям. Выбор показателей для оценки модели зависит от вашего варианта использования.

Иметь в виду

Не путайте успех модели с успехом в бизнесе. Другими словами, модель с выдающимися показателями не гарантирует успеха в бизнесе.

Многие опытные инженеры способны создавать модели с впечатляющими метриками. Проблема обычно не в обучении достаточно хорошей модели. Скорее, проблема в том, что модель не улучшает бизнес-метрики. Проект машинного обучения может быть обречён на провал из-за несоответствия бизнес-метрик и метрик модели.

Проверьте свое понимание

У вас есть чёткая бизнес-проблема и чётко сформулированное решение для привлечения специалиста LLM в качестве специалиста службы поддержки клиентов. Как оценить успешность решения?
Количество решенных обращений в службу поддержки, требующих участия человека, сократилось с 72% до 50%.
Верно. Это количественный бизнес-показатель, который можно отслеживать.
Показатели оценки LLM стабильно высокие.
Хорошие показатели модели не гарантируют улучшения бизнес-показателей.
Отзывы, полученные в ходе первоначального тестирования пользователями, весьма благоприятны.
Первые отзывы пользователей обычно носят скорее качественный, чем количественный характер. Вам необходимо определить количественную бизнес-метрику для оценки успеха.