Mesure des performances

Comment savoir si votre implémentation du ML a porté ses fruits ? Quand devez-vous commencer à célébrer : juste après la mise en production du modèle et la diffusion de sa première prédiction, ou seulement après qu'une métrique commerciale quantitative commence à évoluer dans la bonne direction ?

Avant de commencer un projet, il est essentiel de définir vos critères de réussite et de convenir des livrables. Vous devrez définir et suivre les deux types de métriques suivants :

Métriques commerciales

Les métriques métier sont les plus importantes. C'est la raison pour laquelle vous utilisez le ML : vous souhaitez améliorer votre activité.

Commencez par des métriques produit ou commerciales quantifiables. La métrique doit être aussi précise et ciblée que possible. Voici des exemples de métriques commerciales ciblées et quantifiables :

  • Réduisez les coûts d'électricité mensuels d'un centre de données de 30 %.
  • Augmenter les revenus générés par les recommandations de produits de 12 %.
  • Augmenter le taux de clics de 9 %.
  • Augmenter de 20 % le sentiment des clients à partir des enquêtes d'activation.
  • Augmenter le temps passé sur la page de 4 %.

Suivre les métriques métier

Si vous ne suivez pas la métrique commerciale que vous souhaitez améliorer, commencez par implémenter l'infrastructure nécessaire. Il n'est pas logique de définir un objectif d'augmentation du taux de clics de 15 % si vous ne mesurez pas actuellement les taux de clics.

Plus important encore, assurez-vous de mesurer la métrique adaptée à votre problème. Par exemple, ne perdez pas de temps à écrire une instrumentation pour suivre les taux de clics si la métrique la plus importante est peut-être le revenu généré par les recommandations.

Au fur et à mesure de l'avancement de votre projet, vous vous rendrez compte si la métrique de réussite cible est réaliste ou non. Dans certains cas, vous pouvez déterminer que le projet n'est pas viable compte tenu des métriques de réussite définies.

Métriques du modèle

Quand devez-vous mettre le modèle en production ? Quand la AUC atteint-elle une certaine valeur ? Lorsque le modèle atteint un score F1 particulier. La réponse à cette question dépend du type de problème que vous résolvez et de la qualité de prédiction dont vous pensez avoir besoin pour améliorer la métrique commerciale.

Lorsque vous déterminez les métriques par rapport auxquelles évaluer votre modèle, tenez compte des éléments suivants :

  • Déterminez une seule métrique à optimiser. Par exemple, les modèles de classification peuvent être évalués par rapport à différentes métriques (AUC, AUC-PR, etc.). Il peut être difficile de choisir le meilleur modèle lorsque différentes métriques favorisent différents modèles. Par conséquent, choisissez une seule métrique pour évaluer les modèles.

  • Déterminez les objectifs d'acceptabilité à atteindre. Les objectifs d'acceptabilité sont différents des métriques d'évaluation des modèles. Ils font référence aux objectifs qu'un modèle doit atteindre pour être considéré comme acceptable pour un cas d'utilisation prévu. Par exemple, un objectif d'acceptabilité peut être "le pourcentage de sorties incorrectes est inférieur à 0,1 %" ou "le rappel pour les cinq principales catégories est supérieur à 97 %".

Par exemple, supposons qu'un modèle de classification binaire détecte les transactions frauduleuses. Sa métrique d'optimisation peut être le rappel, tandis que son objectif d'acceptabilité peut être la précision. En d'autres termes, nous privilégions le rappel (identification correcte de la fraude la plupart du temps) tout en souhaitant que la précision reste à une valeur particulière ou au-dessus (identification des transactions frauduleuses réelles).

Relation entre les métriques du modèle et les métriques métier

Fondamentalement, vous essayez de développer un modèle dont la qualité de prédiction est causalement liée à votre métrique métier. De bonnes métriques de modèle n'impliquent pas nécessairement une amélioration des métriques métier. Votre équipe peut développer un modèle avec des métriques impressionnantes, mais les prédictions du modèle peuvent ne pas améliorer la métrique métier.

Lorsque vous êtes satisfait de la qualité des prédictions de votre modèle, essayez de déterminer comment les métriques du modèle affectent la métrique métier. En général, les équipes déploient le modèle auprès de 1 % des utilisateurs, puis surveillent la métrique métier.

Par exemple, supposons que votre équipe développe un modèle pour augmenter les revenus en prédisant le taux de perte de clients. En théorie, si vous pouvez prédire si un client est susceptible de quitter la plate-forme, vous pouvez l'encourager à rester.

Votre équipe crée un modèle avec une qualité de prédiction de 95 % et le teste sur un petit échantillon d'utilisateurs. Toutefois, les revenus n'augmentent pas. La perte de clients augmente. Voici quelques explications possibles :

  • Les prédictions ne sont pas assez précoces pour être exploitables. Le modèle ne peut prédire le churn des clients que sur une période de sept jours, ce qui n'est pas assez tôt pour proposer des incitations afin de les retenir sur la plate-forme.

  • Fonctionnalités incomplètes : Peut-être que d'autres facteurs contribuent au churn des clients et n'étaient pas présents dans l'ensemble de données d'entraînement.

  • Le seuil n'est pas assez élevé. Pour être utile, le modèle doit peut-être avoir une qualité de prédiction de 97 % ou plus.

Cet exemple simple met en évidence les deux points :

  • Il est important d'effectuer des tests utilisateur précoces pour prouver (et comprendre) le lien entre les métriques du modèle et les métriques métier.
  • De bonnes métriques de modèle ne garantissent pas l'amélioration des métriques métier.

IA générative

L'évaluation des résultats de l'IA générative présente des difficultés spécifiques. Dans de nombreux cas, comme pour les résultats ouverts ou créatifs, l'évaluation est plus difficile que pour les résultats du ML traditionnel.

Les LLM peuvent être mesurés et évalués à l'aide de différentes métriques. Le choix des métriques à utiliser pour évaluer votre modèle dépend de votre cas d'utilisation.

À retenir

Ne confondez pas la réussite du modèle avec la réussite commerciale. En d'autres termes, un modèle avec des métriques exceptionnelles ne garantit pas le succès commercial.

De nombreux ingénieurs qualifiés peuvent créer des modèles avec des métriques impressionnantes. Le problème ne réside généralement pas dans l'entraînement d'un modèle suffisamment performant. Il s'agit plutôt du fait que le modèle n'améliore pas la métrique commerciale. Un projet de ML peut être voué à l'échec en cas de désalignement entre les métriques métier et celles du modèle.

Testez vos connaissances

Vous avez un problème métier clair et une solution bien définie pour utiliser un LLM comme agent du service client. Comment évaluer le succès de la solution ?
Le nombre de demandes d'assistance résolues nécessitant une intervention humaine diminue de 72 % à 50 %.
Bonne réponse. Il s'agit d'une métrique commerciale quantifiable que vous pouvez suivre.
Les métriques d'évaluation du LLM sont constamment élevées.
De bonnes métriques de modèle ne garantissent pas l'amélioration de vos métriques métier.
Les commentaires issus des premiers tests utilisateurs sont très favorables.
Les premiers commentaires des utilisateurs sont généralement plus qualitatifs que quantitatifs. Vous devrez définir une métrique commerciale quantifiable pour mesurer le succès.