Cómo medir el éxito

¿Cómo sabrás si valió la pena implementar el AA? ¿Cuándo deberías comenzar a celebrar? ¿Justo después de que el modelo entre en producción y publique su primera predicción, o solo después de que una métrica comercial cuantitativa comience a moverse en la dirección correcta?

Antes de comenzar un proyecto, es fundamental definir las métricas de éxito y acordar los entregables. Deberás definir y hacer un seguimiento de los siguientes dos tipos de métricas:

Métricas comerciales

Las métricas comerciales son las más importantes. Son el motivo por el que usas el AA: quieres mejorar la empresa.

Comienza con métricas comerciales o de productos cuantificables. La métrica debe ser lo más detallada y enfocada posible. A continuación, se muestran ejemplos de métricas comerciales enfocadas y cuantificables:

  • Reducir los costos mensuales de electricidad de un centro de datos en un 30%
  • Aumentar en un 12% los ingresos por recomendaciones de productos
  • Aumentar la tasa de clics en un 9%
  • Aumentar en un 20% el sentimiento de los clientes a partir de las encuestas de habilitación.
  • Aumentar el tiempo en la página en un 4%

Seguimiento de las métricas comerciales

Si no haces un seguimiento de la métrica comercial que deseas mejorar, comienza por implementar la infraestructura para hacerlo. Establecer un objetivo para aumentar la tasa de clics en un 15% no es lógico si actualmente no mides las tasas de clics.

Lo más importante es que te asegures de medir la métrica adecuada para tu problema. Por ejemplo, no dediques tiempo a escribir la instrumentación para hacer un seguimiento de los porcentajes de clics si la métrica más importante podría ser los ingresos provenientes de las recomendaciones.

A medida que avance el proyecto, te darás cuenta de si la métrica de éxito objetivo es realmente un objetivo realista. En algunos casos, es posible que determines que el proyecto no es viable según las métricas de éxito definidas.

Métricas del modelo

¿Cuándo deberías poner el modelo en producción? ¿Cuándo el AUC alcanza un valor determinado? ¿Cuándo el modelo alcanza una determinada puntuación F1? La respuesta a esta pregunta depende del tipo de problema que resuelves y de la calidad de la predicción que crees que necesitas para mejorar la métrica comercial.

Cuando determines qué métricas usar para evaluar tu modelo, ten en cuenta lo siguiente:

  • Determina una sola métrica para optimizar. Por ejemplo, los modelos de clasificación se pueden evaluar con una variedad de métricas (AUC, AUC-PR, etcétera). Elegir el mejor modelo puede ser un desafío cuando diferentes métricas favorecen diferentes modelos. Por lo tanto, acuerda una sola métrica para evaluar los modelos.

  • Determina los objetivos de aceptación que debes cumplir. Los objetivos de aceptabilidad son diferentes de las métricas de evaluación del modelo. Se refieren a los objetivos que un modelo debe cumplir para considerarse aceptable para un caso de uso previsto. Por ejemplo, un objetivo de aceptabilidad podría ser "la salida incorrecta es inferior al 0.1%" o "la recuperación para las cinco categorías principales es superior al 97%".

Por ejemplo, supongamos que un modelo de clasificación binaria detecta transacciones fraudulentas. Su métrica de optimización podría ser la recuperación, mientras que su objetivo de aceptabilidad podría ser la precisión. En otras palabras, priorizaríamos la recuperación (identificar correctamente el fraude la mayoría de las veces) y querríamos que la precisión se mantuviera en un valor determinado o por encima de él (identificar las transacciones fraudulentas reales).

Conexión entre las métricas del modelo y las métricas comerciales

Fundamentalmente, intentas desarrollar un modelo cuya calidad de predicción esté conectada causalmente con tu métrica comercial. Las excelentes métricas del modelo no siempre implican una mejora en las métricas comerciales. Tu equipo podría desarrollar un modelo con métricas impresionantes, pero las predicciones del modelo podrían no mejorar la métrica comercial.

Cuando estés conforme con la calidad de predicción de tu modelo, intenta determinar cómo las métricas del modelo afectan la métrica comercial. Por lo general, los equipos implementan el modelo para el 1% de los usuarios y, luego, supervisan la métrica comercial.

Por ejemplo, supongamos que tu equipo desarrolla un modelo para aumentar los ingresos prediciendo la deserción de clientes. En teoría, si puedes predecir si es probable que un cliente abandone la plataforma, puedes alentarlo a quedarse.

Tu equipo crea un modelo con un 95% de calidad de predicción y lo prueba en una pequeña muestra de usuarios. Sin embargo, los ingresos no aumentan. En realidad, la deserción de clientes aumenta. Estas son algunas explicaciones posibles:

  • Las predicciones no se producen con la suficiente anticipación como para ser prácticas. El modelo solo puede predecir la deserción de clientes en un plazo de siete días, lo que no es lo suficientemente pronto como para ofrecer incentivos para que permanezcan en la plataforma.

  • Funciones incompletas. Tal vez otros factores contribuyen a la deserción de clientes que no se incluyeron en el conjunto de datos de entrenamiento.

  • El umbral no es lo suficientemente alto. Es posible que el modelo deba tener una calidad de predicción del 97% o más para que sea útil.

En este ejemplo simple, se destacan los dos puntos:

  • Es importante realizar pruebas con usuarios de forma anticipada para demostrar (y comprender) la conexión entre las métricas del modelo y las métricas comerciales.
  • Las excelentes métricas del modelo no garantizan una mejora en las métricas comerciales.

IA generativa

La evaluación de los resultados de la IA generativa presenta desafíos únicos. En muchos casos, como los resultados creativos o de respuesta abierta, es más difícil que evaluar los resultados del AA tradicional.

Los LLM se pueden medir y evaluar en función de una variedad de métricas. Determinar con qué métricas evaluar tu modelo depende de tu caso de uso.

Recuerde

No confundas el éxito del modelo con el éxito del negocio. En otras palabras, un modelo con métricas sobresalientes no garantiza el éxito empresarial.

Muchos ingenieros capacitados pueden crear modelos con métricas impresionantes. Por lo general, el problema no es entrenar un modelo lo suficientemente bueno. Más bien, el modelo no mejora la métrica empresarial. Un proyecto de AA puede estar destinado al fracaso si no hay una alineación entre las métricas comerciales y las del modelo.

Comprueba tu comprensión

Tienes un problema empresarial claro y una solución bien definida para usar un LLM como agente de asistencia al cliente. ¿Cómo deberías pensar en medir si la solución es exitosa?
La cantidad de casos de ayuda resueltos que requieren participación humana disminuye del 72% al 50%.
Correcto. Esta es una métrica comercial cuantificable de la que puedes hacer un seguimiento.
Las métricas de evaluación del LLM son constantemente altas.
Las buenas métricas del modelo no garantizan que tendrás mejores métricas comerciales.
Los comentarios de las pruebas de usuarios iniciales son muy favorables.
Por lo general, los comentarios de los usuarios iniciales son más cualitativos que cuantitativos. Deberás determinar una métrica comercial cuantificable para medir el éxito.