Como medir o sucesso

Como saber se a implementação de ML valeu a pena? Quando você deve começar a comemorar: logo depois que o modelo entra em produção e faz a primeira previsão ou somente depois que uma métrica de negócios quantitativa começa a se mover na direção certa?

Antes de iniciar um projeto, é fundamental definir as métricas de sucesso e concordar com os resultados. Você precisa definir e rastrear os dois tipos de métricas a seguir:

  • Métricas de negócios. Métricas para quantificar a performance de negócios, por exemplo, receita, taxa de cliques ou número de usuários.

  • Métricas de modelo. Métricas para quantificar a qualidade do modelo, por exemplo, raiz do erro quadrático médio, precisão ou recall.

Métricas de negócios

As métricas de negócios são as mais importantes. Eles são o motivo de você usar o ML: você quer melhorar os negócios.

Comece com métricas quantificáveis de produto ou negócios. A métrica precisa ser o mais granular e focada possível. Confira alguns exemplos de métricas de negócios focadas e quantificáveis:

  • Reduzir em 30% os custos mensais de energia elétrica de um data center.
  • Aumentar a receita das recomendações de produtos em 12%.
  • Aumentar a taxa de cliques em 9%.
  • Aumentar em 20% o sentimento dos clientes nas pesquisas de ativação.
  • Aumentar o tempo na página em 4%.

Acompanhamento de métricas de negócios

Se você não estiver acompanhando a métrica de negócios que quer melhorar, comece implementando a infraestrutura para isso. Definir uma meta de aumentar a taxa de cliques em 15% não é lógico se você não estiver medindo as taxas de cliques.

Mais importante ainda, verifique se você está medindo a métrica certa para seu problema. Por exemplo, não gaste tempo escrevendo instrumentação para rastrear taxas de cliques se a métrica mais importante for a receita das recomendações.

À medida que o projeto avança, você percebe se a métrica de sucesso de destino é uma meta realista. Em alguns casos, você pode determinar que o projeto não é viável de acordo com as métricas de sucesso definidas.

Métricas de modelos

Quando você deve colocar o modelo em produção? Quando a AUC está em um determinado valor? Quando o modelo atinge uma determinada pontuação F1? A resposta a essa pergunta depende do tipo de problema que você está resolvendo e da qualidade da previsão que você acha que precisa melhorar para a métrica de negócios.

Ao determinar quais métricas usar para avaliar seu modelo, considere o seguinte:

  • Determine uma única métrica para otimizar. Por exemplo, os modelos de classificação podem ser avaliados com várias métricas (AUC, AUC-PR etc.). Escolher o melhor modelo pode ser difícil quando diferentes métricas favorecem modelos diferentes. Portanto, concorde com uma única métrica para avaliar os modelos.

  • Determine metas de aceitabilidade a serem atingidas. As metas de aceitabilidade são diferentes das métricas de avaliação do modelo. Elas se referem às metas que um modelo precisa atingir para ser considerado aceitável em um caso de uso específico. Por exemplo, uma meta de aceitabilidade pode ser "a saída incorreta é inferior a 0,1%" ou "o recall para as cinco principais categorias é superior a 97%".

Por exemplo, suponha que um modelo de classificação binária detecte transações fraudulentas. A métrica de otimização pode ser o recall, enquanto a meta de aceitabilidade pode ser a precisão. Em outras palavras, priorizaríamos o recall (identificar corretamente a fraude na maioria das vezes) e manteríamos a precisão em um valor específico ou acima dele (identificar transações fraudulentas reais).

Conexão entre métricas do modelo e de negócios

Basicamente, você está tentando desenvolver um modelo cuja qualidade de previsão esteja causalmente conectada à sua métrica de negócios. Boas métricas de modelo não implicam necessariamente em métricas de negócios melhores. Sua equipe pode desenvolver um modelo com métricas impressionantes, mas as previsões dele podem não melhorar a métrica de negócios.

Quando você estiver satisfeito com a qualidade da previsão do modelo, tente determinar como as métricas dele afetam a métrica de negócios. Normalmente, as equipes implantam o modelo para 1% dos usuários e monitoram a métrica de negócios.

Por exemplo, digamos que sua equipe desenvolva um modelo para aumentar a receita prevendo a rotatividade de clientes. Em teoria, se você puder prever se um cliente vai sair da plataforma, poderá incentivá-lo a ficar.

Sua equipe cria um modelo com 95% de qualidade de previsão e o testa em uma pequena amostra de usuários. No entanto, a receita não aumenta. A desistência de compra aumenta. Confira algumas explicações possíveis:

  • As previsões não acontecem cedo o suficiente para serem acionáveis. O modelo só pode prever o churn de clientes em um período de sete dias, o que não é rápido o suficiente para oferecer incentivos para mantê-los na plataforma.

  • Recursos incompletos. Talvez outros fatores contribuam para o churn de clientes que não estavam no conjunto de dados de treinamento.

  • O limite não é alto o suficiente. O modelo pode precisar ter uma qualidade de previsão de 97% ou mais para ser útil.

Este exemplo simples destaca os dois pontos:

  • É importante realizar testes com usuários no início para provar (e entender) a conexão entre as métricas do modelo e as de negócios.
  • Boas métricas de modelo não garantem melhorias nas métricas de negócios.

IA generativa

A avaliação da saída da IA generativa apresenta desafios únicos. Em muitos casos, como respostas abertas ou conteúdo criativo, é mais difícil do que avaliar saídas de ML tradicionais.

Os LLMs podem ser medidos e avaliados com base em várias métricas. Determinar quais métricas usar para avaliar seu modelo depende do seu caso de uso.

Observação importante

Não confunda o sucesso do modelo com o sucesso dos negócios. Em outras palavras, um modelo com métricas excelentes não garante o sucesso dos negócios.

Muitos engenheiros qualificados podem criar modelos com métricas impressionantes. Normalmente, o problema não é treinar um modelo bom o suficiente. Em vez disso, o modelo não melhora a métrica de negócios. Um projeto de ML pode estar fadado ao fracasso devido a um desalinhamento entre as métricas de negócios e do modelo.

Teste seu conhecimento

Você tem um problema de negócios claro e uma solução bem definida para usar um LLM como agente de suporte ao cliente. Como você deve pensar em medir se a solução está sendo bem-sucedida?
O número de casos de suporte resolvidos que exigem envolvimento humano diminui de 72% para 50%.
Correto. Essa é uma métrica de negócios quantificável que você pode acompanhar.
As métricas de avaliação do LLM são consistentemente altas.
Boas métricas de modelo não garantem que você terá métricas de negócios melhores.
O feedback dos testes iniciais com usuários é muito favorável.
O feedback inicial dos usuários costuma ser mais qualitativo do que quantitativo. Você precisa determinar uma métrica de negócios quantificável para medir o sucesso.