Como saber se a implementação de ML valeu a pena? Quando você deve começar a comemorar: logo depois que o modelo entra em produção e faz a primeira previsão ou somente depois que uma métrica de negócios quantitativa começa a se mover na direção certa?
Antes de iniciar um projeto, é fundamental definir as métricas de sucesso e concordar com os resultados. Você precisa definir e rastrear os dois tipos de métricas a seguir:
Métricas de negócios. Métricas para quantificar a performance de negócios, por exemplo, receita, taxa de cliques ou número de usuários.
Métricas de modelo. Métricas para quantificar a qualidade do modelo, por exemplo, raiz do erro quadrático médio, precisão ou recall.
Métricas de negócios
As métricas de negócios são as mais importantes. Eles são o motivo de você usar o ML: você quer melhorar os negócios.
Comece com métricas quantificáveis de produto ou negócios. A métrica precisa ser o mais granular e focada possível. Confira alguns exemplos de métricas de negócios focadas e quantificáveis:
- Reduzir em 30% os custos mensais de energia elétrica de um data center.
- Aumentar a receita das recomendações de produtos em 12%.
- Aumentar a taxa de cliques em 9%.
- Aumentar em 20% o sentimento dos clientes nas pesquisas de ativação.
- Aumentar o tempo na página em 4%.
Acompanhamento de métricas de negócios
Se você não estiver acompanhando a métrica de negócios que quer melhorar, comece implementando a infraestrutura para isso. Definir uma meta de aumentar a taxa de cliques em 15% não é lógico se você não estiver medindo as taxas de cliques.
Mais importante ainda, verifique se você está medindo a métrica certa para seu problema. Por exemplo, não gaste tempo escrevendo instrumentação para rastrear taxas de cliques se a métrica mais importante for a receita das recomendações.
À medida que o projeto avança, você percebe se a métrica de sucesso de destino é uma meta realista. Em alguns casos, você pode determinar que o projeto não é viável de acordo com as métricas de sucesso definidas.
Métricas de modelos
Quando você deve colocar o modelo em produção? Quando a AUC está em um determinado valor? Quando o modelo atinge uma determinada pontuação F1? A resposta a essa pergunta depende do tipo de problema que você está resolvendo e da qualidade da previsão que você acha que precisa melhorar para a métrica de negócios.
Ao determinar quais métricas usar para avaliar seu modelo, considere o seguinte:
Determine uma única métrica para otimizar. Por exemplo, os modelos de classificação podem ser avaliados com várias métricas (AUC, AUC-PR etc.). Escolher o melhor modelo pode ser difícil quando diferentes métricas favorecem modelos diferentes. Portanto, concorde com uma única métrica para avaliar os modelos.
Determine metas de aceitabilidade a serem atingidas. As metas de aceitabilidade são diferentes das métricas de avaliação do modelo. Elas se referem às metas que um modelo precisa atingir para ser considerado aceitável em um caso de uso específico. Por exemplo, uma meta de aceitabilidade pode ser "a saída incorreta é inferior a 0,1%" ou "o recall para as cinco principais categorias é superior a 97%".
Por exemplo, suponha que um modelo de classificação binária detecte transações fraudulentas. A métrica de otimização pode ser o recall, enquanto a meta de aceitabilidade pode ser a precisão. Em outras palavras, priorizaríamos o recall (identificar corretamente a fraude na maioria das vezes) e manteríamos a precisão em um valor específico ou acima dele (identificar transações fraudulentas reais).
Conexão entre métricas do modelo e de negócios
Basicamente, você está tentando desenvolver um modelo cuja qualidade de previsão esteja causalmente conectada à sua métrica de negócios. Boas métricas de modelo não implicam necessariamente em métricas de negócios melhores. Sua equipe pode desenvolver um modelo com métricas impressionantes, mas as previsões dele podem não melhorar a métrica de negócios.
Quando você estiver satisfeito com a qualidade da previsão do modelo, tente determinar como as métricas dele afetam a métrica de negócios. Normalmente, as equipes implantam o modelo para 1% dos usuários e monitoram a métrica de negócios.
Por exemplo, digamos que sua equipe desenvolva um modelo para aumentar a receita prevendo a rotatividade de clientes. Em teoria, se você puder prever se um cliente vai sair da plataforma, poderá incentivá-lo a ficar.
Sua equipe cria um modelo com 95% de qualidade de previsão e o testa em uma pequena amostra de usuários. No entanto, a receita não aumenta. A desistência de compra aumenta. Confira algumas explicações possíveis:
As previsões não acontecem cedo o suficiente para serem acionáveis. O modelo só pode prever o churn de clientes em um período de sete dias, o que não é rápido o suficiente para oferecer incentivos para mantê-los na plataforma.
Recursos incompletos. Talvez outros fatores contribuam para o churn de clientes que não estavam no conjunto de dados de treinamento.
O limite não é alto o suficiente. O modelo pode precisar ter uma qualidade de previsão de 97% ou mais para ser útil.
Este exemplo simples destaca os dois pontos:
- É importante realizar testes com usuários no início para provar (e entender) a conexão entre as métricas do modelo e as de negócios.
- Boas métricas de modelo não garantem melhorias nas métricas de negócios.
IA generativa
A avaliação da saída da IA generativa apresenta desafios únicos. Em muitos casos, como respostas abertas ou conteúdo criativo, é mais difícil do que avaliar saídas de ML tradicionais.
Os LLMs podem ser medidos e avaliados com base em várias métricas. Determinar quais métricas usar para avaliar seu modelo depende do seu caso de uso.
Observação importante
Não confunda o sucesso do modelo com o sucesso dos negócios. Em outras palavras, um modelo com métricas excelentes não garante o sucesso dos negócios.
Muitos engenheiros qualificados podem criar modelos com métricas impressionantes. Normalmente, o problema não é treinar um modelo bom o suficiente. Em vez disso, o modelo não melhora a métrica de negócios. Um projeto de ML pode estar fadado ao fracasso devido a um desalinhamento entre as métricas de negócios e do modelo.