Produção

Para preparar seus pipelines de ML para produção, faça o seguinte:

  • Provisionar recursos de computação para seus pipelines
  • Implementar geração de registros, monitoramento e alertas

Provisionamento de recursos de computação

A execução de pipelines de ML requer recursos de computação, como RAM, CPUs e GPUs/TPUs. Sem computação adequada, não é possível executar seus pipelines. Portanto, verifique se você tem cota suficiente para provisionar os recursos necessários para a execução dos pipelines em produção.

  • Pipelines de disponibilização, treinamento e validação. Esses pipelines exigem TPUs, GPUs ou CPUs. Dependendo do caso de uso, você pode treinar e veicular em hardware diferente ou usar o mesmo hardware. Por exemplo, o treinamento pode acontecer em CPUs, mas a veiculação pode usar TPUs, ou vice-versa. Em geral, é comum treinar em hardware maior e depois veicular em hardware menor.

    Ao escolher o hardware, considere o seguinte:

    • É possível treinar em hardware mais barato?
    • Mudar para um hardware diferente melhoraria o desempenho?
    • Qual é o tamanho do modelo e qual hardware vai otimizar o desempenho dele?
    • Qual hardware é ideal com base na arquitetura do seu modelo?
  • Pipelines de dados. Os pipelines de dados exigem cota para RAM e CPU Você precisa estimar a quantidade de cota que seu pipeline precisa para gerar conjuntos de dados de treinamento e teste.

Talvez você não aloque cota para cada pipeline. Em vez disso, você pode alocar cota que os pipelines compartilham. Nesses casos, verifique se você tem cota suficiente para executar todos os pipelines e configure o monitoramento e o alerta para evitar que um único pipeline incorreto consuma toda a cota.

Estimativa de cota

Para estimar a cota necessária para os pipelines de dados e treinamento, encontre projetos semelhantes para basear suas estimativas. Para estimar a cota de veiculação, tente prever as consultas por segundo do serviço. Esses métodos fornecem um valor de referência. À medida que você começa a criar um protótipo de solução durante a fase de experimentação, começa a receber uma estimativa de cota mais precisa.

Ao estimar a cota, considere não apenas os pipelines de produção, mas também os experimentos em andamento.

Teste seu conhecimento

Ao escolher o hardware para veicular previsões, sempre escolha um hardware mais potente do que o usado para treinar o modelo.
Falso
Correto. Normalmente, o treinamento exige um hardware maior do que a veiculação.
Verdadeiro

Geração de registros, monitoramento e alertas

É fundamental registrar e monitorar o comportamento de um modelo de produção. Uma infraestrutura de monitoramento robusta confirma que seus modelos estão oferecendo previsões confiáveis e de alta qualidade.

Boas práticas de geração de registros e monitoramento ajudam a identificar problemas de forma proativa em pipelines de ML e a mitigar possíveis impactos nos negócios. Quando ocorrem problemas, os alertas notificam os membros da equipe, e os registros abrangentes facilitam o diagnóstico da causa raiz.

Implemente geração de registros e monitoramento para detectar os seguintes problemas com pipelines de ML:

Pipeline Monitoramento
Disponibilização
  • Desvios ou drifts nos dados de disponibilização em comparação com os dados de treinamento
  • Desvios ou variações nas previsões
  • Problemas de tipo de dados, como valores ausentes ou corrompidos
  • Uso de cota
  • Métricas de qualidade do modelo
Dados
  • Desvios e derivações nos valores de atributos
  • Distorções e derivações nos valores de rótulo
  • Problemas de tipo de dados, como valores ausentes ou corrompidos
  • Taxa de uso da cota
  • Limite de cota prestes a ser atingido
Treinamento
  • Tempo de treinamento
  • Falhas de treinamento
  • Uso de cota
Validação
  • Distorção ou deriva nos conjuntos de dados de teste

Você também vai querer geração de registros, monitoramento e alertas para o seguinte:

  • Latência. Quanto tempo leva para entregar uma previsão?
  • Interrupções. O modelo parou de fazer previsões?

Teste seu conhecimento

Qual das seguintes opções é o principal motivo para registrar e monitorar seus pipelines de ML?
Detecte problemas de forma proativa antes que eles afetem os usuários
Monitorar o uso de cotas e recursos
Identificar possíveis problemas de segurança
Todas as alternativas acima
Correto. O registro e o monitoramento dos seus pipelines de ML ajudam a evitar e diagnosticar problemas antes que eles se tornem graves.

Como implantar um modelo

Para a implantação do modelo, documente o seguinte:

  • Aprovações necessárias para iniciar a implantação e aumentar o lançamento.
  • Como colocar um modelo em produção.
  • Onde o modelo é implantado, por exemplo, se há ambientes de teste ou canary.
  • O que fazer se uma implantação falhar.
  • Como fazer o rollback de um modelo já em produção.

Depois de automatizar o treinamento do modelo, você vai querer automatizar a validação e a implantação. A automação de implantações distribui a responsabilidade e reduz a probabilidade de uma implantação ser limitada por uma única pessoa. Além disso, ele reduz possíveis erros, aumenta a eficiência e a confiabilidade e permite rotações de plantão e suporte de SRE.

Normalmente, você implanta novos modelos para um subconjunto de usuários e verifica se eles estão funcionando como esperado. Se sim, continue com a implantação. Se não for, reverta a implantação e comece a diagnosticar e depurar os problemas.