Présentation des pipelines de ML

Félicitations ! Votre modèle est prêt à être déployé dans un pipeline de ML en production. Cette section présente les consignes de test pour les pipelines de ML. Toutefois, cette section n'illustre pas ces consignes, car une telle démonstration n'est pas possible dans un environnement de bac à sable.

Vous découvrirez:

  • Rédiger les tests appropriés pour le lancement et la production
  • Détecter les modes de défaillance de votre pipeline de ML à l'aide de tests
  • Évaluer la qualité de votre modèle en production

Qu'est-ce qu'un pipeline de ML ?

Un pipeline de ML est constitué de plusieurs composants, comme le montre le schéma. Nous découvrirons ces composants plus tard. Pour l'instant, notez que le "modèle" (la boîte noire) est une petite partie de l'infrastructure de pipeline nécessaire à la production de ML.

Schéma d'un pipeline de machine learning classique. Le schéma montre plusieurs cadres, un pour chaque composant du pipeline. La zone portant le libellé "modèle" se trouve au centre du schéma. Les autres boîtes sont disposées autour de la case du modèle. Ces cases sont étiquetées : "Collecte de données", "Vérification des données", "Gestion des ressources machine", "Infrastructure de diffusion", "Extraction de caractéristiques", "Outils d'analyse", "Outils de gestion des processus", "Configuration" et "Surveillance".
Figure 1: Schéma d'un pipeline de machine learning classique

Rôle des tests dans les pipelines de ML

En développement logiciel, le workflow idéal suit le développement piloté par les tests (TDD, Test-Driven Development). Cependant, en ML, il n'est pas facile de commencer par les tests. Vos tests dépendent de vos données, de votre modèle et de votre problème. Par exemple, avant d'entraîner votre modèle, vous ne pouvez pas écrire de test pour valider la perte. À la place, vous découvrirez la perte atteignable lors du développement du modèle, puis vous testerez de nouvelles versions de modèle par rapport à la perte réalisable.

Vous avez besoin de tests pour:

  • Validation des données d'entrée...
  • Valider l'extraction de caractéristiques
  • Validation de la qualité des nouvelles versions de modèle...
  • Validation de l'infrastructure d'inférence.
  • Tester l'intégration entre les composants du pipeline.