Préparation des données et extraction de caractéristiques en ML

Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Le machine learning nous aide à identifier des modèles dans les données. Ceux-ci nous permettent ensuite de prédire des points de données. Pour obtenir ces prédictions correctement, nous devons construire l'ensemble de données et transformer correctement les données. Ce cours couvre ces deux étapes clés. Nous verrons également comment les considérations d'entraînement et d'inférence jouent un rôle dans ces étapes.

Un projet de machine learning organisé en cinq étapes. 1. Définir un problème de ML et proposer une solution 2. Construisez votre ensemble de données. 3. Transformez les données.
4. Entraîner un modèle 5. Utilisez le modèle pour réaliser des prédictions  Ce cours explique comment construire un ensemble de données et transformer des données.

Prérequis

Pour suivre ce cours, vous devez avoir:

Pourquoi en savoir plus sur la préparation des données et l'extraction de caractéristiques ?

Vous pouvez considérer l'extraction de caractéristiques comme l'aide du modèle à comprendre l'ensemble de données de la même manière que vous. Les apprenants suivent souvent un cours de machine learning sur la création de modèles, mais finissent par passer beaucoup plus de temps à se concentrer sur les données.

Pour la question suivante, cliquez sur la flèche de votre choix pour vérifier votre réponse:

Si vous deviez améliorer en priorité l'un des aspects suivants de votre projet de machine learning, lequel aurait le plus d'impact ?
Qualité et taille de vos données
Les données l'emportent sur tout. Il est vrai que la mise à jour de l'algorithme d'apprentissage ou de l'architecture de modèle vous permettra d'apprendre différents types de modèles, mais si vos données sont incorrectes, vous finirez par créer des fonctions qui ne correspondent pas au bon modèle. La qualité et la taille de l'ensemble de données sont bien plus importantes que l'algorithme brillant que vous utilisez.
Utiliser le dernier algorithme d'optimisation
Vous pourriez certainement constater des avantages à déployer les optimiseurs, mais cela n'aura pas un impact aussi important sur votre modèle qu'un autre élément de cette liste.
Un réseau plus profond
Un réseau plus profond peut améliorer votre modèle, mais son impact ne sera pas aussi important qu'un autre élément de cette liste.
Une fonction de perte plus intelligente
Presque ! Une meilleure fonction de perte peut être très efficace, mais c'est quand même un second élément dans cette liste.

Pourquoi est-il important de collecter un ensemble de données de qualité ?

Google Traduction

"L'une de nos avancées les plus efficaces en matière de qualité, car la traduction automatique neuronale a été d'identifier le meilleur sous-ensemble de données d'entraînement à utiliser."

- Ingénieur logiciel, Google Traduction

L'équipe Google Traduction possède plus de données d'entraînement qu'elle ne peut en utiliser. Plutôt que d'ajuster le modèle, l'équipe a obtenu des gains importants en utilisant les meilleures caractéristiques de ses données.

 

 

 

"; la plupart du temps, lorsque j'ai essayé de déboguer manuellement des erreurs d'apparence intéressante, il pouvait s'agir de problèmes liés aux données d'entraînement." - Ingénieur logiciel, Google Traduction

Les erreurs d'apparence "remarquable" sont généralement dues aux données. Des données incorrectes peuvent empêcher votre modèle d'apprendre les mauvais modèles, quelles que soient les techniques de modélisation que vous essayez.

 

 

Projet de cerveau et de rétinopathie diabétique

Le projet de rétinopathie diabétique de Google Brain a utilisé une architecture de réseau de neurones, appelée Inception, pour détecter les maladies en classant les images. L'équipe n'a pas modifié les modèles. Au lieu de cela, ils ont réussi à créer un ensemble de données de 120 000 exemples étiquetés par des ophtalmologistes. Pour en savoir plus, consultez la page https://research.google.com/pubs/pub43022.html.