Glossaire sur le machine learning: évaluation du langage

Cette page contient les termes du glossaire d'évaluation du langage. Pour voir tous les termes du glossaire, cliquez ici.

A

"Attention",

#language

Mécanisme utilisé dans un réseau de neurones qui indique l'importance d'un mot ou d'une partie de mot particulier. L'attention compresse la quantité d'informations dont un modèle a besoin pour prédire le jeton ou le mot suivant. Un mécanisme d'attention typique peut consister en une somme pondérée sur un ensemble d'entrées, où la pondération de chaque entrée est calculée par une autre partie du réseau de neurones.

Reportez-vous également aux concepts d'auto-attention et d'auto-attention multi-têtes, qui sont les éléments constitutifs des transformateurs.

auto-encodeur

#language
#image

Système qui apprend à extraire les informations les plus importantes de l'entrée. Les auto-encodeurs combinent un encodeur et un décodeur. Les auto-encodeurs s'appuient sur le processus en deux étapes suivant:

  1. L'encodeur mappe l'entrée dans un format (généralement) avec perte de dimension inférieure (intermédiaire).
  2. Le décodeur crée une version avec pertes de l'entrée d'origine en mappant le format de dimension inférieure au format d'entrée d'origine de dimension supérieure.

Les auto-encodeurs sont entraînés de bout en bout en faisant en sorte que le décodeur tente de reconstruire l'entrée d'origine à partir de son format intermédiaire aussi fidèlement que possible. Comme le format intermédiaire est plus petit (de dimension inférieure) que le format d'origine, l'auto-encodeur est contraint d'apprendre quelles informations d'entrée sont essentielles. La sortie ne sera donc pas parfaitement identique à l'entrée.

Exemple :

  • Si les données d'entrée sont un graphique, la copie non exacte sera semblable au graphique d'origine, mais légèrement modifiée. Il se peut que la copie non exacte supprime le bruit de l'élément graphique d'origine ou remplace certains pixels manquants.
  • Si les données d'entrée sont du texte, un auto-encodeur génère un nouveau texte qui imite (mais n'est pas identique) le texte d'origine.

Consultez également la page consacrée aux auto-encodeurs variés.

modèle autorégressif

#language
#image
#IAgénérative

model qui infère une prédiction à partir de ses propres prédictions précédentes. Par exemple, les modèles de langage autorégressifs prédisent le jeton suivant en fonction des jetons précédemment prédits. Tous les grands modèles de langage basés sur Transformer sont autorégressifs.

En revanche, les modèles d'image basés sur le GAN ne sont généralement pas autorégressifs, car ils génèrent une image en une seule passe avant et non par étapes itérative. Cependant, certains modèles de génération d'images sont autorégressifs, car ils génèrent une image par étapes.

B

sac de mots

#language

Représentation des mots d'une expression ou d'un passage, quel que soit leur ordre. Par exemple, un sac de mots représente les trois expressions suivantes de manière identique:

  • le chien saute
  • saute le chien
  • chien saute

Chaque mot est mappé à un indice dans un vecteur creux, où le vecteur possède un indice pour chaque mot du vocabulaire. Par exemple, l'expression le chien saute est mappée dans un vecteur de caractéristiques dont les trois indices correspondant aux mots the, dog et jumps présentent des valeurs non nulles. La valeur non nulle peut être l'une des suivantes:

  • 1 pour indiquer la présence d'un mot.
  • Nombre de fois où un mot apparaît dans le sac. Par exemple, si l'expression est the maroon dog is a dog with maroon fur, les mots maroon et dog seront représentés par la valeur 2, tandis que les autres mots seront représentés par la valeur 1.
  • Une autre valeur, telle que le logarithme du nombre d'apparitions d'un mot dans le sac.

BERT (Bidirectional Encoder Representations from Transformers)

#language

Architecture de modèle pour la représentation de texte. Un modèle BERT entraîné peut faire partie d'un modèle plus vaste pour la classification de texte ou d'autres tâches de ML.

BERT présente les caractéristiques suivantes:

Voici les variantes de BERT:

Pour en savoir plus sur BERT, consultez Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing (BERT Open Sourcing : pré-entraînement de pointe pour le traitement du langage naturel).

bidirectionnelle

#language

Terme utilisé pour décrire un système qui évalue le texte qui précédent et suit une section de texte cible. En revanche, un système unidirectionnel n'évalue que le texte qui précédent une section de texte cible.

Prenons l'exemple d'un modèle de langage masqué qui doit déterminer les probabilités pour le ou les mots soulignés dans la question suivante:

Quelle est la _____ avec vous ?

Un modèle de langage unidirectionnel ne devrait baser ses probabilités que sur le contexte fourni par les mots "quoi", "est" et "la". En revanche, un modèle de langage bidirectionnel peut également obtenir du contexte à partir de "avec" et "vous", ce qui peut l'aider à générer de meilleures prédictions.

modèle de langage bidirectionnel

#language

Modèle de langage qui détermine la probabilité qu'un jeton donné soit présent à un emplacement donné dans un extrait de texte basé sur le texte précédent et suivant.

bigramme

#seq
#language

Un N-gramme dans lequel N=2.

BLEU (Bilingual Evaluation Understudy)

#language

Score compris entre 0,0 et 1,0 inclus, indiquant la qualité d'une traduction entre deux langues humaines (par exemple, entre l'anglais et le russe). Un score BLEU de 1,0 indique une traduction parfaite, tandis qu'un score BLEU de 0,0 indique une traduction mauvaise.

C

modèle de langage causal

#language

Synonyme de modèle de langage unidirectionnel.

Reportez-vous au modèle de langage bidirectionnel pour différencier les différentes approches directionnelles de la modélisation du langage.

requête basée sur une chaîne de pensée

#language
#IAgénérative

Technique d'ingénierie rapide qui encourage un grand modèle de langage (LLM) à expliquer son raisonnement, étape par étape. Par exemple, considérons l'invite suivante, en accordant une attention particulière à la deuxième phrase:

Combien de forces g un conducteur peut-il rencontrer dans une voiture qui passe de 0 à 60 miles par heure en 7 secondes ? Dans la réponse, affichez tous les calculs pertinents.

La réponse du LLM est susceptible de:

  • Affichez une séquence de formules physiques en saisissant les valeurs 0, 60 et 7 aux emplacements appropriés.
  • Expliquez pourquoi il a choisi ces formules et ce que signifient les différentes variables.

La invite de chaîne de pensée oblige le LLM à effectuer tous les calculs, ce qui peut conduire à une réponse plus correcte. En outre, la requête de chaîne de pensée permet à l'utilisateur d'examiner les étapes du LLM pour déterminer si la réponse est pertinente ou non.

analyse de la circonscription

#language

Division d'une phrase en structures grammaticales plus petites ("constituants"). Une partie ultérieure du système de ML, telle qu'un modèle de compréhension du langage naturel, peut analyser les constituants plus facilement que la phrase d'origine. Prenons l'exemple de la phrase suivante:

Mon ami a adopté deux chats.

Un analyseur de circonscription peut diviser cette phrase en deux éléments:

  • Mon ami est un syntagme nominal.
  • adopté deux chats est un syntagme verbal.

Ces composants peuvent être subdivisés en plus petits composants. Par exemple, l'expression verbale

a adopté deux chats

pourrait être subdivisée comme suit:

  • adopted est un verbe.
  • deux chats est un autre syntagme nominal.

fleur de l'océan

#language

Phrase ou expression au sens ambigu. Les phrases équivoques posent un problème important pour la compréhension du langage naturel. Par exemple, le titre Les pieds sur terre est une phrase équivoque, car un modèle NLU peut l'interpréter littéralement ou figurativement.

D

décodeur

#language

En général, tout système de ML qui convertit une représentation traitée, dense ou interne en une représentation plus brute, creuse ou externe.

Les décodeurs sont souvent des composants d'un modèle plus grand, où ils sont souvent associés à un encodeur.

Dans les tâches de séquence à séquence, un décodeur commence avec l'état interne généré par l'encodeur pour prédire la séquence suivante.

Reportez-vous à la section Transformer pour obtenir la définition d'un décodeur dans l'architecture Transformer.

suppression du bruit

#language

Voici une approche courante de l'apprentissage autonome dans laquelle:

  1. Le bruit est ajouté artificiellement à l'ensemble de données.
  2. Le model tente d'éliminer le bruit.

La suppression du bruit permet d'apprendre à partir d'exemples sans étiquette. L'ensemble de données d'origine sert de cible ou d'étiquette, et les données contenant du bruit en entrée.

Certains modèles de langage masqué utilisent la suppression du bruit comme suit:

  1. Le bruit est ajouté artificiellement à une phrase non étiquetée en masquant certains des jetons.
  2. Le modèle tente de prédire les jetons d'origine.

requête directe

#language
#IAgénérative

Synonyme de requête zero-shot.

E

modifier la distance

#language

Mesure de la similitude entre deux chaînes de texte. En machine learning, la modification de la distance est utile, car elle est simple et facile à calculer. C'est également un moyen efficace de comparer deux chaînes connues pour être similaires ou de trouver des chaînes semblables à une chaîne donnée.

Il existe plusieurs définitions de la distance de modification, chacune utilisant des opérations de chaîne différentes. Par exemple, la distance de Levenshtein prend en compte le plus petit nombre d'opérations de suppression, d'insertion et de substitution.

Par exemple, la distance de Levenshtein entre les mots "cœur" et "fléchettes" est de 3, car les trois modifications suivantes sont les moins importantes pour transformer un mot en autre:

  1. cœur → chér (remplacez le mot "h" par le "d")
  2. deart → fléch (supprimer la lettre "e")
  3. fléchette → fléchettes (insérer "s")

couche de représentation vectorielle continue

#language
#fundamentals

Une couche cachée spéciale qui s'entraîne sur une caractéristique catégorique de grande dimension pour apprendre progressivement un vecteur de représentation vectorielle continue de dimension inférieure. Une couche d'intégration permet à un réseau de neurones de s'entraîner beaucoup plus efficacement que sur la caractéristique catégorielle à grande dimension.

Par exemple, la Terre abrite actuellement environ 73 000 espèces d'arbres. Supposons que l'espèce d'arbre soit une caractéristique de votre modèle. La couche d'entrée de votre modèle inclut donc un vecteur one-hot d'une longueur de 73 000 éléments. Par exemple, peut-être baobab serait représenté comme ceci:

Tableau de 73 000 éléments. Les 6 232 premiers éléments contiennent la valeur 0. L'élément suivant contient la valeur 1. Les 66 767 derniers éléments contiennent la valeur zéro.

Un tableau de 73 000 éléments est très long. Si vous n'ajoutez pas de couche de représentations vectorielles continues au modèle, l'entraînement prendra beaucoup de temps en raison du multiplication de 72 999 zéros. Peut-être que la couche de représentations vectorielles continues doit être composée de 12 dimensions. Par conséquent, la couche de représentations vectorielles continues apprend progressivement un nouveau vecteur pour chaque espèce d'arbre.

Dans certains cas, le hachage est une alternative raisonnable à une couche de représentations vectorielles continues.

espace de représentation vectorielle continue

#language

L'espace vectoriel à d dimensions auquel les caractéristiques d'un espace vectoriel de plus grande dimension sont mappés. Idéalement, l'espace de représentation vectorielle contient une structure qui produit des résultats mathématiques significatifs. Par exemple, dans un espace de représentation vectorielle idéal, l'addition et la soustraction de représentations vectorielles continues peuvent résoudre des tâches d'analogie de mots.

Le produit scalaire de deux représentations vectorielles continues est une mesure de leur similarité.

vecteur de représentation vectorielle continue

#language

De manière générale, il s'agit d'un tableau de nombres à virgule flottante provenant de n'importe quelle couche cachée décrivant les entrées de cette couche. Souvent, un vecteur de représentation vectorielle continue est le tableau de nombres à virgule flottante entraînés dans une couche de représentations vectorielles continues. Par exemple, supposons qu'une couche de représentations vectorielles continues doive apprendre un vecteur de représentation vectorielle continue pour chacune des 73 000 espèces d'arbres sur Terre. Le tableau suivant est peut-être le vecteur de représentation vectorielle continue d'un baobab:

Tableau de 12 éléments, chacun contenant un nombre à virgule flottante compris entre 0,0 et 1,0.

Un vecteur de représentation vectorielle continue n’est pas un ensemble de nombres aléatoires. Une couche de représentations vectorielles continues détermine ces valeurs via l'entraînement, de la même manière qu'un réseau de neurones apprend d'autres pondérations au cours de l'entraînement. Chaque élément du tableau correspond à une note correspondant à une caractéristique d'une espèce d'arbre. Quel élément représente la caractéristique de quelle espèce d'arbre ? C'est très difficile pour les humains de le déterminer.

La partie mathématiquement remarquable d'un vecteur de représentation vectorielle continue est que les éléments similaires ont des ensembles similaires de nombres à virgule flottante. Par exemple, des espèces d'arbres similaires ont un ensemble plus semblable de nombres à virgule flottante que les différentes espèces d'arbres. Les séquoias et les séquoias sont des espèces d'arbres similaires. Ils possèdent donc un ensemble de nombres à virgule flottante plus proche que celui des séquoias et des cocotiers. Les nombres du vecteur de représentation vectorielle continue changent chaque fois que vous entraînez à nouveau le modèle, même si vous le réentraînez avec une entrée identique.

encodeur

#language

En général, tout système de ML qui convertit une représentation brute, creuse ou externe en une représentation plus traitée, plus dense ou plus interne.

Les encodeurs sont souvent un composant d'un modèle plus grand, où ils sont souvent associés à un décodeur. Certains Transformer associent des encodeurs à des décodeurs, tandis que d'autres n'utilisent que l'encodeur ou uniquement le décodeur.

Certains systèmes utilisent la sortie de l'encodeur comme entrée pour un réseau de classification ou de régression.

Dans les tâches de séquence à séquence, un encodeur prend une séquence d'entrée et renvoie un état interne (un vecteur). Le décodeur utilise ensuite cet état interne pour prédire la séquence suivante.

Reportez-vous à la section Transformer pour obtenir la définition d'un encodeur dans l'architecture Transformer.

F.

requête few-shot

#language
#IAgénérative

Une invite contenant plusieurs (quelques exemples) démontrant la manière dont le grand modèle de langage doit répondre. Par exemple, la longue invite suivante contient deux exemples montrant un grand modèle de langage pour savoir comment répondre à une requête.

Composantes d'une requête Notes
Quelle est la devise officielle du pays spécifié ? Question à laquelle vous voulez que le LLM réponde.
France: EUR Prenons un exemple.
Royaume-Uni: GBP Voici un autre exemple.
Inde: Requête réelle.

La requête few-shot produit généralement plus de résultats que les invites zero-shot et les invites one-shot. Cependant, la requête few-shot nécessite une invite plus longue.

La requête few-shot est une forme d'apprentissage few-shot appliquée à l'apprentissage rapide.

Violon

#language

Bibliothèque de configuration axée sur Python qui définit les valeurs des fonctions et des classes sans code ni infrastructure invasif. Dans le cas de Pax, et d'autres codebases de ML, ces fonctions et classes représentent des modèles et des hyperparamètres d'entraînement.

Fiddle suppose que le codebase de machine learning est généralement divisé en:

  • Code de bibliothèque, qui définit les couches et les optimiseurs.
  • Le code "glue" de l'ensemble de données, qui appelle les bibliothèques et relie tout ensemble.

Fiddle capture la structure d'appel du code Glue sous une forme non évaluée et modifiable.

réglage

#language
#image
#IAgénérative

Une deuxième carte d'entraînement spécifique à une tâche effectuée sur un modèle pré-entraîné afin d'affiner ses paramètres pour un cas d'utilisation spécifique. Par exemple, la séquence d'entraînement complète pour certains grands modèles de langage se présente comme suit:

  1. Pré-entraînement:entraînez un grand modèle de langage sur un vaste ensemble de données général, tel que toutes les pages Wikipédia en anglais.
  2. Ajustement:entraînez le modèle pré-entraîné à effectuer une tâche spécifique, comme répondre à des requêtes médicales. L'affinage implique généralement des centaines ou des milliers d'exemples axés sur la tâche spécifique.

Dans cet autre exemple, la séquence d'entraînement complète d'un grand modèle d'images se présente comme suit:

  1. Pré-entraînement:entraînez un grand modèle d'images sur un vaste ensemble de données d'images générales, comme toutes les images de Wikimedia commons.
  2. Ajustement:entraînez le modèle pré-entraîné à effectuer une tâche spécifique, telle que la génération d'images d'orques.

Pour l'affiner, vous pouvez combiner les stratégies suivantes:

  • Modifier tous les paramètres existants du modèle pré-entraîné Ce processus est parfois appelé ajustement complet.
  • Modifier uniquement certains des paramètres existants du modèle pré-entraîné (généralement, les couches les plus proches de la couche de sortie), tout en conservant les autres paramètres existants inchangés (en général, les couches les plus proches de la couche d'entrée). Découvrez comment optimiser l'efficacité des paramètres.
  • L'ajout de couches, généralement au-dessus des couches existantes les plus proches de la couche de sortie

L'affinage est une forme d'apprentissage par transfert. Par conséquent, l'affinage peut utiliser une fonction de perte ou un type de modèle différent de ceux utilisés pour entraîner le modèle pré-entraîné. Par exemple, vous pouvez affiner un grand modèle d'images pré-entraîné pour produire un modèle de régression qui renvoie le nombre d'oiseaux dans une image d'entrée.

Comparez et contrastez avec les termes suivants lors des réglages:

Lin

#language

Bibliothèque Open Source hautes performances basée sur JAX, conçue pour le deep learning. Flax fournit des fonctions pour l'entraînement des réseaux de neurones, ainsi que des méthodes d'évaluation de leurs performances.

Flaxformer

#language

Bibliothèque Open Source Transformer, basée sur Flax et conçue principalement pour le traitement du langage naturel et la recherche multimodale.

G

IA générative

#language
#image
#IAgénérative

Domaine émergent sans définition formelle Cela dit, la plupart des experts s'accordent à dire que les modèles d'IA générative peuvent créer ("générer") des contenus présentant tous les éléments suivants:

  • complexe
  • cohérentes
  • originale

Par exemple, un modèle d'IA générative peut créer des images ou des essais sophistiqués.

Certaines technologies antérieures, telles que les LSTM et les RNN, peuvent également générer du contenu original et cohérent. Certains experts considèrent ces technologies précédentes comme une IA générative, tandis que d'autres estiment que la véritable IA générative nécessite des résultats plus complexes que ceux que ces technologies plus anciennes peuvent produire.

À comparer au ML prédictif.

GPT (transformateur génératif pré-entraîné)

#language

Famille de grands modèles de langage basés sur Transformer et développé par OpenAI.

Les variantes GPT peuvent s'appliquer à plusieurs modalités, y compris les suivantes:

  • Génération d'images (ImageGPT, par exemple)
  • génération de texte en image (par exemple, DALL-E).

H

hallucinations

#language

Production de résultats qui semblent plausibles, mais factuels, par un modèle d'IA générative qui prétend faire une assertion du monde réel. Par exemple, un modèle d'IA générative qui prétend que Barack Obama est mort en 1865 est hallucinant.

I

apprentissage en contexte

#language
#IAgénérative

Synonyme de requête few-shot.

L

LaMDA (Language Model for Dialogue Applications)

#language

Grand modèle de langage basé sur Transformer et développé par Google, entraîné sur un vaste ensemble de données de dialogue pouvant générer des réponses conversationnelles réalistes.

LaMDA, notre technologie conversationnelle révolutionnaire, vous offre un aperçu.

modèle de langage

#language

model qui estime la probabilité qu'un model ou une séquence de jetons se produise dans une séquence plus longue de jetons.

grand modèle de langage

#language

Terme informel sans définition stricte, qui désigne généralement un modèle de langage comportant un grand nombre de paramètres. Certains grands modèles de langage contiennent plus de 100 milliards de paramètres.

M

modèle de langage masqué

#language

Un modèle de langage qui prédit la probabilité que des jetons candidats remplissent les conditions d'une séquence. Par exemple, un modèle de langage masqué peut calculer les probabilités qu'un ou plusieurs mots candidats remplacent le soulignement de la phrase suivante:

Le/La ____ dans le chapeau est revenu.

Dans les publications, les articles utilisent généralement la chaîne "MASK" au lieu d'un trait de soulignement. Exemple :

Le "MASK" dans le chapeau est revenu.

La plupart des modèles de langage masqué modernes sont bidirectionnels.

méta-apprentissage

#language

Sous-ensemble du machine learning qui découvre ou améliore un algorithme d'apprentissage. Un système de méta-apprentissage peut également avoir pour objectif d'entraîner un modèle afin qu'il apprenne rapidement une nouvelle tâche à partir d'une petite quantité de données ou de l'expérience acquise lors de tâches précédentes. Les algorithmes de méta-apprentissage essaient généralement d'atteindre les objectifs suivants:

  • Améliorer/apprendre des fonctionnalités conçues manuellement (telles qu'un initialiseur ou un optimiseur)
  • Optimiser l'efficacité des données et du calcul
  • Améliorez la généralisation.

Le méta-apprentissage est lié à l'apprentissage few-shot.

modality

#language

Catégorie de données de haut niveau. Par exemple, les nombres, le texte, les images, la vidéo et l'audio sont cinq modalités différentes.

parallélisme du modèle

#language

Moyen de faire évoluer l'entraînement ou l'inférence qui place différentes parties d'un model sur différents model. Le parallélisme des modèles permet d'utiliser des modèles trop volumineux pour tenir sur un seul appareil.

Pour implémenter le parallélisme des modèles, un système effectue généralement les opérations suivantes:

  1. Divise le modèle en sections plus petites.
  2. Répartit l'entraînement de ces petites parties sur plusieurs processeurs. Chaque processeur entraîne sa propre partie du modèle.
  3. Il combine les résultats pour créer un modèle unique.

Le parallélisme des modèles ralentit l'entraînement.

Voir aussi Parallélisme des données.

auto-attention multi-têtes

#language

Extension de l'auto-attention qui applique le mécanisme d'auto-attention plusieurs fois pour chaque position de la séquence d'entrée.

Transformers a introduit l'auto-attention multi-têtes.

modèle multimodal

#language

Modèle dont les entrées et/ou les sorties incluent plusieurs modalités. Prenons l'exemple d'un modèle qui utilise à la fois une image et une légende de texte (deux modalités) comme caractéristiques, et génère un score indiquant si la légende est appropriée pour l'image. Les entrées de ce modèle sont multimodales et la sortie unimodale.

N

compréhension du langage naturel

#language

Déterminer les intentions d'un utilisateur en fonction de ce qu'il a saisi ou énoncé. Par exemple, un moteur de recherche utilise la compréhension du langage naturel pour déterminer ce que l'utilisateur recherche en fonction de ce qu'il a saisi ou dit.

N-gramme

#seq
#language

Séquence ordonnée de N mots. Par exemple, vraiment follement est un 2-grammes. L'ordre a une importance : follement vraiment est un 2-grammes différent de vraiment follement.

N Nom(s) de ce type de N-gramme Exemples
2 bigramme ou 2-gramme à aller, aller à, déjeuner, dîner
3 trigramme ou 3-gramme pas trop mangé, trois souris aveugles, ça sonne
4 4 grammes marche dans un parc, poussière dans le vent, le garçon a mangé des lentilles

De nombreux modèles de compréhension du langage naturel s'appuient sur les N-grammes pour prédire le prochain mot que l'utilisateur saisira ou énoncera. Prenons l'exemple d'un utilisateur qui saisit three blind. Un modèle NLU basé sur des trigrammes prédira probablement que l'utilisateur saisira ensuite mice.

Faire la différence entre les N-grammes et les sacs de mots, qui sont des ensembles de mots non ordonnés.

NLU (Natural Language Understanding, compréhension du langage naturel) - 1st occurrence only, then use "NLU".

#language

Abréviation de compréhension du langage naturel.

O

requête one-shot

#language
#IAgénérative

Une invite contenant un exemple illustrant la réponse du grand modèle de langage. L'invite suivante contient un exemple montrant comment répondre à une requête à un grand modèle de langage.

Composantes d'une requête Notes
Quelle est la devise officielle du pays spécifié ? Question à laquelle vous voulez que le LLM réponde.
France: EUR Prenons un exemple.
Inde: Requête réelle.

Comparez et opposez les invites one-shot aux termes suivants:

P

optimisation avec optimisation des paramètres

#language
#IAgénérative

Ensemble de techniques permettant d'affiner un grand modèle de langage pré-entraîné (PLM) plus efficacement que l'affinage complet. L'optimisation avec efficacité des paramètres affine généralement beaucoup moins de paramètres qu'un ajustement complet, mais produit généralement un grand modèle de langage qui fonctionne aussi bien (ou presque aussi) qu'un grand modèle de langage créé à partir d'un ajustement complet.

Comparer et différencier les réglages efficaces avec les paramètres suivants:

Le réglage avec efficacité des paramètres est également connu sous le nom d'optimisation avec efficacité des paramètres.

pipeline

#language

Forme de parallélisme de modèle dans laquelle le traitement d'un modèle est divisé en étapes consécutives, et chaque étape est exécutée sur un appareil différent. Lorsqu'une étape traite un lot, l'étape précédente peut fonctionner sur le lot suivant.

Consultez également la section sur l'entraînement par étapes.

PLM

#language
#IAgénérative

Abréviation de modèle de langage pré-entraîné.

encodage positionnel

#language

Technique permettant d'ajouter des informations sur la position d'un jeton dans une séquence par rapport à sa représentation vectorielle continue. Les modèles Transformer utilisent l'encodage positionnel pour mieux comprendre la relation entre différentes parties d'une séquence.

Une implémentation courante de l'encodage positionnel repose sur une fonction sinusoïdale. Plus précisément, la fréquence et l'amplitude de la fonction sinusoïdale sont déterminées par la position du jeton dans la séquence. Cette technique permet à un modèle Transformer d'apprendre à surveiller différentes parties de la séquence en fonction de leur position.

modèle pré-entraîné

#language
#image
#IAgénérative

Modèles ou composants de modèle (tels qu'un vecteur de représentation vectorielle continue) qui ont déjà été entraînés. Parfois, vous introduisez des vecteurs de représentation vectorielle continue pré-entraînés dans un réseau de neurones. D'autres fois, votre modèle entraîne les vecteurs de représentation vectorielle continue lui-même au lieu de s'appuyer sur les représentations vectorielles continues pré-entraînées.

Le terme modèle de langage pré-entraîné fait référence à un grand modèle de langage qui a fait l'objet d'un pré-entraînement.

pré-entraînement

#language
#image
#IAgénérative

Entraînement initial d'un modèle sur un ensemble de données volumineux. Certains modèles pré-entraînés sont des géants maladroites et doivent généralement être affinés par le biais d'un entraînement supplémentaire. Par exemple, les experts en ML peuvent pré-entraîner un grand modèle de langage sur un vaste ensemble de données textuelles, comme toutes les pages en anglais de Wikipédia. Après le pré-entraînement, le modèle résultant peut être affiné davantage grâce à l'une des techniques suivantes:

invite

#language
#IAgénérative

Tout texte saisi en tant qu'entrée d'un grand modèle de langage pour conditionner le modèle afin qu'il se comporte d'une certaine manière. Les invites peuvent être aussi courtes qu'une expression ou arbitrairement longues (par exemple, l'intégralité du texte d'un roman). Les invites appartiennent à plusieurs catégories, y compris celles présentées dans le tableau suivant:

Catégorie d'invite Exemple Notes
Question À quelle vitesse un pigeon peut-il voler ?
Enseignement Écrivez un poème amusant sur les sites à contenu exclusivement publicitaire. Une requête demandant au grand modèle de langage d'effectuer une action
Exemple Traduire le code Markdown en HTML. Par exemple :
Markdown: * élément de liste
HTML: <ul> <li>élément de liste</li> </ul>
La première phrase de cet exemple de requête est une instruction. Le reste de l'invite est l'exemple.
Rôle Expliquez pourquoi la descente de gradient est utilisée pour entraîner le machine learning vers un doctorat en physique. La première partie de la phrase est une instruction. L'expression "accéder à un doctorat en physique" correspond à la partie du rôle.
Entrée partielle pour l'exécution du modèle Le Premier ministre du Royaume-Uni vit à Une invite d'entrée partielle peut se terminer brusquement (comme dans cet exemple) ou se terminer par un trait de soulignement.

Un modèle d'IA générative peut répondre à une requête avec du texte, du code, des images, des représentations vectorielles continues, des vidéos, etc.

apprentissage rapide

#language
#IAgénérative

Capacité de certains modèles qui leur permet d'adapter leur comportement en réponse à une entrée de texte arbitraire (invites). Dans un paradigme d'apprentissage classique basé sur des invites, un grand modèle de langage répond à une requête en générant du texte. Par exemple, supposons qu'un utilisateur entre l'invite suivante:

Résumons la troisième loi du mouvement de Newton.

Un modèle capable d'apprendre par requête n'est pas spécifiquement entraîné pour répondre à l'invite précédente. Au lieu de cela, le modèle "connaît" de nombreux faits en physique, beaucoup de choses sur les règles générales du langage et beaucoup de choses sur ce qui constitue des réponses généralement utiles. Ces connaissances sont suffisantes pour fournir (nous espérons) une réponse utile. Des commentaires humains supplémentaires ("Cette réponse était trop compliquée" ou "Qu'est-ce qu'une réaction ?") permettent à certains systèmes d'apprentissage basés sur des requêtes d'améliorer progressivement l'utilité de leurs réponses.

conception de requête

#language
#IAgénérative

Synonyme d'ingénierie des invites.

ingénierie des requêtes

#language
#IAgénérative

Création d'invites qui génèrent les réponses souhaitées d'un grand modèle de langage. Les humains effectuent l'ingénierie des requêtes. L'écriture de requêtes bien structurées est essentielle pour garantir des réponses utiles à partir d'un grand modèle de langage. L'ingénierie des invites dépend de nombreux facteurs, y compris:

  • Ensemble de données utilisé pour pré-entraîner et éventuellement affiner le grand modèle de langage.
  • température et autres paramètres de décodage utilisés par le modèle pour générer des réponses.

Pour en savoir plus sur la rédaction de requêtes utiles, consultez la page Présentation de la conception des requêtes.

La conception de requêtes est un synonyme de l'ingénierie des requêtes.

réglage des invites

#language
#IAgénérative

Un mécanisme de réglage efficace des paramètres qui apprend un "préfixe" que le système ajoute à l'invite réelle

Une variante du réglage des invites, parfois appelée réglage des préfixes, consiste à ajouter le préfixe à chaque couche. En revanche, la plupart des réglages des invites n'ajoutent qu'un préfixe à la couche d'entrée.

R

invite de rôle

#language
#IAgénérative

Partie facultative d'une invite qui identifie une audience cible pour la réponse d'un modèle d'IA générative. Sans invite de rôle, un grand modèle de langage fournit une réponse qui peut ou non être utile pour la personne qui pose les questions. Avec une invite de rôle, un grand modèle de langage peut répondre d'une manière plus appropriée et plus utile pour une audience cible spécifique. Par exemple, la partie d'invite de rôle des invites suivantes est en gras:

  • Résumez cet article pour un doctorat en économie.
  • Décrire le fonctionnement des marées pour un enfant de dix ans.
  • Expliquer la crise financière de 2008 Parlez comme vous le feriez avec un jeune enfant ou un golden retriever.

S

auto-attention (également appelée couche d'auto-attention)

#language

Couche de réseau de neurones qui transforme une séquence de représentations vectorielles continues (par exemple, des représentations vectorielles continues token) en une autre séquence de représentations vectorielles continues. Chaque représentation vectorielle continue de la séquence de sortie est construite en intégrant les informations des éléments de la séquence d'entrée via un mécanisme d'attention.

La partie self de l'auto-attention fait référence à la séquence qui s'y prête plutôt qu'à un autre contexte. L'auto-attention est l'un des principaux éléments de base des modèles Transformer. Elle utilise la terminologie de recherche dans le dictionnaire, telle que "requête", "clé" et "valeur".

Une couche d'auto-attention commence par une séquence de représentations d'entrée, une pour chaque mot. La représentation d'entrée d'un mot peut être une simple représentation vectorielle continue. Pour chaque mot d'une séquence d'entrée, le réseau attribue un score à sa pertinence par rapport à chaque élément de la séquence de mots complète. Les scores de pertinence déterminent dans quelle mesure la représentation finale du mot intègre les représentations d'autres mots.

Prenons l'exemple de la phrase suivante:

L'animal n'a pas traversé la rue parce qu'il était trop fatigué.

L'illustration suivante (extraite du livre Transformer: A Novel Neural Network Architecture for Language Understanding) montre le modèle d'attention d'une couche d'auto-attention pour le pronom it. L'obscurité de chaque ligne indique dans quelle mesure chaque mot contribue à la représentation:

La phrase suivante apparaît deux fois: &quot;L&#39;animal n&#39;a pas traversé la rue, car il était trop fatigué.&quot;  Des lignes relient le mot &quot;it&quot; en une phrase à cinq jetons (&quot;The&quot;, &quot;animal&quot;, &quot;street&quot;, &quot;it&quot; et le point) dans l&#39;autre phrase.  La différence entre &quot;it&quot; et &quot;animal&quot; est la plus forte.

La couche d'auto-attention met en évidence les mots pertinents par rapport à "elle". Dans ce cas, la couche d'attention a appris à mettre en évidence les mots auxquels elle pourrait faire référence, attribuant le poids le plus élevé à animal.

Pour une séquence de n jetons, l'auto-attention transforme une séquence de représentations vectorielles continues n fois distinctes, une fois à chaque position de la séquence.

Reportez-vous également aux sections Attention et Auto-attention.

analyse des sentiments

#language

Utilisation d'algorithmes statistiques ou de machine learning pour déterminer l'attitude globale d'un groupe (positive ou négative) envers un service, un produit, une organisation ou un sujet. Par exemple, en utilisant la compréhension du langage naturel, un algorithme peut effectuer une analyse des sentiments sur les commentaires textuels d'un cours universitaire afin de déterminer le degré d'appréciation des étudiants.

tâche "seq2seq"

#language

Tâche qui convertit une séquence d'entrée de jetons en une séquence de jetons de sortie. Par exemple, deux types populaires de tâches séquence à séquence sont les suivants:

  • Traducteurs :
    • Exemple de séquence d'entrée: "I like you" (Je t'aime).
    • Exemple de séquence de sortie: "Je t'aime."
  • Réponse à des questions :
    • Exemple de séquence d'entrée: "Ai-je besoin de ma voiture à New York ?"
    • Exemple de séquence de sortie: "Non. Veuillez garder votre voiture à la maison."

caractéristique creuse

#language
#fundamentals

Caractéristique dont les valeurs sont pour la plupart nulles ou vides. Par exemple, une caractéristique contenant une seule valeur 1 et un million de valeurs 0 est faible. En revanche, une caractéristique dense comporte des valeurs qui ne sont généralement pas nulles ou vides.

En machine learning, un nombre surprenant de caractéristiques creuses. Les caractéristiques catégorielles sont généralement des caractéristiques creuses. Par exemple, sur les 300 espèces d'arbres possibles d'une forêt, un seul exemple peut n'identifier qu'un érable. Ou, parmi les millions de vidéos possibles d'une bibliothèque, un seul exemple peut désigner "Casablanca".

Dans un modèle, vous représentez généralement des caractéristiques creuses avec l'encodage one-hot. Si l'encodage one-hot est volumineux, vous pouvez superposer une couche de représentations vectorielles continues pour plus d'efficacité.

représentation creuse

#language
#fundamentals

Ne stocker que la position des éléments non nuls dans une caractéristique creuse.

Par exemple, supposons qu'une caractéristique catégorielle nommée species identifie les 36 espèces d'arbres d'une forêt particulière. Supposons également que chaque exemple n'identifie qu'une seule espèce.

Vous pouvez utiliser un vecteur one-hot pour représenter les espèces d'arbres dans chaque exemple. Un vecteur one-hot contiendrait une seule valeur 1 (pour représenter une espèce d'arbre spécifique dans cet exemple) et 35 0s (pour représenter les 35 espèces d'arbres qui n'existent pas dans cet exemple). Ainsi, la représentation one-hot de maple peut se présenter comme suit:

Vecteur dans lequel les positions 0 à 23 contiennent la valeur 0, la position 24 contient la valeur 1 et les positions 25 à 35 contiennent la valeur 0.

Sinon, la représentation creuse permet simplement d'identifier la position de l'espèce concernée. Si maple est à la position 24, la représentation creuse de maple est simplement:

24

Notez que la représentation creuse est beaucoup plus compacte que la représentation one-hot.

entraînement par étapes

#language

Stratégie d'entraînement d'un modèle dans une séquence d'étapes distinctes. L'objectif peut être d'accélérer le processus d'entraînement ou d'obtenir une meilleure qualité du modèle.

Voici une illustration de l'approche d'empilement progressif:

  • L'étape 1 contient trois couches cachées, l'étape 2 en contient six et l'étape 3 en contient 12.
  • La phase 2 commence l'entraînement avec les pondérations apprises dans les trois couches cachées de l'étape 1. L'étape 3 commence l'entraînement avec les pondérations apprises dans les six couches cachées de l'étape 2.

Trois étapes, qui sont appelées &quot;Étape 1&quot;, &quot;Étape 2&quot; et &quot;Étape 3&quot;.
          Chaque étape contient un nombre différent de calques: l&#39;étape 1 en contient trois, l&#39;étape 2 en contient six et l&#39;étape 3 en comporte 12.
          Les trois couches de l&#39;étape 1 deviennent les trois premières couches de l&#39;étape 2.
          De même, les six couches de l&#39;étape 2 deviennent les six premières couches de l&#39;étape 3.

Consultez également la section Pipelines.

T

T5

#language

Un modèle d'apprentissage par transfert texte-vers-texte introduit par Google AI en 2020. T5 est un modèle encodeur/décodeur, basé sur l'architecture Transformer, entraîné sur un ensemble de données extrêmement volumineux. Il est efficace pour diverses tâches de traitement du langage naturel, telles que la génération de texte, la traduction de langues et la réponse aux questions de manière conversationnelle.

Le T5 tire son nom des cinq T de « Transformer de transfert de texte en texte ».

T5X

#language

Framework de machine learning Open Source conçu pour créer et entraîner des modèles de traitement du langage naturel (TLN) à grande échelle. T5 est implémenté sur le codebase T5X (basé sur JAX et Flax).

température

#language
#image
#IAgénérative

Hyperparamètre qui contrôle le degré de hasard de la sortie d'un modèle. Des températures plus élevées génèrent une sortie plus aléatoire, tandis qu'une température plus basse produit moins de résultats aléatoires.

Le choix de la température optimale dépend de l'application spécifique et des propriétés souhaitées de la sortie du modèle. Par exemple, vous augmenterez probablement la température lorsque vous créerez une application qui générera des créations. À l'inverse, il est probable que la température baisse lors de la création d'un modèle qui classe des images ou du texte afin d'améliorer la précision et la cohérence du modèle.

La température est souvent utilisée avec softmax.

segment de texte

#language

Délai d'index du tableau associé à une sous-section spécifique d'une chaîne de texte. Par exemple, le mot good dans la chaîne Python s="Be good now" occupe l'intervalle de texte de 3 à 6.

jeton

#language

Dans un modèle de langage, il s'agit de l'unité atomique avec laquelle le modèle s'entraîne et effectue des prédictions. Un jeton est généralement l'un des éléments suivants:

  • Un mot (par exemple, l'expression "chiens comme les chats" se compose de trois jetons de mot: "chiens", "j'aime" et "chats").
  • Un caractère (par exemple, l'expression "poisson à vélo" se compose de neuf jetons de caractères). (Notez que l'espace vide compte comme l'un des jetons.)
  • sous-mots, dans lesquels un seul mot peut être un ou plusieurs jetons. Un sous-mot se compose d'un mot racine, d'un préfixe ou d'un suffixe. Par exemple, un modèle de langage utilisant des sous-mots comme jetons peut considérer le mot "chiens" comme deux jetons (le mot racine "chien" et le suffixe pluriel "s"). Ce même modèle de langage peut considérer le seul mot "grand" comme deux sous-mots (le mot racine "tall" et le suffixe "er").

Dans les domaines en dehors des modèles de langage, les jetons peuvent représenter d'autres types d'unités atomiques. Par exemple, en vision par ordinateur, un jeton peut être un sous-ensemble d'une image.

Transformer

#language

Architecture de réseau de neurones développée par Google et s'appuie sur des mécanismes d'auto-attention pour transformer une séquence de représentations vectorielles continues d'entrée en une séquence de représentations vectorielles continues de sortie sans dépendre de convolutions ou de réseaux de neurones récurrents. Un Transformer peut être considéré comme une pile de couches d'auto-attention.

Un transformateur peut inclure l'un des éléments suivants:

Un encodeur transforme une séquence de représentations vectorielles continues en une nouvelle séquence de même longueur. Un encodeur inclut N couches identiques, chacune contenant deux sous-couches. Ces deux sous-couches sont appliquées à chaque position de la séquence de représentations vectorielles continues d'entrée, transformant chaque élément de la séquence en une nouvelle représentation vectorielle continue. La première sous-couche d'encodeur regroupe les informations de la séquence d'entrée. La deuxième sous-couche de l'encodeur transforme les informations agrégées en une représentation vectorielle continue de la sortie.

Un décodeur transforme une séquence de représentations vectorielles continues d'entrée en une séquence de représentations vectorielles continues de sortie, éventuellement d'une longueur différente. Un décodeur comprend également N couches identiques avec trois sous-couches, dont deux sont similaires aux sous-couches de l'encodeur. La troisième sous-couche de décodeur prend la sortie de l'encodeur et applique le mécanisme d'auto-attention pour collecter des informations à partir de celle-ci.

L'article de blog Transformer: A Novel Neural Network Architecture for Language Understanding (Transformer : architecture de réseau de neurones pour la compréhension du langage) offre une bonne introduction à Transformer.

trigramme

#seq
#language

Un N-gramme dans lequel N=3.

U

unidirectionnel

#language

Système qui évalue uniquement le texte qui précédent une section de texte cible. En revanche, un système bidirectionnel évalue à la fois le texte qui précédent et suit une section de texte cible. Pour en savoir plus, consultez la section bidirectionnelle.

modèle de langage unidirectionnel

#language

Un modèle de langage qui base ses probabilités uniquement sur les jetons qui apparaissent avant, et non après le ou les jetons cibles. À comparer au modèle de langage bidirectionnel.

V

Auto-encodeur variationnel (VAE)

#language

Type d'auto-encodeur qui exploite l'écart entre les entrées et les sorties pour générer des versions modifiées des entrées. Les auto-encodeurs variationnels sont utiles pour l'IA générative.

Elles sont basées sur l'inférence variationnelle, une technique d'estimation des paramètres d'un modèle de probabilité.

 W

représentation vectorielle continue de mots

#language

Représentation de chaque mot d'un ensemble de mots dans un vecteur de représentation vectorielle continue, c'est-à-dire représenter chaque mot comme un vecteur de valeurs à virgule flottante comprises entre 0,0 et 1,0. Les mots ayant une signification similaire ont des représentations plus proches que les mots ayant des significations différentes. Par exemple, carottes, céleri et concombres auraient tous des représentations relativement similaires, qui seraient très différentes des représentations d'avion, de lunettes de soleil et de dentifrice.

Z

requête zero-shot

#language
#IAgénérative

Une invite qui ne fournit pas d'exemple de la manière dont vous souhaitez que le grand modèle de langage réponde. Exemple :

Composantes d'une requête Notes
Quelle est la devise officielle du pays spécifié ? Question à laquelle vous voulez que le LLM réponde.
Inde: Requête réelle.

Le grand modèle de langage peut répondre par l'un des éléments suivants:

  • Roupie
  • INR
  • Roupie indienne
  • La roupie
  • Roupie indienne

Toutes les réponses sont correctes, mais vous préférerez peut-être un format particulier.

Comparez et opposez les invites zero-shot avec les termes suivants: