Cette page contient des termes du glossaire de l'évaluation linguistique. Pour tous les termes du glossaire, cliquez ici.
A
"Attention",
Mécanisme utilisé dans un réseau de neurones qui indique l'importance d'un mot ou d'une partie d'un mot. L'attention se compresse la quantité d'informations dont un modèle a besoin pour prédire le jeton ou le mot suivant. Un mécanisme d'attention typique peut consister en un somme pondérée sur un ensemble d'entrées, où les La pondération de chaque entrée est calculée par une autre partie de la du réseau de neurones.
Reportez-vous également à auto-attention et l'auto-attention multi-tête, qui sont les les éléments de base des modèles Transformer.
auto-encodeur
Un système qui apprend à extraire les informations les plus importantes du saisie. Les auto-encodeurs sont la combinaison d'un encodeur et décodeur. Les auto-encodeurs s'appuient sur le processus en deux étapes suivant:
- L'encodeur mappe l'entrée à une dimension inférieure avec pertes (généralement) (intermédiaire).
- Le décodeur crée une version avec pertes de l'entrée d'origine en mappant le format de dimensions inférieures au format de dimensions supérieures d'origine format d'entrée.
Les auto-encodeurs sont entraînés de bout en bout, car le décodeur tente reconstruire l'entrée d'origine à partir du format intermédiaire de l'encodeur aussi près que possible. Comme le format intermédiaire est plus petit, (dimensions inférieures) par rapport au format d'origine, l'auto-encodeur est forcé pour savoir quelles informations de l'entrée sont essentielles, doit être parfaitement identique à l'entrée.
Exemple :
- Si les données d'entrée sont des graphiques, la copie non exacte sera semblable à l'image originale, mais légèrement modifiée. Il se peut que la copie non exacte élimine le bruit de l'image d'origine ou remplit il manque des pixels.
- Si les données d'entrée sont du texte, un auto-encodeur génère un nouveau texte imite (mais n'est pas identique) le texte d'origine.
Voir aussi la section Auto-encodeurs variables.
modèle autorégressif
Un modèle qui déduit une prédiction à partir de ses propres prédictions des prédictions. Par exemple, les modèles de langage autorégressifs prédisent jeton basé sur les jetons précédemment prédits. Tous les modèles basés sur Transformer Les grands modèles de langage sont autorégressifs.
En revanche, les modèles d'images basés sur GAN ne sont généralement pas autorégressifs. car ils génèrent une image en un seul passage avant et non de manière itérative dans étapes. Cependant, certains modèles de génération d'images sont autorégressifs, car ils génèrent une image par étapes.
B
sac de mots
Représentation des mots d'une phrase ou d'un passage, quel que soit l'ordre. Par exemple, un sac de mots représente trois expressions de manière identique:
- le chien saute
- saute le chien
- le chien saute le
Chaque mot est mappé à un index dans un vecteur creux, où le vecteur a un index pour chaque mot du vocabulaire. Par exemple : l'expression le chien saute est mappée dans un vecteur de caractéristiques dont la valeur est différente de zéro. les valeurs des trois index correspondant aux mots the, dog et sauts. La valeur non nulle peut être l'une des suivantes:
- Un 1 pour indiquer la présence d'un mot.
- Nombre d'occurrences d'un mot dans le sac. Par exemple : si l'expression est le chien marron est un chien à la fourrure marron, alors les deux maroon et chien sont représentés par le chiffre 2, tandis que les autres mots correspondent représenté par 1.
- Une autre valeur, comme le logarithme du nombre de fois qu’un mot apparaît dans le sac.
BERT (Bidirectional Encoder) Représentations de transformateurs)
Architecture de modèle pour la représentation de texte. Un technicien BERT peut s'intégrer à un modèle plus vaste de classification de texte d'autres tâches de ML.
BERT présente les caractéristiques suivantes:
- Utilise l'architecture Transformer et s'appuie donc sur l'auto-attention.
- Utilise la partie encodeur de la structure "Transformer". La tâche de l'encodeur est de créer de bonnes représentations de texte, plutôt que d'effectuer une une tâche comme la classification.
- est bidirectionnel ;
- Utilise le masquage pour l'entraînement non supervisé.
Voici quelques variantes de BERT:
(voir l'article Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language) Traitement en cours pour découvrir une présentation de BERT.
bidirectionnelle
Terme utilisé pour décrire un système qui évalue le texte qui précéde à la fois. et suit une section de texte cible. En revanche, système unidirectionnel uniquement évalue le texte qui précède une section de texte cible.
Prenons l'exemple d'un modèle de langage masqué qui doit déterminer les probabilités pour le ou les mots représentant le soulignement dans la question suivante:
Qu'est-ce que _____ avec vous ?
Un modèle de langage unidirectionnel ne doit baser ses probabilités sur le contexte fourni par les mots "Quoi", "est" et "le". En revanche, un modèle de langage bidirectionnel peut aussi obtenir du contexte en partant du principe et "vous", ce qui peut aider le modèle à générer de meilleures prédictions.
modèle de langage bidirectionnel
Un modèle de langage qui détermine la probabilité qu'une un jeton donné est présent à un emplacement donné dans un extrait de texte basé sur le texte précédent et le texte suivant.
bigramme
Un N-gramme dans lequel N=2.
BLEU (Bilingual Evaluation Understudy)
Un score compris entre 0.0 et 1.0, inclus, indiquant la qualité d'une traduction entre deux langues (par exemple, entre l'anglais et le russe). UN BLEU un score de 1,0 indique une traduction parfaite. un score BLEU de 0,0 indique mauvaise traduction.
C
modèle de langage causal
Synonyme de modèle de langage unidirectionnel.
Consultez la section Modèle de langage bidirectionnel pour les différentes approches directionnelles en modélisation du langage.
requêtes en chaîne de pensée
Technique d'ingénierie des requêtes qui encourage un grand modèle de langage (LLM) pour expliquer le raisonnement, étape par étape. Prenons l'exemple de l'invite suivante : une attention particulière à la deuxième phrase:
Combien de forces g un conducteur vivrait-il dans une voiture sur une échelle de 0 à 60 ? de miles par heure en 7 secondes ? Dans la réponse, montrez tous les calculs pertinents.
Il est probable que la réponse du LLM:
- Montrer une séquence de formules physiques en utilisant les valeurs 0, 60 et 7 aux endroits appropriés.
- Expliquez pourquoi il a choisi ces formules et ce que signifient les différentes variables.
Les requêtes de chaîne de pensée obligent le LLM à effectuer tous les calculs, ce qui pourrait mener à une réponse plus correcte. De plus, la chaîne de pensée permet à l'utilisateur d'examiner les étapes du LLM pour déterminer la réponse a du sens.
chat
Le contenu d'un dialogue avec un système de ML, généralement grand modèle de langage. L'interaction précédente dans un chat (ce que vous avez saisi et comment le grand modèle de langage a répondu) devient le le contexte pour les parties suivantes du chat.
Un chatbot est une application d'un grand modèle de langage.
discussion
Synonyme d'hallucination.
Confabulation est probablement un terme plus précis d'un point de vue technique que l'hallucination. Cependant, l'hallucination est devenue populaire en premier.
analyse des circonscriptions
Diviser une phrase en structures grammaticales plus petites ("composants"). Une autre partie du système de ML, de compréhension du langage naturel, peut analyser les éléments constitutifs plus facilement que la phrase d'origine. Par exemple : considérez la phrase suivante:
Mon ami a adopté deux chats.
L'analyseur de circonscription peut diviser cette phrase comme suit : deux composants:
- Mon ami est un syntagme nominal.
- adopted two cats est un syntagme verbal.
Ces composants peuvent être subdivisés en composants plus petits. Par exemple, l'expression verbale
a adopté deux chats
peut être subdivisé en:
- adopted est un verbe.
- deux chats est un autre syntagme nominal.
représentation vectorielle continue du langage contextualisé
Intégration proche de la "compréhension" mots et des expressions à la manière des locuteurs natifs. Langage contextualisé les représentations vectorielles continues peuvent comprendre une syntaxe, une sémantique et un contexte complexes.
Prenons l'exemple de représentations vectorielles continues du mot anglais cow. Anciennes représentations vectorielles continues (word2vec, par exemple) peut représenter l'anglais mots de telle sorte que la distance dans l'espace de représentation vectorielle continue de vache à bull est similaire à la distance entre ewe (mouton) et bélier (mouton) ou femelle à mâle. Langage contextualisé les représentations vectorielles continues peuvent aller plus loin en reconnaissant que les anglophones utilisent accidentellement le mot vache pour désigner la vache ou le mâle.
fenêtre de contexte
Nombre de jetons qu'un modèle peut traiter dans une requête. Plus la fenêtre de contexte est grande, plus que le modèle peut utiliser pour fournir des réponses cohérentes à la requête.
pépinière d'accident
Phrase ou expression au sens ambigu. Les pétales en fleur posent un problème important dans la naturelle à la compréhension du langage. Par exemple, le titre Robe rouge qui tient un skyscraper est un car un modèle NLU pouvait interpréter le titre littéralement au sens figuré.
D
décodeur
En général, tout système de ML qui convertit une base de données une représentation interne en une représentation plus brute, dispersée ou externe.
Les décodeurs sont souvent des composants d'un modèle plus vaste, associé à un encodeur.
Dans les tâches séquence à séquence, un décodeur commence par l'état interne généré par l'encodeur pour prédire séquence.
Reportez-vous à la section Transformer pour connaître la définition d'un décodeur dans l'architecture Transformer.
suppression du bruit
Une approche courante de l'apprentissage auto-supervisé dans lequel:
- Du bruit est ajouté artificiellement à l'ensemble de données.
- Le modèle tente de supprimer le bruit.
La suppression du bruit permet d'apprendre à partir d'exemples sans étiquette. L'ensemble de données d'origine sert de cible ou label et les données comportant du bruit comme entrée.
Certains modèles de langage masqués utilisent la suppression du bruit comme suit:
- Du bruit est ajouté artificiellement à une phrase sans étiquette en masquant certaines les jetons.
- Le modèle essaie de prédire les jetons d'origine.
requête directe
Synonyme de requête zero-shot.
E
modifier la distance
Mesure du degré de similitude entre deux chaînes de texte. En machine learning, la modification de la distance est utile, car elle permet le calcul, et c'est un moyen efficace de comparer deux chaînes connues pour être similaires ou pour trouver des chaînes similaires à une chaîne donnée.
Il existe plusieurs définitions de la distance de modification, chacune utilisant une chaîne différente opérations. Par exemple, <ph type="x-smartling-placeholder"></ph> Distance de Levenshtein prend en compte le moins d'opérations de suppression, d'insertion et de remplacement.
Par exemple, la distance de Levenshtein entre les mots "cœur" et "fléchettes" est de 3, car les 3 modifications suivantes représentent le moins de changements pour transformer un mot dans l'autre:
- cœur → tart (remplacez "h" par "d")
- deart → fléchette (supprimer "e")
- fléchette → fléchettes (insert "s")
couche de représentation vectorielle continue
Une couche cachée spéciale qui s'entraîne sur une une caractéristique catégorielle de grande dimension pour nous apprendrons progressivement un vecteur de représentation vectorielle continue de dimension inférieure. Une la couche de représentation vectorielle continue permet à un réseau de neurones d'entraîner plus efficace que l'entraînement sur la caractéristique catégorielle de grande dimension.
Par exemple, Google Earth accueille actuellement environ 73 000 espèces d'arbres. Supposons
espèce d'arbre est une caractéristique de votre modèle. Par conséquent,
la couche d'entrée inclut un vecteur one-hot 73 000
les éléments
de long.
Par exemple, baobab
serait peut-être représenté comme ceci:
Un tableau de 73 000 éléments est très long. Si vous n'ajoutez pas de couche de représentation vectorielle continue au modèle, l'entraînement prend beaucoup de temps, car en multipliant 72 999 zéros. Vous choisissez peut-être la couche de représentation vectorielle continue 12 dimensions. La couche de représentation vectorielle continue va donc apprendre progressivement un nouveau vecteur de représentation vectorielle continue pour chaque espèce d'arbre.
Dans certains cas, le hachage constitue une alternative raisonnable. à une couche de représentation vectorielle continue.
espace de représentation vectorielle continue
L'espace vectoriel à d dimensions qui provient d'une dimension de plus grande dimension l’espace vectoriel auxquels sont mappés. Idéalement, l'espace de représentation vectorielle continue contient qui donne des résultats mathématiques significatifs ; Exemple : dans un espace de représentation vectorielle continue idéal, l'addition et la soustraction de représentations vectorielles continues peut résoudre des tâches d'analogie de mots.
Le produit scalaire de deux représentations vectorielles continues est une mesure de leur similarité.
vecteur de représentation vectorielle continue
De manière générale, un tableau de nombres à virgule flottante tirés de n'importe lequel couche cachée qui décrivent les entrées de cette couche cachée. Souvent, un vecteur de représentation vectorielle continue est le tableau de nombres à virgule flottante entraîné une couche de représentation vectorielle continue. Par exemple, supposons qu'une couche de représentation vectorielle continue doit apprendre une pour chacune des 73 000 espèces d'arbres terrestres. Il se peut que Le tableau suivant est le vecteur de représentation vectorielle continue d'un baobab:
Un vecteur de représentation vectorielle continue n'est pas un groupe de nombres aléatoires. Une couche de représentation vectorielle continue détermine ces valeurs par le biais de l'entraînement, de la même manière qu'un le réseau de neurones apprend d'autres pondérations pendant l'entraînement. Chaque élément du est une notation associée aux caractéristiques d'une espèce d'arbre. Quel représente l'espèce d'arbre caractéristique ? C'est très difficile pour que les humains puissent le déterminer.
La partie mathématiquement remarquable d'un vecteur de représentation vectorielle continue est la même éléments ont des ensembles similaires de nombres à virgule flottante. Par exemple, des espèces d'arbres ont un jeu de nombres à virgule flottante plus proche que des espèces d'arbres différentes. Les séquoias et les séquoias sont des espèces d'arbres apparentées, Ils auront donc un ensemble de nombres à virgule flottante plus similaire que des séquoias et des cocotiers. Les nombres du vecteur de représentation vectorielle continue chaque fois que vous réentraînez le modèle, même si vous le réentraînez avec une entrée identique.
encodeur
En général, tout système de ML qui effectue une conversion à partir d'un système de ML brut, creux ou externe la représentation en une représentation plus traitée, plus dense ou plus interne.
Les encodeurs sont souvent des composants d'un modèle plus vaste, associées à un décodeur. Quelques modèles Transformer associer des encodeurs à des décodeurs, bien que les autres modèles Transformer n'utilisent que l'encodeur ou uniquement le décodeur.
Certains systèmes utilisent la sortie de l'encodeur comme entrée d'une classification ou réseau de régression.
Dans les tâches séquence à séquence, un encodeur prend une séquence d'entrée et renvoie un état interne (un vecteur). Ensuite, Le decoder utilise cet état interne pour prédire la séquence suivante.
Reportez-vous à la section Transformer pour connaître la définition d'un encodeur dans l'architecture Transformer.
F
requête few-shot
Une requête contenant plusieurs exemples montrant comment le grand modèle de langage doit répondre. Par exemple, la longue requête suivante contient deux exemples montrant comment un grand modèle de langage peut répondre à une requête.
Composantes d'une requête | Remarques |
---|---|
Quelle est la devise officielle du pays spécifié ? | Question à laquelle le LLM doit répondre. |
France: EUR | Prenons un exemple. |
Royaume-Uni: GBP | Autre exemple. |
Inde : | La requête réelle. |
Une requête few-shot produit généralement des résultats plus souhaitables les requêtes zero-shot et requête one-shot. Toutefois, les requêtes few-shot nécessite une requête plus longue.
Une requête few-shot est une forme d'apprentissage few-shot. appliquée à l'apprentissage basé sur les requêtes.
Violon
Une bibliothèque de configuration Python qui définit le des fonctions et des classes sans code ou infrastructure invasif. Dans le cas de Pax (et d'autres codebases de ML), ces fonctions et représentent les modèles et l'entraînement. hyperparamètres.
Violon suppose que les codebases de machine learning sont généralement divisés en:
- Le code de bibliothèque, qui définit les couches et les optimiseurs.
- Ensemble de données "glue" qui appelle les bibliothèques et les câbles ensemble.
Fiddle capture la structure d'appel du code glue dans un ensemble de données forme modifiable.
affinage
Un deuxième parcours d'entraînement spécifique à une tâche, effectué sur un modèle pré-entraîné pour affiner ses paramètres pour pour un cas d'utilisation spécifique. Par exemple, la séquence d'entraînement complète Les grands modèles de langage se présentent comme suit:
- Pré-entraînement:entraînez un grand modèle de langage sur un vaste ensemble de données général. comme toutes les pages Wikipédia en anglais.
- Réglage:entraînez le modèle pré-entraîné à effectuer une tâche spécifique. par exemple pour répondre à des questions médicales. L'affinage implique généralement des centaines ou des milliers d’exemples spécifiques axés sur la tâche.
Autre exemple : pour un grand modèle d'images, la séquence d'entraînement complète se présente sous la forme suivante : ce qui suit:
- Pré-entraînement:entraînez un grand modèle d'images sur une vaste image générale comme toutes les images de Wikimedia Commons.
- Réglage:entraînez le modèle pré-entraîné à effectuer une tâche spécifique. telles que la génération d'images d'orques.
L'affinage peut nécessiter n'importe quelle combinaison des stratégies suivantes:
- Modifier tous les champs existants du modèle pré-entraîné parameters. On parle parfois d'ajustement complet.
- Modifier uniquement certains des paramètres existants du modèle pré-entraîné (généralement, les couches les plus proches de la couche de sortie) ; sans modifier les autres paramètres existants (généralement, les couches la plus proche de la couche d'entrée). Voir réglage efficace des paramètres.
- Ajouter des calques, généralement au-dessus des calques existants les plus proches du couche de sortie.
L'affinage est une forme d'apprentissage par transfert. Par conséquent, l'affinage peut utiliser une fonction de perte différente ou un modèle différent que celui utilisé pour entraîner le modèle pré-entraîné. Par exemple, vous pouvez régler un grand modèle d'images pré-entraînés pour produire un modèle de régression renvoie le nombre d'oiseaux dans une image d'entrée.
Indiquer les points communs et les différences entre l'affinage avec les termes suivants:
Lin
Une solution Open Source hautes performances bibliothèque pour deep learning basé sur JAX. Flax fournit des fonctions pour l'entraînement des réseaux de neurones, ainsi que comme méthodes d'évaluation des performances.
Flaxformer
Transformer Open Source bibliothèque basé sur Flax et conçu principalement pour le traitement du langage naturel et la recherche multimodale.
G
IA générative
Un domaine qui se transforme en émergence sans définition formelle. Cela dit, la plupart des experts s'accordent à dire que les modèles d'IA générative créer ("générer") un contenu qui correspond à tous les éléments suivants:
- complexe
- cohérentes
- originale
Par exemple, un modèle d'IA générative peut créer des modèles des dissertations ou des images.
Certaines technologies plus anciennes, y compris les LSTMs et des RNN, peuvent également générer des du contenu cohérent. Certains experts considèrent ces technologies antérieures comme l'IA générative, tandis que d'autres estiment qu'une véritable IA générative nécessite que ce que ces technologies précédentes peuvent produire.
À comparer au ML prédictif.
GPT (Generative Pre-trained Transformer)
Famille de modèles basés sur Transformer grands modèles de langage développés par OpenAI :
Les variantes GPT peuvent s'appliquer à plusieurs modalités, y compris les suivantes:
- génération d'images (par exemple, ImageGPT)
- la génération d'images à partir de texte (par exemple, DALL-E).
H
hallucination
La production de résultats qui semblent plausibles, mais qui sont en fait incorrects par une modèle d'IA générative qui vise à créer sur le monde réel. Par exemple, un modèle d'IA générative affirmant que Barack Obama est mort en 1865. est en hallucination.
I
apprentissage en contexte
Synonyme de requête few-shot.
L
LaMDA (Language Model for Dialogue Applications)
Basée sur Transformer grand modèle de langage développé par Google et entraîné sur un vaste ensemble de données de dialogues pouvant générer des réponses de conversation réalistes.
LaMDA: notre conversation révolutionnaire de la technologie fournit un aperçu.
modèle de langage
Un modèle qui estime la probabilité d'un jeton ou séquence de jetons se produisant dans une séquence plus longue de jetons.
grand modèle de langage
Terme informel sans définition stricte qui signifie généralement modèle de langage qui présente un grand nombre paramètres. Certains grands modèles de langage contiennent plus de 100 milliards de paramètres.
espace latent
Synonyme d'espace d'intégration.
LLM
Abréviation de grand modèle de langage.
LoRA
Abréviation de adaptabilité de rang faible.
Adaptabilité de faible rang (LoRA)
Un algorithme pour effectuer réglage efficace des paramètres qui n'ajuste qu'un sous-ensemble les paramètres du grand modèle de langage. La LoRA offre les avantages suivants:
- Affinage plus rapide que les techniques qui nécessitent d'ajuster tous les champs d'un modèle paramètres.
- Réduit le coût de calcul de l'inférence dans modèle affiné.
Un modèle réglé avec la LoRA maintient ou améliore la qualité de ses prédictions.
La LoRA permet d'utiliser plusieurs versions spécialisées d'un modèle.
M
modèle de langage masqué
Un modèle de langage qui prédit la probabilité des jetons candidats pour remplir les espaces vides dans une séquence. Par exemple, un le modèle de langage masqué peut calculer les probabilités pour le ou les mots candidats pour remplacer le soulignement dans la phrase suivante:
Le ____ qu'il avait dans votre chapeau est revenu.
La littérature utilise généralement la chaîne « MASK » au lieu d'un soulignement. Exemple :
Le "MASK" qui se trouvait dans le chapeau.
La plupart des modèles de langage masqué modernes sont bidirectionnels.
méta-apprentissage
Sous-ensemble du machine learning qui découvre ou améliore un algorithme d'apprentissage. Un système de méta-apprentissage peut aussi viser à entraîner un modèle à apprendre rapidement tâche à partir d'une petite quantité de données ou de l'expérience acquise lors de tâches précédentes. Les algorithmes de méta-apprentissage tentent généralement d'obtenir les résultats suivants:
- Améliorez ou apprenez à utiliser des caractéristiques conçues manuellement (telles qu'un initialiseur ou un optimiseur).
- optimiser l'efficacité en termes de données et de calcul ;
- Améliorez la généralisation.
Le méta-apprentissage est lié à l'apprentissage few-shot.
modality
Catégorie de données de haut niveau. (par exemple, des chiffres, du texte, des images, des vidéos et audio sont cinq modalités différentes.
parallélisme des modèles
Un moyen de mettre à l'échelle l'entraînement ou l'inférence qui place différentes parties d'une model sur différents appareils. Parallélisme des modèles permet d'utiliser des modèles trop grands pour tenir sur un seul appareil.
Pour implémenter le parallélisme des modèles, un système procède généralement comme suit:
- Segmente (divise) le modèle en parties plus petites.
- Il répartit l'entraînement de ces petites pièces sur plusieurs processeurs. Chaque processeur entraîne sa propre partie du modèle.
- Combine les résultats pour créer un seul modèle.
Le parallélisme des modèles ralentit l'entraînement.
Voir aussi parallélisme des données.
auto-attention multi-tête
Extension de l'auto-attention qui applique la d'auto-attention plusieurs fois pour chaque position dans la séquence d'entrée.
Les Transformers ont introduit l'auto-attention multi-tête.
modèle multimodal
Un modèle dont les entrées et/ou les sorties incluent plusieurs modalité. Prenons l'exemple d'un modèle qui prend à la fois une image et une légende textuelle (deux modalités) comme caractéristiques, et génère un score indiquant le degré de pertinence de la légende pour l'image. Les entrées de ce modèle sont donc multimodales et la sortie unimodale.
N
compréhension du langage naturel
Déterminer les intentions d'un utilisateur en fonction de ce qu'il a saisi ou dit. Par exemple, un moteur de recherche utilise la compréhension du langage naturel pour déterminer ce que l'utilisateur recherche en fonction de ce qu'il a saisi ou dit.
N-gramme
Séquence ordonnée de N mots. Par exemple, vraiment follement correspond à un gramme de 2 grammes. En effet, l'ordre est pertinent, follement vraiment est un 2-grammes différent de vraiment follement.
N | Noms pour ce type de N-gramme | Exemples |
---|---|---|
2 | bigramme ou 2-gramme | à emporter, à emporter, déjeuner, dîner |
3 | trigramme ou 3-gramme | a mangé trop, trois souris aveugles, la cloche sonne |
4 | 4-gramme | marcher dans le parc, poussière dans le vent, le garçon a mangé des lentilles |
Nombreuses compréhension du langage naturel les modèles s'appuient sur les N-grammes pour prédire le prochain mot saisi par l'utilisateur ou dire. Par exemple, supposons qu'un utilisateur tape three blind. Un modèle de NLU basé sur des trigrammes prédira probablement l'utilisateur saisira ensuite mice.
Comparer les N-grammes aux sacs de mots, qui sont des ensembles de mots non ordonnés.
NLU (Natural Language Understanding, compréhension du langage naturel) - 1st occurrence only, then use "NLU".
Abréviation de langage naturel à comprendre.
O
requête one-shot
Une requête contenant un exemple montrant comment la le grand modèle de langage doit répondre. Par exemple : la requête suivante contient un exemple qui montre à un grand modèle de langage il doit répondre à une requête.
Composantes d'une requête | Remarques |
---|---|
Quelle est la devise officielle du pays spécifié ? | Question à laquelle le LLM doit répondre. |
France: EUR | Prenons un exemple. |
Inde : | La requête réelle. |
Indiquer les points communs et les différences entre les requêtes one-shot et les termes suivants:
P
réglage efficace des paramètres
Un ensemble de techniques permettant d'affiner un grand Modèle de langage pré-entraîné (PLM) plus efficacement que les affinages complets. Économique en paramètres les réglages permettent généralement d'ajuster beaucoup moins de paramètres que mais produit généralement une grand modèle de langage qui exécute ainsi qu'un grand modèle de langage construit à partir de l'affinage.
Indiquer les points communs et les différences entre les réglages efficaces avec les paramètres suivants:
Le réglage efficace des paramètres est également connu sous le nom d'ajustement efficace des paramètres.
pipeline
Forme de parallélisme des modèles dans laquelle le modèle est divisé en étapes consécutives, chacune étant exécutée sur un autre appareil. Pendant qu'une étape traite un lot, l'étape précédente peut travailler sur le lot suivant.
Voir aussi Entraînement par étapes.
PLM
Abréviation de modèle de langage pré-entraîné.
encodage positionnel
Technique permettant d'ajouter des informations sur la position d'un jeton dans une séquence pour la représentation vectorielle continue du jeton. Les modèles Transformer utilisent des modèles pour mieux comprendre la relation entre les différentes parties séquence.
Une implémentation courante de l'encodage positionnel utilise une fonction sinusoïdale. Plus précisément, la fréquence et l'amplitude de la fonction sinusoïdale sont déterminée par la position du jeton dans la séquence.) Cette technique permet à un modèle Transformer d'apprendre à traiter les différentes parties en fonction de leur position.
modèle pré-entraîné
Modèles ou composants de modèles (comme vecteur de représentation vectorielle continue) ayant déjà été entraîné. Parfois, vous alimentez des vecteurs de représentation vectorielle continue pré-entraînés dans un réseau de neurones. Il peut aussi entraîner le modèle de représentations vectorielles continues par eux-mêmes plutôt que d'utiliser les représentations vectorielles continues pré-entraînées.
Le terme modèle de langage pré-entraîné fait référence à grand modèle de langage qui a traversé pré-entraînement.
pré-entraînement
Entraînement initial d'un modèle sur un ensemble de données volumineux. Certains modèles pré-entraînés sont des géants maladroites qui doivent généralement être affinés par un entraînement supplémentaire. Par exemple, les experts en ML peuvent pré-entraîner un grand modèle de langage sur un vaste ensemble de données textuelles, comme toutes les pages en anglais de Wikipédia. Après une formation préalable, le modèle qui en résulte peut être affiné grâce à l'une des méthodes suivantes : techniques:
- distillation
- optimisation
- réglage des instructions
- réglage efficace des paramètres
- réglage des invites
Requête
Tout texte saisi en entrée d'un grand modèle de langage pour conditionner le modèle afin qu'il se comporte d'une certaine manière. Les requêtes peuvent être aussi courtes qu'un expression exacte ou arbitrairement longue (par exemple, l'intégralité du texte d'un roman). Requêtes appartiennent à plusieurs catégories, y compris celles présentées dans le tableau suivant:
Catégorie de requête | Exemple | Remarques |
---|---|---|
Question | À quelle vitesse un pigeon vole-t-il ? | |
Instruction | Écris un poème amusant sur les sites à contenu exclusivement publicitaire. | Une requête qui demande au grand modèle de langage de faire quelque chose. |
Exemple | Traduire le code Markdown en HTML. Par exemple:
Markdown: * élément de liste HTML : <ul> <li>élément de liste</li> </ul> |
La première phrase de cet exemple de requête est une instruction. Le reste de la requête est l'exemple. |
Rôle | Expliquer pourquoi la descente de gradient est utilisée dans l'entraînement du machine learning pour est titulaire d'un doctorat en physique. | La première partie de la phrase est une instruction ; l'expression "à un doctorat en physique" est la partie rôle. |
Entrée partielle du modèle | Le Premier ministre britannique vit à | Une requête d'entrée partielle peut se terminer brusquement (comme le fait cet exemple). ou se terminer par un trait de soulignement. |
Un modèle d'IA générative peut répondre à une requête avec du texte, du code, des images, des représentations vectorielles continues, des vidéos... à peu près tout.
apprentissage basé sur des requêtes
Capacité de certains modèles à s'adapter leur comportement en réponse à une saisie de texte arbitraire (invites). Dans un paradigme classique d'apprentissage basé sur des requêtes, grand modèle de langage répond à une requête en la génération de texte. Par exemple, supposons qu'un utilisateur entre la requête suivante:
Résume la troisième loi du mouvement de Newton.
Un modèle capable d'effectuer un apprentissage basé sur des requêtes n'est pas spécialement entraîné pour répondre à la requête précédente. Le modèle "sait" beaucoup de faits sur la physique, beaucoup sur les règles générales du langage et sur ce qui constitue des réponses utiles. Ces connaissances sont suffisantes pour fournir une (nous l'espérons) utile réponse. Un commentaire humain supplémentaire ("Cette réponse était trop compliquée." ou "Qu'est-ce qu'une réaction ?") permet à certains systèmes d'apprentissage basés sur des requêtes de améliorer l'utilité de leurs réponses.
conception de requête
Synonyme d'ingénierie des requêtes.
ingénierie des requêtes
Savoir créer des requêtes qui génèrent les réponses souhaitées à partir d'un grand modèle de langage. Exécution de la requête par des humains l’ingénierie. Rédiger des requêtes bien structurées est essentiel pour garantir des réponses utiles d'un grand modèle de langage. L'ingénierie des requêtes dépend de nombreux facteurs, y compris:
- Ensemble de données utilisé pour le pré-entraînement et éventuellement affiner le grand modèle de langage
- La température et d'autres paramètres de décodage utilisé par le modèle pour générer des réponses.
Voir Présentation de la conception de requête pour en savoir plus sur la rédaction de requêtes utiles.
Conception de requête est un synonyme d'ingénierie des requêtes.
réglage des requêtes
Un mécanisme de réglage efficace des paramètres qui apprend un "préfixe" que le système ajoute au requête réelle.
Une variante du réglage des invites, parfois appelée réglage de préfixe, consiste à ajouter le préfixe à chaque couche. En revanche, la plupart du réglage des requêtes ajoute un préfixe à la couche d'entrée.
R
requête de rôle
Partie facultative d'une requête qui identifie une audience cible pour obtenir la réponse d'un modèle d'IA générative. Sans rôle requête, un grand modèle de langage fournit une réponse qui peut ou non être utile pour la personne qui pose les questions. Avec une invite de rôle, un grand langage peut fournir des réponses plus appropriées et plus utiles une audience cible spécifique. Par exemple, la partie invite de rôle apparaissent en gras:
- Résume cet article pour un doctorat en économie.
- Décrivez le fonctionnement des marées pour un enfant de dix ans.
- Expliquer la crise financière de 2008. Parlez comme vous le feriez à un jeune enfant, ou golden retriever.
S
auto-attention (également appelée couche d'auto-attention)
Une couche de réseau de neurones qui transforme une séquence de représentations vectorielles continues (par exemple, représentations vectorielles continues de type jeton) dans une autre séquence de représentations vectorielles continues. Chaque représentation vectorielle continue de la séquence de sortie construite en intégrant les informations des éléments de la séquence d'entrée par un mécanisme d'attention.
La partie self de l'auto-attention fait référence à la séquence qui assiste plutôt qu'à un autre contexte. L'auto-attention est l'une des principales pour les modèles Transformer et utilise la recherche dans le dictionnaire telles que "requête", "clé" et "valeur".
Une couche d'auto-attention commence par une séquence de représentations d'entrée, pour chaque mot. La représentation d'entrée d'un mot peut être la représentation vectorielle continue. Pour chaque mot d'une séquence d'entrée, le réseau évalue la pertinence du mot par rapport à chaque élément de la séquence mots. Les scores de pertinence déterminent dans quelle mesure la représentation finale du mot intègre les représentations d'autres mots.
Prenons l'exemple de la phrase suivante:
L'animal n'a pas traversé la rue parce qu'il était trop fatigué.
L'illustration suivante (de Transformer: une nouvelle architecture de réseau de neurones pour le langage Compréhension) montre le modèle d'attention d'une couche d'auto-attention pour le pronom it, avec l'obscurité de chaque ligne indiquant dans quelle mesure chaque mot contribue à la représentation:
La couche d'auto-attention met en évidence les mots pertinents. Dans ce la couche d'attention a appris à mettre en surbrillance les mots qu'elle pourrait en attribuant le poids le plus élevé à l'animal.
Pour une séquence de n jetons, l'auto-attention transforme une séquence de représentations vectorielles continues n fois distinctes, une fois à chaque position de la séquence.
Reportez-vous également à l'attention et auto-attention multi-tête.
analyse des sentiments
Utiliser des algorithmes statistiques ou d'apprentissage automatique pour déterminer une attitude globale, positive ou négative, à l'égard d'un service, d'un produit une organisation ou un sujet. Par exemple, si vous utilisez compréhension du langage naturel, un algorithme peut effectuer une analyse des sentiments sur les commentaires textuels d'un cursus universitaire afin de déterminer le diplôme auquel les étudiants généralement aimé ou non le cours.
tâche "seq2seq"
Tâche qui convertit une séquence d'entrée de jetons en sortie une séquence de jetons. Par exemple, deux types courants de requêtes "seq2seq", tâches sont:
- Traducteurs:
<ph type="x-smartling-placeholder">
- </ph>
- Exemple de séquence d'entrée : "Je t'aime".
- Exemple de séquence de sortie : "Je t'aime".
- Système de questions-réponses:
<ph type="x-smartling-placeholder">
- </ph>
- Exemple de séquence d'entrée : "Ai-je besoin de ma voiture à New York ?"
- Exemple de séquence de sortie : "No. Veuillez laisser votre voiture à la maison."
skip-gram
Un n-gramme qui peut omettre (ou "ignorer") des mots de l'original le contexte, ce qui signifie que les N mots peuvent ne pas avoir été initialement adjacents. Plus avec précision, "k-skip-n-gramme" est un n-gramme pour lequel jusqu'à k mots peuvent avoir ont été ignorées.
Par exemple, "le rapide renard marron". peut avoir les 2 grammes suivants:
- "rapide"
- "brun rapide"
- "renard marron"
"1-skip-2-gramme" est une paire de mots séparés par un mot au maximum. Par conséquent, « le rapide renard brun » contient les 2 grammes (1 ignorer) suivants:
- "le marron"
- "petit renard"
De plus, tous les 2 grammes sont également des 1-skip-2-grammes, puisque moins de plusieurs mots peuvent être ignorés.
Les Skip-grams sont utiles pour mieux comprendre le contexte environnant d'un mot. Dans l'exemple, "renard" était directement associé au terme "rapide" dans l'ensemble des 1-skip-2-grammes, mais pas dans l'ensemble de 2-grammes.
Les sauts contribuent à l'entraînement modèles de représentation vectorielle continue de mots.
réglage flexible des requêtes
Technique de réglage d'un grand modèle de langage pour une tâche donnée, sans gourmand en ressources affinage. Au lieu de réentraîner tous les pondérations dans le modèle, réglage des requêtes souples ajuste automatiquement une invite pour atteindre le même objectif.
À partir d'une requête textuelle, réglage souple des requêtes ajoute généralement des représentations vectorielles continues de jetons supplémentaires à l'invite et utilise et la rétropropagation pour optimiser l'entrée.
Une réponse "difficile" contient des jetons réels au lieu de représentations vectorielles continues de jetons.
caractéristique creuse
Caractéristique dont les valeurs sont principalement nulles ou vides. Par exemple, une caractéristique contenant une seule valeur 1 et un million de valeurs 0 est creuses. En revanche, une caractéristique dense a des valeurs ne sont généralement pas zéro ou vides.
Dans le machine learning, un nombre surprenant de caractéristiques sont des caractéristiques creuses. Les caractéristiques catégorielles sont généralement des caractéristiques creuses. Par exemple, sur les 300 espèces d'arbres possibles dans une forêt, un seul exemple peut n'identifier qu'un érable. Ou, parmi des millions de personnes, de vidéos possibles dans une bibliothèque, un seul exemple peut identifier juste "Casablanca".
Dans un modèle, on représente généralement des caractéristiques creuses encodage one-hot. Si l'encodage one-hot est volumineux, vous pouvez placer une couche d'intégration au-dessus de la l'encodage one-hot pour une plus grande efficacité.
représentation creuse
Ne stocke que la ou les positions des éléments non nuls dans une caractéristique creuse.
Par exemple, supposons qu'une caractéristique catégorielle nommée species
identifie les 36
différentes espèces d'arbres
d'une forêt en particulier. Supposons également que chaque
example identifie une seule espèce.
Vous pouvez utiliser un vecteur one-hot pour représenter les espèces d'arbres dans chaque exemple.
Un vecteur one-hot contiendrait une seule valeur 1
(pour représenter
l'espèce d'arbre particulière de cet exemple) et 35 0
s (pour représenter
35 espèces d'arbres pas dans cet exemple). La représentation one-hot
de maple
peut se présenter comme suit:
La représentation creuse permet quant à elle d'identifier simplement la position
une espèce particulière. Si maple
est en position 24, la représentation creuse
de maple
serait simplement:
24
Notez que la représentation creuse est beaucoup plus compacte que la représentation représentation.
entraînement par étapes
Stratégie d'entraînement d'un modèle en une séquence d'étapes distinctes. L'objectif peut être soit pour accélérer le processus d'entraînement, soit pour améliorer la qualité du modèle.
Vous trouverez ci-dessous une illustration de l'approche d'empilement progressif:
- L'étape 1 contient trois couches cachées, l'étape 2 contient six couches cachées et l'étape 3 contient 12 couches cachées.
- La phase 2 commence l'entraînement avec les pondérations apprises dans les trois couches cachées de l'Étape 1. L'étape 3 commence l'entraînement avec les pondérations apprises à l'étape 6 les couches cachées de l'étape 2.
Voir aussi pipeline.
jeton de sous-mot
Dans les modèles de langage, un jeton qui est un sous-chaîne d'un mot, qui peut être le mot entier.
Par exemple, un mot comme "résumer" peut être décomposé en parties "item" (mot racine) et "ize" (un suffixe), chacun étant représenté par son propre à partir d'un jeton d'accès. La division de mots inhabituels en de tels éléments, appelés sous-mots, permet des modèles de langage pour fonctionner sur les composants les plus courants d'un mot, comme les préfixes et les suffixes.
À l'inverse, des mots courants tels que "participant" ne sont peut-être pas séparées et peuvent être représentées par un jeton unique.
T
T5
Modèle d'apprentissage par transfert texte-vers-texte présenté par L'IA de Google en 2020. T5 est un modèle d'encodeur-décodeur, basé sur le architecture Transformer, entraînée sur un modèle de machine learning ensemble de données. Il est efficace pour diverses tâches de traitement du langage naturel, comme générer du texte, traduire des langues et répondre à des questions de manière conversationnelle.
Le niveau T5 tire son nom des cinq T de "Text-to-Text Transfer Transformer" (Transformateur de transfert de texte en texte).
T5X
Un framework de machine learning Open Source conçu pour créer et entraîner des modèles de traitement du langage naturel à grande échelle (TLN). T5 est implémenté sur le codebase T5X (qui est basé sur JAX et Flax).
température
Un hyperparamètre qui contrôle le degré de hasard de la sortie d'un modèle. Des températures plus élevées entraînent un résultat plus aléatoire, tandis que des températures plus basses produisent moins de résultats aléatoires.
Le choix de la température optimale dépend de l'application et les propriétés privilégiées de la sortie du modèle. Par exemple, vous devez augmentera probablement la température lors de la création d'une application génère le résultat de la création. À l'inverse, vous allez probablement baisser la température lors de la création d'un modèle qui classe des images ou du texte afin d'améliorer la justesse et la cohérence du modèle.
La température est souvent utilisée avec softmax.
espace de texte
Intervalle d'index du tableau associé à une sous-section spécifique d'une chaîne de texte.
Par exemple, le mot good
dans la chaîne Python s="Be good now"
occupe
du texte s’étend
de 3 à 6.
jeton
Dans un modèle de langage, unité atomique du modèle. l'entraînement et la réalisation de prédictions. Un jeton est généralement suivantes:
- un mot, par exemple l'expression "des chiens comme des chats" ; se compose de trois mots jetons : "chiens", "aime" et "chats".
- Un caractère (par exemple, l'expression "poisson vélo") se compose de neuf des jetons de caractères. (Notez que l'espace vide compte comme un jeton.)
- sous-mots, dans lesquels un seul mot peut être un ou plusieurs jetons. Un sous-mot est constitué d'une racine, d'un préfixe ou d'un suffixe. Par exemple : un modèle de langage qui utilise des sous-mots comme jetons peut voir le mot "chiens" sous forme de deux jetons (la racine du mot "chien" et le suffixe pluriel "s"). Ce même le modèle de langage pourrait considérer le mot "plus grand" sous la forme de deux sous-mots racine du mot "grand" et le suffixe "er").
Dans les domaines en dehors des modèles de langage, les jetons peuvent représenter d'autres types de et des unités atomiques. Par exemple, dans la vision par ordinateur, un jeton peut être un sous-ensemble d'une image.
Transformer
Une architecture de réseau de neurones développée par Google s'appuie sur les mécanismes d'auto-attention pour transformer séquence de représentations vectorielles continues d'entrée dans une séquence de sorties des représentations vectorielles continues sans utiliser de convolutions ou réseaux de neurones récurrents. Un modèle Transformer peut être comme une pile de couches d'auto-attention.
Un objet Transformer peut inclure l'un des éléments suivants:
Un encodeur transforme une séquence de représentations vectorielles continues en une nouvelle séquence du de même durée. Un encodeur comprend N couches identiques, chacune contenant deux couches sous-jacents. Ces deux sous-couches sont appliquées à chaque position de l'entrée de représentations vectorielles continues, transformant chaque élément de la séquence en un nouveau la représentation vectorielle continue. La première sous-couche d'encodeur regroupe les informations de la séquence d'entrée. La deuxième sous-couche d'encodeur transforme les données agrégées des informations dans une représentation vectorielle continue de sortie.
Un décodeur transforme une séquence de représentations vectorielles continues d'entrée en une séquence de des représentations vectorielles continues de sortie, éventuellement avec une longueur différente. Un décodeur inclut également N couches identiques comportant trois sous-couches, dont deux sont semblables aux les sous-couches de l'encodeur. La troisième sous-couche de décodeur prend la sortie et applique le mécanisme d'auto-attention aux pour recueillir des informations.
L'article de blog Transformer: A Novel Neural Network Architecture for Language Comprendre constitue une bonne introduction aux modèles Transformer.
trigramme
Un N-gramme dans lequel N=3.
U
unidirectionnel
Système qui évalue uniquement le texte qui précéde une section de texte cible. En revanche, un système bidirectionnel évalue à la fois Texte qui précéde et suit une section de texte cible. Pour en savoir plus, consultez la section Bidirectionnel.
modèle de langage unidirectionnel
Un modèle de langage qui base ses probabilités uniquement sur le Les jetons apparaissent avant, et non après, le ou les jetons cibles. À comparer au modèle de langage bidirectionnel.
V
Auto-encodeur variationnel (VAE)
Type d'auto-encodeur qui exploite l'écart entre les entrées et les sorties pour générer des versions modifiées des entrées. Les auto-encodeurs variationnels sont utiles pour l'IA générative.
Les VAE sont basées sur l'inférence variationnelle: une technique permettant d'estimer paramètres d'un modèle de probabilité.
W
représentation vectorielle continue de mots
Représentation de chaque mot d'un ensemble de mots dans une vecteur de représentation vectorielle continue; représentant chaque mot comme un vecteur de valeurs à virgule flottante compris entre 0,0 et 1,0. Mots similaires les significations ont des représentations plus similaires que les mots ayant des significations différentes. Par exemple, carottes, celery et concombres auraient tous une valeur relativement qui sont très différentes des représentations avion, lunettes de soleil et dentifrice.
Z
requête zero-shot
Une requête qui ne fournit pas un exemple de la façon dont vous souhaitez le grand modèle de langage à répondre. Exemple :
Composantes d'une requête | Remarques |
---|---|
Quelle est la devise officielle du pays spécifié ? | Question à laquelle le LLM doit répondre. |
Inde : | La requête réelle. |
Le grand modèle de langage peut répondre avec l'un des éléments suivants:
- Roupie
- INR
- ₹
- Roupie indienne
- Roupie
- Roupie indienne
Toutes les réponses sont correctes, mais vous pouvez préférer un format particulier.
Indiquer les points communs et les différences entre les requêtes zero-shot et les termes suivants: