Glossario del machine learning: valutazione delle lingue

Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Questa pagina contiene i termini nel glossario per la valutazione della lingua. Per tutti i termini del glossario, fai clic qui.

A

attenzione

#language

Tutti i meccanismi di architettura di rete neurale che aggregano informazioni da un set di input in modo dipendente dai dati. Un meccanismo di attenzione tipico potrebbe essere costituito dalla somma ponderata di un insieme di input, dove la ponderazione di ciascun input viene calcolata da un'altra parte della rete neurale.

Fai riferimento anche all'autoattenzione e all'autoattenzione multi-head, che sono i componenti di base di Transformers.

B

sacchetto di parole

#language

Una rappresentazione delle parole in una frase o in un passaggio, indipendentemente dall'ordine. Ad esempio, un pacchetto di parole rappresenta le tre frasi seguenti in modo identico:

  • il cane salta
  • salta il cane
  • il cane salta il

Ogni parola è mappata a un indice in un vettore vuoto, dove il vettore ha un indice per ogni parola del vocabolario. Ad esempio, la frase the dog jumps è mappata in un vettore di funzionalità con valori diversi da zero nei tre indici corrispondenti alle parole the, dog e jumps. Il valore diverso da zero può essere uno dei seguenti:

  • A 1 per indicare la presenza di una parola.
  • Il numero di volte in cui una parola viene visualizzata nel sacchetto. Ad esempio, se la frase fosse il cane bordeaux è un cane con il manto marrone, sia il marrone che il cane verranno rappresentati come 2, mentre le altre parole saranno rappresentate come 1.
  • Un altro valore, come il logaritmo del numero di volte in cui una parola viene visualizzata nel sacchetto.

BERT (Codificatore bidirezionale Rappresentazioni dai trasformatori)

#language

Un'architettura del modello per la rappresentazione del testo. Un modello addestrato BERT può agire nell'ambito di un modello più ampio per la classificazione del testo o altre attività di machine learning.

BERT ha le seguenti caratteristiche:

Le varianti di BERT's includono:

Consulta l'articolo Open Sourcing BERT: All'avanguardia dell'addestramento per l'elaborazione del linguaggio naturale per una panoramica di BERT.

Bigram

#seq
#language

Un N-gram in cui N=2.

bidirezionale

#language

Termine utilizzato per descrivere un sistema che valuta il testo precede e segui una sezione di testo di destinazione. Al contrario, un sistema unidirezionale valuta solo il testo che precede una sezione di testo di destinazione.

Ad esempio, nel modello di linguaggio mascherato devi determinare le probabilità che la parola o le parole rappresentino la sottolineatura nella domanda seguente:

Cos'è il _____ con te?

Un modello linguistico unidirezionale dovrebbe basare le sue probabilità solo sul contesto fornito dalle parole "Cosa", "è", e "la". Al contrario, un modello linguistico bidirezionale potrebbe anche trarre contesto da "con" e "che" lo aiuterà a generare previsioni migliori.

modello bidirezionale del linguaggio

#language

Un modello di linguaggio che determina la probabilità che un dato token sia presente in una determinata posizione, in un estratto di testo basato sul testo precedente e successivo.

BLEU (Report di valutazione bidirezionale)

#language

Un punteggio compreso tra 0,0 e 1,0 che indica la qualità di una traduzione tra due lingue umane (ad esempio tra inglese e russo). Un punteggio BLEU pari a 1,0 indica una traduzione perfetta; un punteggio BLEU pari a 0,0 indica una traduzione terribile.

C

modello di linguaggio causale

#language

Sinonimo di modello di linguaggio unidirezionale.

Vedi il modello di linguaggio bidirezionale per confrontare i diversi approcci direzionali nella modellazione del linguaggio.

fioritura

#language

Una frase con un significato ambiguo. I fiori di arresto rappresentano un problema significativo nella comprensione del linguaggio naturale. Ad esempio, il titolo Red Tape Up Up skyscraper è un fiore in fiore perché un modello NLU potrebbe interpretare il titolo letteralmente o in modo figurato.

D

Decoder

#language

In generale, qualsiasi sistema di machine learning che passa da una rappresentazione elaborata, densa o interna a una rappresentazione più semplice, sparsa o esterna.

I decodificatori sono spesso componenti di un modello più grande, dove spesso sono associati a un codificatore.

Nelle attività da sequenza a sequenza, un decodificatore inizia con lo stato interno generato dal codificatore per prevedere la sequenza successiva.

Fai riferimento a Trasformatore per la definizione di un decodificatore all'interno dell'architettura del trasformatore.

riduzione del rumore

#language

Un approccio comune all'apprendimento con supervisione autonoma in cui:

  1. Il rumore viene aggiunto artificialmente al set di dati.
  2. Il modello tenta di rimuovere il rumore.

La riduzione del rumore consente l'apprendimento da esempi senza etichetta. Il set di dati originale funge da destinazione o da etichetta e i dati rumorosi come input.

Alcuni modelli di linguaggio mascherati utilizzano i rumori come segue:

  1. Il rumore viene aggiunto artificialmente a una frase senza etichetta mascherando alcuni token.
  2. Il modello tenta di prevedere i token originali.

E

rappresentazioni distribuite

#language

Una funzionalità categorica rappresentata come una funzionalità a valore continuo. In genere, un incorporamento è la traduzione di un vettore ad alta dimensione in uno spazio di piccole dimensioni. Ad esempio, puoi rappresentare le parole in una frase inglese in uno dei due modi riportati di seguito:

  • Come milione di elementi (alta dimensione) vettore spargibile in cui tutti gli elementi sono numeri interi. Ogni cella del vettore rappresenta una parola inglese distinta; il valore in una cella rappresenta il numero di volte in cui la parola viene visualizzata in una frase. Dato che è improbabile che una singola frase inglese contenga più di 50 parole, quasi ogni cella del vettore contiene uno 0. Le poche celle che non sono 0 conterranno un numero intero basso (di solito 1) che rappresenta il numero di volte in cui la parola è apparsa nella frase.
  • Come un centinaio di elementi (bassa dimensione) vettore denso in cui ogni elemento contiene un valore in virgola mobile compreso tra 0 e 1. Questo è un incorporamento.

In TensorFlow, gli incorporamenti vengono addestrati da backpropagating loss come qualsiasi altro parametro in una rete neurale.

spazio di incorporamento

#language

Lo spazio vettoriale d-dimensionato che presenta elementi di uno spazio vettoriale di dimensioni superiori. Idealmente, lo spazio di incorporamento contiene una struttura che produce risultati matematici significativi; ad esempio, in uno spazio di incorporamento ideale, l'aggiunta e la sottrazione di incorporamenti possono risolvere attività analogiche delle parole.

Il prodotto punto di due incorporamenti è una misura della loro somiglianza.

codificatore

#language

In generale, qualsiasi sistema di machine learning che passa da una rappresentazione grezza, sparsa o esterna in una rappresentazione più elaborata, più densa o interna.

I codificatori sono spesso un componente di un modello più grande, dove sono spesso accoppiati con un decoder. Alcuni trasformatori accoppiano i codificatori ai decodificatori, anche se altri utilizzano solo il codificatore o solo il decodificatore.

Alcuni sistemi utilizzano l'output del codificatore come input per una rete di classificazione o regressione.

Nelle attività da sequenza a sequenza, un codificatore prende una sequenza di input e restituisce uno stato interno (un vettore). Quindi, il decoder usa quello stato interno per prevedere la sequenza successiva.

Fai riferimento a Trasformatore per la definizione di un codificatore nell'architettura del trasformatore.

G

GPT (Trasformatore preaddestrato generativo)

#language

Una famiglia di modelli di grandi lingue basati su Transformer sviluppati da OpenAI.

Le varianti di GPT possono essere applicate a più modalità, tra cui:

  • generazione di immagini (ad esempio, ImageGPT)
  • di generazione del testo in immagine (ad esempio, DALL-E).

S

LaMDA (modello di lingua per applicazioni di dialogo)

#language

Un modello di grande linguaggio basato su Trasformatore, sviluppato da Google, addestrato su un vasto set di dati di dialogo in grado di generare risposte conversazionali realistiche.

LaMDA: la nostra tecnologia di conversazione all'avanguardia offre una panoramica.

modello di lingua

#language

Un modello che stima la probabilità di un token o di una sequenza di token in una sequenza di token più lunga.

modello linguistico grande

#language

Un termine informale senza una definizione rigorosa che di solito significa un modello linguistico con un numero elevato di parametri. Alcuni modelli linguistici di grandi dimensioni contengono oltre 100 miliardi di parametri.

M

modello di linguaggio mascherato

#language

Un modello linguistico che prevede la probabilità dei token candidati di riempire spazi vuoti in una sequenza. Ad esempio, un modello di linguaggio mascherato può calcolare le probabilità che le parole candidati debbano sostituire la sottolineatura nella frase seguente:

Il ____ dal cappello è tornato.

In genere, la letteratura utilizza la stringa "MASK" anziché una sottolineatura. Ad esempio:

La "MASK" nel cappello è tornata.

I più moderni modelli di linguaggio con maschera sono bidirezionale.

meta-learning

#language

Un sottoinsieme del machine learning che rileva o migliora un algoritmo di apprendimento. Un sistema di meta-apprendimento può anche mirare ad addestrare un modello per apprendere rapidamente una nuova attività da una piccola quantità di dati o dall'esperienza acquisita in attività precedenti. In genere, gli algoritmi di meta-learning cercano di raggiungere i seguenti obiettivi:

  • Migliora/impara le funzionalità progettate a mano (come l'iniziatore o un ottimizzatore).
  • Maggiore efficienza nei dati e nel calcolo.
  • Migliora la generalizzazione.

Il meta-learning è correlato a few-shot learning,

modalità

#language

Una categoria di dati di alto livello. Ad esempio, numeri, testo, immagini, video e audio sono cinque modalità diverse.

parallelismo del modello

#language

Un modo per scalare l'addestramento o l'inferenza che posiziona parti diverse di un modello su dispositivi diversi. Il parallelismo dei modelli consente di creare modelli troppo grandi per essere inseriti in un singolo dispositivo.

Vedi anche parallelismo dei dati.

auto-attenzione multitesta

#language

Un'estensione dell'autoattenzione che applica il meccanismo di automeccanismo più volte per ogni posizione nella sequenza di input.

Transformers ha introdotto l'autoattenzione multi-testa.

modello multimodale

#language

Un modello i cui input e/o output includono più di una modalità. Ad esempio, prendi in considerazione un modello che accetta sia un'immagine che una didascalia (due modalità) come funzionalità e genera un punteggio che indica quanto è appropriata la didascalia dell'immagine. Di conseguenza, gli input di questo modello sono multimodali e l'output è unimodale.

No

comprensione del linguaggio naturale

#language

Determinare le intenzioni di un utente in base a ciò che l'utente ha digitato o detto. Ad esempio, un motore di ricerca utilizza la comprensione del linguaggio naturale per determinare ciò che l'utente sta cercando in base a ciò che l'utente ha digitato o detto.

N-gram

#seq
#language

Sequenza ordinata di N parole. Ad esempio, veramente matti è un grammo di 2 grammi. Perché l'ordine è pertinente, madremente è diverso da 2 grammi rispetto a davvero pazzesco.

No Nomi per questo tipo di N-gram Esempi
2 bigram o 2 grammi andare, andare a, pranzo, cena
3 trigramma o 3 grammi mangiare troppo, tre mouse ciechi, il campanello suona la campana
4 4 grammi camminare nel parco, la polvere nel vento, il bambino ha mangiato lenticchie

Molti modelli di comprensione del linguaggio naturale si basano su N-grammi per prevedere la parola successiva che l'utente digiterà o dirà. Ad esempio, supponiamo che un utente abbia digitato tre cieche. È probabile che un modello NLU basato sui trigrammi preveda che l'utente dovrà poi digitare mice.

Confrontare i N-gram con un sacchetto di parole, che sono insiemi di parole non ordinati.

NLU

#language

Abbreviazione per comprensione del linguaggio naturale.

R

tubazioni

#language

Un tipo di parallelismo del modello in cui l'elaborazione di un modello viene suddivisa in fasi consecutive e ciascuna fase viene eseguita su un dispositivo diverso. Mentre una fase elabora un batch, la fase precedente può funzionare sul batch successivo.

Vedi anche formazione graduale.

S

auto-atteggiamento (detto anche livello di auto-attenzione)

#language

Un livello di rete neurale che trasforma una sequenza di incorporamenti (ad esempio, token incorporamenti) in un'altra sequenza di incorporamenti. Ogni incorporamento nella sequenza di output viene creato integrando le informazioni degli elementi della sequenza di input tramite un meccanismo di attention.

La parte self dell'autoattenzione si riferisce alla sequenza che partecipa a se stessa anziché ad altro contesto. L'autoattenzione è uno dei componenti di base di Transformers e utilizza la terminologia di ricerca dei dizionari, ad esempio "query", "key" e "value".

Un livello di attenzione automatica inizia con una sequenza di rappresentazioni di input, una per ogni parola. La rappresentazione di input di una parola può essere un semplice incorporamento. Per ogni parola in una sequenza di input, la rete classifica la pertinenza della parola a ogni elemento nell'intera sequenza di parole. I punteggi di pertinenza determinano in che misura la rappresentazione finale della parola incorpora le rappresentazioni di altre parole.

Considera ad esempio la seguente frase:

L'animale non ha attraversato la strada perché era troppo stanco.

La seguente illustrazione (da Transformer: A Novel Neural Network Architecture for Language Comprendi) mostra un pattern di attenzione del livello di auto-attenzione per il pronome it, con l'oscurità di ogni riga che indica il contributo di ogni parola alla rappresentazione:

La frase seguente appare due volte: 'L'animale non ha
          attraversato la strada perché era troppo stanco.'  Le righe collegano la parola 'it' in
 una frase a cinque token ('The', 'animal', 'street', 'it' e il punto) nell'altra frase.  La linea tra 'it' e
          'animal' è più forte.

Il livello di autoattenzione evidenzia le parole rilevanti per "it". In questo caso, il livello di attenzione ha imparato a evidenziare le parole a cui può fare riferimento, assegnando la ponderazione più alta a animale.

Per una sequenza di n token, l'autoattenzione trasforma una sequenza di incorporamenti n tempi distinti, una volta per ogni posizione nella sequenza.

Fai riferimento anche all'attenzione e all'autoattenzione multi-head.

analisi del sentiment

#language

Utilizzare algoritmi statistici o di machine learning per determinare l'atteggiamento complessivo di un gruppo, positivo o negativo, nei confronti di un servizio, di un prodotto, di un'organizzazione o di un argomento. Ad esempio, utilizzando la comprensione del linguaggio naturale, un algoritmo potrebbe eseguire un'analisi del sentiment sul feedback testuale proveniente da un corso universitario per determinare in che misura gli studenti hanno generalmente apprezzato o meno il corso.

attività da sequenza a sequenza

#language

Un'attività che converte una sequenza di input di token in una sequenza di output di token. Ad esempio, due tipi comuni di attività in sequenza in sequenza sono:

  • Traduttori:
    • Esempio di sequenza di input: "Ti amo."
    • Esempio di sequenza di output: "Je t'aime."
  • Risposta alle domande:
    • Esempio di sequenza di immissione: "Ho bisogno della mia auto a New York?"
    • Esempio di sequenza di output: "No. Tieni l'auto a casa."

allenamento graduale

#language

Tattica di addestramento di un modello in sequenza di fasi discrete. L'obiettivo può essere quello di velocizzare il processo di addestramento o di ottenere una migliore qualità del modello.

Di seguito è illustrata un'illustrazione dell'approccio di stacking progressivo:

  • La fase 1 contiene 3 livelli nascosti, la fase 2 contiene 6 livelli nascosti e la fase 3 contiene 12 livelli nascosti.
  • La fase 2 inizia ad allenarsi con i pesi appresi nei 3 livelli nascosti della fase 1. La fase 3 inizia ad allenarsi con i pesi appresi nei 6 livelli nascosti della fase 2.

Tre fasi, etichettate 'Fase 1', 'Fase 2' e 'Fase 3'.
          Ogni fase contiene un numero diverso di livelli: la fase 1 contiene
          3 livelli, la fase 2 contiene 6 livelli e la fase 3 contiene 12 livelli.
          I tre livelli della fase 1 diventano i primi tre della fase 2.
          Allo stesso modo, i 6 livelli della fase 2 diventano i primi 6 della fase 3.

Vedi anche pipepipe.

T

token

#language

In un modello linguistico, l'unità atomica su cui si basa il modello ed esegue previsioni. In genere, un token è uno dei seguenti:

  • una parola, ad esempio la frase "cani come gatti" è composta da tre token: cani come cani, come mi piace e "gatti".
  • un carattere, ad esempio la frase "bicicletta bici" è composta da nove token di caratteri. Tieni presente che lo spazio vuoto viene conteggiato come uno dei token.
  • parole secondarie, in cui una singola parola può essere costituita da un singolo token o da più token. Una parola secondaria è composta da una parola radice, da un prefisso o da un suffisso. Ad esempio, un modello linguistico che utilizza le parole secondarie come token potrebbe visualizzare la parola "cani" come due token (la parola radice "cane") e il suffisso plurale "s". Lo stesso modello linguistico potrebbe visualizzare la parola singola "più alta" come due parole secondarie (la parola radice "alto" e il suffisso "er").

In domini esterni ai modelli linguistici, i token possono rappresentare altri tipi di unità atomiche. Ad esempio, nella visione artificiale, un token potrebbe essere un sottoinsieme di un'immagine.

Trasformatore

#language

Un'architettura di rete neurale sviluppata da Google che si basa su meccanismi di auto-attenzione per trasformare una sequenza di incorporamenti di input in una sequenza di incorporamenti di output senza fare affidamento sulle convoluzioni o sulle reti neurali ricorrenti. Un trasformatore può essere visualizzato come una pila di livelli di auto-attenzione.

Un trasformatore può includere uno dei seguenti elementi:

Un encoder trasforma una sequenza di incorporamenti in una nuova sequenza della stessa durata. Un codificatore include N livelli identici, ognuno dei quali contiene due sottolivelli. Questi due livelli secondari vengono applicati in ogni posizione della sequenza di incorporamento degli input, trasformando ogni elemento della sequenza in una nuova incorporamento. Il primo livello secondario del codificatore aggrega le informazioni provenienti dalla sequenza di input. Il secondo livello secondario di codificatore trasforma le informazioni aggregate in un incorporamento di output.

Un decoder trasforma una sequenza di incorporamenti di input in una sequenza di incorporamenti di output, possibilmente con una lunghezza diversa. Un decoder include anche N livelli identici con tre livelli secondari, due dei quali sono simili ai livelli secondari del codificatore. Il terzo substrato del decodificatore utilizza l'output del codificatore e applica il meccanismo di autoattenzione per raccogliere informazioni al suo interno.

Il post del blog Transformer: A Novel Neural Network Architecture for Language interpret fornisce una buona introduzione ai trasformatori.

trigramma

#seq
#language

Un N-gram in cui N=3.

U

unidirezionale

#language

Un sistema che valuta solo il testo che precede una sezione di testo di destinazione. Al contrario, un sistema bidirezionale valuta sia il testo che precede sia segue una sezione di testo di destinazione. Per ulteriori dettagli, consulta la pagina bidirezionale.

modello di linguaggio unidirezionale

#language

Un modello di lingua che basa le sue probabilità solo sui token visualizzati prima, non dopo, i token di destinazione. Contrasto con il modello bidirezionale del linguaggio.

W

incorporamento di parole

#language

Rappresentazione di ogni parola di un insieme di parole all'interno di un incorporamento; in altre parole, la rappresentazione di ogni parola è un vettore dei valori in virgola mobile compresi tra 0,0 e 1,0. Le parole con significati simili hanno rappresentazioni più simili rispetto a parole con significati diversi. Ad esempio, carote, sedano e cetrioli avranno tutte rappresentazioni relativamente simili, che saranno molto diverse da quelle di aeroplano, occhiali da sole e dentifricio.