Glossario del machine learning: valutazione del linguaggio

Questa pagina contiene termini del glossario per la valutazione del linguaggio. Per tutti i termini del glossario, fai clic qui.

A

Attention,

#language

Meccanismo utilizzato in una rete neurale che indica l'importanza di una determinata parola o di una sua parte. L'attenzione comprime la quantità di informazioni necessarie a un modello per prevedere il token/la parola successiva. Un tipico meccanismo di attenzione potrebbe essere costituito da una somma ponderata su un insieme di input, in cui la ponderazione di ogni input viene calcolata da un'altra parte della rete neurale.

Consulta anche l'auto-attenzione e l'auto-attenzione a più teste, che sono i componenti di base dei Transformer.

encoder automatico

#language
#image

È un sistema che impara a estrarre le informazioni più importanti dall'input. Gli autoencoder sono una combinazione di encoder e decoder. I codificatori automatici si basano sulla seguente procedura in due fasi:

  1. L'encoder mappa l'input a un formato (di solito) con dimensioni inferiori (intermedie) con perdita di dati.
  2. Il decoder crea una versione con perdita dell'input originale mappando il formato di dimensione inferiore al formato di input originale con dimensione superiore.

I codificatori automatici vengono addestrati end-to-end facendo in modo che il decoder tenti di ricostruire il più fedelmente possibile l'input originale dal formato intermedio dell'encoder. Poiché il formato intermedio è più piccolo (dimensione inferiore) rispetto al formato originale, l'autoencoder deve imparare quali informazioni nell'input sono essenziali e l'output non sarà perfettamente identico all'input.

Ad esempio:

  • Se i dati di input sono grafici, la copia non esatta sarebbe simile alla grafica originale, ma in qualche modo modificata. Può darsi che una copia non esatta rimuova il rumore dalla grafica originale o riempia alcuni pixel mancanti.
  • Se i dati di input sono testo, un encoder automatico genererà un nuovo testo che mimiti (ma non è identico) il testo originale.

Vedi anche autoencoder variazionali.

modello autoregressivo

#language
#image
#IAgenerativa

Un model che deduce una previsione in base alle proprie previsioni precedenti. Ad esempio, i modelli linguistici autoregressivi prevedono il token successivo in base ai token previsti in precedenza. Tutti i modelli linguistici di grandi dimensioni basati su Transformer sono regressivi.

Al contrario, i modelli di immagine basati su GAN di solito non sono autoregressivi poiché generano un'immagine in un singolo passaggio in avanti e non in modo iterativo. Tuttavia, alcuni modelli di generazione di immagini sono regressivi perché generano un'immagine in passaggi.

B

borsa di parole

#language

Una rappresentazione delle parole in una frase o un passaggio, indipendentemente dall'ordine. Ad esempio, "bag of words" rappresenta le seguenti tre frasi in modo identico:

  • il cane che salta
  • salta il cane
  • cane che salta

Ogni parola è mappata a un indice in un vettore scarse, in cui il vettore ha un indice per ogni parola del vocabolario. Ad esempio, la frase the dog jumps è mappata in un vettore di caratteristiche con valori diversi da zero nei tre indici corrispondenti alle parole the, dog e jumps. Il valore diverso da zero può essere uno dei seguenti:

  • 1 per indicare la presenza di una parola.
  • Conteggio del numero di volte in cui una parola viene visualizzata nel sacchetto. Ad esempio, se la frase fosse il cane bordeaux è un cane con la pelliccia di colore granata, marrone e cane sarebbero rappresentati come 2, mentre le altre parole risulteranno 1.
  • Altro valore, come il logaritmo del conteggio del numero di volte in cui una parola compare nella borsa.

BERT (Bidirectional Encoder Representations from Transformers)

#language

Un'architettura modello per la rappresentazione del testo. Un modello BERT addestrato può fare parte di un modello più grande per la classificazione del testo o altre attività ML.

BERT presenta le seguenti caratteristiche:

Le varianti di BERT includono:

Per una panoramica di BERT, consulta il documento Open Sourcing BERT: pre-addestramento all'avanguardia per l'elaborazione del linguaggio naturale.

bidirezionale

#language

Termine utilizzato per descrivere un sistema che valuta il testo che precede e segue a una sezione target di testo. Al contrario, un sistema unidirezionale valuta solo il testo che precede una sezione di testo di destinazione.

Ad esempio, considera un modello linguistico di mascheratura che deve determinare le probabilità della parola o delle parole che rappresentano la sottolineatura nella seguente domanda:

Che cos'è _____ con te?

Un modello linguistico unidirezionale dovrebbe basare le probabilità solo sul contesto fornito dalle parole "Cosa", "è" e "il". Al contrario, un modello linguistico bidirezionale potrebbe ricavare contesto anche da "con" e "tu", il che potrebbe aiutare il modello a generare previsioni migliori.

modello linguistico bidirezionale

#language

Un modello linguistico che determina la probabilità che un dato token sia presente in una determinata posizione in un estratto di testo in base al testo precedente e seguente.

bigram

#seq
#language

Un N-grammo in cui N=2.

BLEU (Bilingual Evaluation Understudy)

#language

Un punteggio compreso tra 0, 0 e 1, 0 inclusi, che indica la qualità di una traduzione tra due lingue umane (ad esempio tra inglese e russo). Un punteggio BLEU pari a 1,0 indica una traduzione perfetta, mentre un punteggio BLEU pari a 0,0 indica una traduzione peggiore.

C

modello linguistico causale

#language

Sinonimo di modello linguistico unidirezionale.

Consulta il modello linguistico bidirezionale per contrastare diversi approcci direzionali nella modellazione linguistica.

Chain-of-Thought Prompting

#language
#IAgenerativa

Una tecnica di prompt engineering che incoraggia un modello linguistico di grandi dimensioni (LLM) a spiegarne il ragionamento, passo dopo. Ad esempio, considera il seguente prompt, prestando particolare attenzione alla seconda frase:

Quante forze g può affrontare un conducente su un'auto che va da 0 a 96 km orari in 7 secondi? Nella risposta, mostra tutti i calcoli pertinenti.

Probabilmente la risposta dell'LLM:

  • Mostra una sequenza di formule fisiche, inserendo i valori 0, 60 e 7 nei punti appropriati.
  • Spiega il motivo per cui ha scelto queste formule e il significato delle varie variabili.

Prompt Chain-of-Thought obbliga l'LLM a eseguire tutti i calcoli, che potrebbe portare a una risposta più corretta. Inoltre, la richiesta di Chain-of-Thought consente all'utente di esaminare i passaggi dell'LLM per determinare se la risposta ha senso o meno.

chat

#language
#IAgenerativa

I contenuti di un dialogo avanti e indietro con un sistema di ML, in genere un modello linguistico di grandi dimensioni (LLM). L'interazione precedente in una chat (il testo digitato e la risposta del modello LLM) diventa il contesto per le parti successive della chat.

Un chatbot è un'applicazione di un modello linguistico di grandi dimensioni (LLM).

confabulazione

#language

Sinonimo di allucinazione.

Confabulazione è probabilmente un termine tecnicamente più preciso che allucinazione. Tuttavia, l'allucinazione è diventata popolare all'inizio.

analisi dei collegi elettorali

#language

Dividere una frase in strutture grammaticali più piccole ("costituenti"). Una parte successiva del sistema di ML, ad esempio un modello di comprensione del linguaggio naturale, è in grado di analizzare i cittadini più facilmente rispetto alla frase originale. Ad esempio, considera la seguente frase:

Il mio amico ha adottato due gatti.

Un parser del collegio elettorale può dividere questa frase nei seguenti due componenti:

  • Il mio amico è una frase sostantiva.
  • adopted two cats è una frase verbale.

Questi componenti possono essere ulteriormente suddivisi in componenti più piccoli. Ad esempio, la frase verbale

adottati due gatti

può essere suddiviso ulteriormente in:

  • adopted è un verbo.
  • due gatti è un'altra frase.

incorporamento nel linguaggio contestualizzato

#language
#IAgenerativa

Un incorporamento che si avvicina al "comprendere" parole e frasi nei modi in cui ciò può fare i madrelingua. L'incorporamento del linguaggio contestuale è in grado di comprendere sintassi, semantica e contesto complessi.

Ad esempio, considera gli incorporamenti della parola inglese cow. Incorporamenti meno recenti come word2vec possono rappresentare parole inglesi, in modo che la distanza nello spazio di incorporamento tra mucca e toro sia simile alla distanza tra ewe (pecora femmina) e montone (pecora maschio) o tra femmina e maschile. L'incorporamento di lingue contestuali può fare un ulteriore passo in avanti, poiché gli utenti anglofoni a volte usano la parola mucca per significare: mucca o toro.

finestra di contesto

#language
#IAgenerativa

Il numero di token che un modello può elaborare in un determinato messaggio. Più ampia è la finestra di contesto, maggiori sono le informazioni che il modello può utilizzare per fornire risposte coerenti e coerenti al prompt.

arresto anomalo in fiore

#language

Una frase con un significato ambiguo. I fiori degli arresti anomali rappresentano un problema significativo nella comprensione del linguaggio naturale. Ad esempio, il titolo Red Tape Holds Up Skyscraper è un successo improvviso perché un modello NLU potrebbe interpretare il titolo in senso letterale o figurativo.

D

decoder

#language

In generale, qualsiasi sistema di ML che converte da una rappresentazione elaborata, densa o interna a una rappresentazione più non elaborata, sparsa o esterna.

I decoder sono spesso un componente di un modello più grande, in cui sono spesso accoppiati a un encoder.

Nelle attività da sequenza a sequenza, un decoder inizia con lo stato interno generato dall'encoder per prevedere la sequenza successiva.

Fai riferimento a Transformer per la definizione di un decoder nell'architettura Transformer.

riduzione del rumore

#language

Un approccio comune all'apprendimento autonomo in cui:

  1. Il rumore viene aggiunto artificialmente al set di dati.
  2. Il model cerca di rimuovere il rumore.

La riduzione del rumore consente di apprendere da esempi non etichettati. Il set di dati originale funge da target o etichetta e da dati sul rumore come input.

Alcuni modelli linguistici di annunci mascherati utilizzano la riduzione del rumore come segue:

  1. Il rumore viene aggiunto artificialmente a una frase non etichettata mascherando alcuni token.
  2. Il modello cerca di prevedere i token originali.

prompt diretti

#language
#IAgenerativa

Sinonimo di prompt zero-shot.

E

modifica distanza

#language

Una misurazione della somiglianza tra due stringhe di testo. Nel machine learning, la modifica della distanza è utile perché è semplice da calcolare e un modo efficace per confrontare due stringhe note per essere simili o per trovare stringhe simili a una determinata stringa.

Esistono diverse definizioni di distanza di modifica, ognuna delle quali utilizza operazioni di stringa diverse. Ad esempio, per la distanza levenshtein viene preso in considerazione il minor numero di operazioni di eliminazione, inserimento e sostituzione.

Ad esempio, la distanza Levenshtein tra le parole "cuore" e "frecce" è 3 perché le tre modifiche seguenti sono il numero minimo di modifiche per trasformare una parola nell'altra:

  1. cuore → deart (sostituisci "h" con "d")
  2. deart → dart (elimina "e")
  3. dart → freccette (inserisci "s")

livello di incorporamento

#language
#fundamentals

Uno speciale livello nascosto che si addestra su una funzionalità categorica ad alta dimensione per apprendere gradualmente un vettore di incorporamento di dimensioni inferiori. Un livello di incorporamento consente a una rete neurale di addestrare in modo molto più efficiente rispetto all'addestramento solo sulla caratteristica categoriale ad alta dimensione.

Ad esempio, attualmente la Terra supporta circa 73.000 specie di alberi. Supponiamo che le specie di alberi siano una caratteristica nel modello, quindi il livello di input del modello include un vettore one-hot lungo 73.000 elementi. Ad esempio, baobab potrebbe essere rappresentato in modo simile al seguente:

Un array di 73.000 elementi. I primi 6232 elementi contengono il valore
     0. L'elemento successivo contiene il valore 1. Gli ultimi 66.767 elementi contengono il valore zero.

Un array di 73.000 elementi è molto lungo. Se non aggiungi un livello di incorporamento al modello, l'addestramento richiederà molto tempo a causa della moltiplicazione di 72.999 zeri. Ad esempio, puoi scegliere che lo strato di incorporamento sia composto da 12 dimensioni. Di conseguenza, lo strato di incorporamento apprenderà gradualmente un nuovo vettore di incorporamento per ogni specie di albero.

In alcune situazioni, l'hashing è un'alternativa ragionevole a un livello di incorporamento.

spazio di incorporamento

#language

Lo spazio vettoriale d-dimensionale in cui vengono mappati gli elementi di uno spazio vettoriale di dimensione superiore. Idealmente, lo spazio di incorporamento contiene una struttura che restituisce risultati matematici significativi. Ad esempio, in uno spazio di incorporamento ideale, l'aggiunta e la sottrazione di incorporamenti possono risolvere attività di analogia delle parole.

Il prodotto punto di due incorporamenti è una misura della loro somiglianza.

vettore di incorporamento

#language

In linea di massima, un array di numeri in virgola mobile tratti da qualsiasi livello nascosto che descrive gli input di quel livello nascosto. Spesso, un vettore di incorporamento è l'array di numeri in virgola mobile addestrati in uno strato di incorporamento. Supponiamo, ad esempio,che un livello di incorporamento debba apprendere un vettore di incorporamento per ognuna delle 73.000 specie di alberi sulla Terra. Forse il seguente array è il vettore di incorporamento per un baobab:

Un array di 12 elementi, ciascuno con un numero in virgola mobile compreso tra 0,0 e 1,0.

Un vettore di incorporamento non è un gruppo di numeri casuali. Un livello di incorporamento determina questi valori tramite l'addestramento, in modo simile al modo in cui una rete neurale apprende altri pesi durante l'addestramento. Ogni elemento dell'array è una valutazione lungo alcune caratteristiche di una specie di albero. Quale elemento rappresenta la caratteristica di quale specie di alberi? Questo è molto difficile per gli esseri umani.

La parte matematicamente rilevante di un vettore di incorporamento è che gli elementi simili hanno insiemi simili di numeri in virgola mobile. Ad esempio, le specie di alberi simili hanno un insieme più simile di numeri in virgola mobile rispetto a specie di alberi diverse. Le sequoie e le sequoie sono specie di alberi correlate, quindi avranno una serie di numeri con punta fluttuante più simile a quella delle sequoie e delle palme da cocco. I numeri nel vettore di incorporamento cambieranno ogni volta che riaddestri il modello, anche se riaddestra il modello con un input identico.

codificatore

#language

In generale, qualsiasi sistema di ML che converte da una rappresentazione non elaborata, sparsa o esterna a una rappresentazione più elaborata, più densa o interna.

Gli encoder sono spesso parte di un modello più grande e sono spesso accoppiati a un decoder. Alcuni Transformer accoppiano i codificatori con i decoder, mentre altri utilizzano solo l'encoder o solo il decoder.

Alcuni sistemi utilizzano l'output dell'encoder come input per una rete di classificazione o regressione.

Nelle attività da sequenza a sequenza, un codificatore prende una sequenza di input e restituisce uno stato interno (un vettore). Quindi, il decoder utilizza questo stato interno per prevedere la sequenza successiva.

Per la definizione di un encoder nell'architettura Transformer, consulta la sezione Transformer.

F

prompt few-shot

#language
#IAgenerativa

Un prompt che contiene più di un esempio (solo "pochi") che mostra come deve rispondere il modello linguistico di grandi dimensioni (LLM). Ad esempio, il seguente lungo prompt contiene due esempi che mostrano come rispondere a una query con un modello linguistico di grandi dimensioni.

Parti di un prompt Note
Qual è la valuta ufficiale del paese specificato? La domanda a cui vuoi che l'LLM risponda.
Francia: EUR Ecco un esempio.
Regno Unito: GBP Un altro esempio.
India: La query effettiva.

I prompt few-shot in genere producono risultati più desiderabili rispetto ai Prompt zero-shot e ai Prompt one-shot. Tuttavia, i prompt few-shot richiedono un prompt più lungo.

Prompt few-shot è una forma di apprendimento few-shot applicata all'apprendimento basato su prompt.

Violino

#language

Una libreria di configurazione incentrata su Python che imposta i valori di funzioni e classi senza codice o infrastruttura invasivi. Nel caso di Pax e di altri codebase ML, queste funzioni e classi rappresentano modelli e iperparametri di addestramento.

Fiddle presuppone che i codebase di machine learning siano generalmente suddivisi in:

  • Codice libreria, che definisce i livelli e gli ottimizzatori.
  • Il codice "colla" del set di dati, che chiama le librerie e collega il tutto.

Fiddle acquisisce la struttura delle chiamate del codice colla in una forma non valutata e modificabile.

messa a punto

#language
#image
#IAgenerativa

Un secondo pass di addestramento specifico per l'attività eseguito su un modello preaddestrato per perfezionare i parametri in base a un caso d'uso specifico. Ad esempio, la sequenza completa di addestramento per alcuni modelli linguistici di grandi dimensioni è la seguente:

  1. Preaddestramento: addestra un modello linguistico di grandi dimensioni (LLM) su un ampio set di dati generale, ad esempio tutte le pagine di Wikipedia in lingua inglese.
  2. Ottimizzazione: addestra il modello preaddestrato per eseguire un'attività specifica, ad esempio rispondere a domande mediche. Il perfezionamento comporta in genere centinaia o migliaia di esempi incentrati sull'attività specifica.

Ecco un altro esempio: la sequenza completa di addestramento per un modello con immagini di grandi dimensioni è la seguente:

  1. Preaddestramento: addestra un modello di immagini di grandi dimensioni su un vasto set di dati di immagini generali, come tutte le immagini in Wikimedia Commons.
  2. Perfezionamento: addestra il modello preaddestrato per eseguire un'attività specifica, ad esempio la generazione di immagini di orche.

Il perfezionamento può comportare una combinazione delle seguenti strategie:

  • Modifica di tutti i parametri esistenti del modello preaddestrato. Questa procedura è a volte chiamata ottimizzazione completa.
  • Modificare solo alcuni dei parametri esistenti del modello preaddestrato (in genere, i livelli più vicini al livello di output), senza modificare gli altri parametri esistenti (in genere quelli più vicini al livello di input). Consulta l'ottimizzazione efficiente dei parametri.
  • Aggiunta di altri livelli, in genere sopra quelli esistenti più vicini al livello di output.

Il perfezionamento è una forma di Transfer Learning. Di conseguenza, l'ottimizzazione potrebbe utilizzare una funzione di perdita o un tipo di modello diverso rispetto a quelli utilizzati per addestrare il modello preaddestrato. Ad esempio, potresti perfezionare un modello di immagini di grandi dimensioni preaddestrato per produrre un modello di regressione che restituisca il numero di uccelli in un'immagine di input.

Metti a confronto i seguenti termini di messa a punto:

Lino

#language

Una libreria open source ad alte prestazioni per il deep learning basata su JAX. Flax offre funzioni per l'addestramento delle reti neurali, nonché i metodi per valutarne le prestazioni.

Forma del lino

#language

Una libreria Transformer open source, basata su Flax, progettata principalmente per l'elaborazione del linguaggio naturale e la ricerca multimodale.

G

IA generativa

#language
#image
#IAgenerativa

Un campo rivoluzionario emergente senza una definizione formale. Detto questo, la maggior parte degli esperti concorda sul fatto che i modelli di IA generativa possono creare ("generare") contenuti che corrispondono a quanto segue:

  • complesso
  • coerente
  • originale

Ad esempio, un modello di IA generativa può creare immagini o saggi.

Anche alcune tecnologie precedenti, tra cui gli LSTM e gli RNN, possono generare contenuti originali e coerenti. Alcuni esperti considerano queste tecnologie precedenti come IA generativa, mentre altri ritengono che la vera IA generativa richieda risultati più complessi rispetto a quelli prodotti dalle tecnologie precedenti.

Sono invece opposti al ML predittivo.

GPT (Generative Pre-addestrati Transformer)

#language

Una famiglia di modelli linguistici di grandi dimensioni basati su Transformer sviluppati da OpenAI.

Le varianti GPT possono essere applicate a diverse modalità, tra cui:

  • generazione di immagini (ad es. ImageGPT)
  • da testo a immagine (ad esempio, DALL-E).

V

allucinazione

#language

La produzione di output plausibili, ma di fatto errati, da parte di un modello di IA generativa che dichiara di fare un'affermazione sul mondo reale. Ad esempio, un modello di IA generativa che afferma che Barack Obama è morto nel 1865 è allucinante.

I

apprendimento contestuale

#language
#IAgenerativa

Sinonimo di prompt few-shot.

L

LaMDA (Language Model for Dialogue Applications)

#language

Un modello linguistico di grandi dimensioni basato su Transformer, sviluppato da Google, addestrato su un ampio set di dati dei dialoghi in grado di generare risposte conversazionali realistiche.

LaMDA: la nostra innovativa tecnologia di conversazione fornisce una panoramica.

modello linguistico

#language

Un model che stima la probabilità di un model o di una sequenza di token che si verificano in una sequenza più lunga di token.

modello LLM

#language

Termine informale senza definizione rigorosa che di solito indica un modello linguistico con un numero elevato di parametri. Alcuni modelli linguistici di grandi dimensioni (LLM) contengono oltre 100 miliardi di parametri.

spazio latente

#language

Sinonimo di spazio di incorporamento.

LLM

#language

Abbreviazione di Large Language Model.

LoRA

#language
#IAgenerativa

Abbreviazione di Low-Rank Adjustability.

Adattabilità a basso ranking (LoRA)

#language
#IAgenerativa

Un algoritmo per eseguire l'ottimizzazione efficiente dei parametri che perfeziona solo un sottoinsieme dei parametri di un modello linguistico di grandi dimensioni (LLM). LoRA offre i seguenti vantaggi:

  • Perfeziona più velocemente rispetto alle tecniche che richiedono l'ottimizzazione di tutti i parametri di un modello.
  • Riduce il costo di calcolo dell'inferenza nel modello ottimizzato.

Un modello ottimizzato con LoRA mantiene o migliora la qualità delle sue previsioni.

LoRA consente più versioni specializzate di un modello.

L

modello linguistico mascherato

#language

Un modello linguistico che prevede la probabilità che i token dei candidati riempiano gli spazi vuoti in una sequenza. Ad esempio, un modello linguistico mascherato può calcolare le probabilità di una o più parole candidati per sostituire la sottolineatura nella seguente frase:

È tornato il ____ nel cappello.

In genere viene utilizzata la stringa "MASK" anziché una sottolineatura. Ad esempio:

La "MASCHEZZA" nel cappello è tornata.

La maggior parte dei modelli linguistici mascherati moderni è bidirezionale.

meta-apprendimento

#language

Un sottoinsieme del machine learning che scopre o migliora un algoritmo di apprendimento. Un sistema di meta-apprendimento può anche mirare ad addestrare un modello per apprendere rapidamente una nuova attività da una piccola quantità di dati o dall'esperienza acquisita nelle attività precedenti. Generalmente, gli algoritmi di meta-apprendimento cercano di raggiungere i seguenti obiettivi:

  • Migliorare o apprendere funzionalità progettate manualmente (come un inizializzatore o un ottimizzatore).
  • Maggiore efficienza in termini di dati ed efficienza di calcolo.
  • Migliorare la generalizzazione.

Il meta-apprendimento è correlato all'apprendimento few-shot.

modalità

#language

Una categoria di dati di alto livello. Ad esempio, numeri, testo, immagini, video e audio sono cinque modalità diverse.

parallelismo del modello

#language

Un modo per scalare l'addestramento o l'inferenza che inserisce parti diverse di un model su diversi model. Il parallelismo dei modelli consente ai modelli troppo grandi per essere inseriti in un solo dispositivo.

Per implementare il parallelismo dei modelli, un sistema di solito:

  1. Suddivide il modello in parti più piccole.
  2. Distribuisce l'addestramento di queste parti più piccole su più processori. Ogni processore addestra la propria parte del modello.
  3. Combina i risultati per creare un singolo modello.

Il parallelismo dei modelli rallenta l'addestramento.

Vedi anche Parallelismo dei dati.

auto-attenzione multipla

#language

Un'estensione dell'auto-attenzione che applica il meccanismo di auto-attenzione più volte per ogni posizione nella sequenza di input.

I Transformers hanno introdotto l'auto-attenzione multi-testa.

modello multimodale

#language

Un modello i cui input e/o output includono più di una modalità. Ad esempio, considera un modello che prende sia un'immagine che una didascalia di testo (due modalità) come caratteristiche e restituisce un punteggio che indica l'adeguatezza della didascalia di testo per l'immagine. Quindi, gli input di questo modello sono multimodali e l'output è unimodale.

N

comprensione del linguaggio naturale

#language

Determinare le intenzioni di un utente in base a ciò che ha digitato o detto. Ad esempio, un motore di ricerca utilizza la comprensione del linguaggio naturale per determinare ciò che l'utente sta cercando in base a ciò che ha digitato o detto.

N-grammo

#seq
#language

Una sequenza ordinata di N parole. Ad esempio, davvero folle è una pesata di 2 grammi. Poiché l'ordine è importante, ma molto di più 2 grammi di peso è diverso da davvero pazzesco.

N Nomi per questo tipo di n-grammi Esempi
2 bigram o 2 grammi andare, andare a, pranzare, cenare
3 trigramma o 3 grammi mangiare troppo, tre topi ciechi, il campanello suona
4 4 grammi camminare nel parco, polvere al vento, il ragazzo mangiava lenticchie

Molti modelli di comprensione del linguaggio naturale si basano su N-grammi per prevedere la parola successiva che l'utente digiti o pronuncerà. Ad esempio, supponiamo che un utente abbia digitato tre ciechi. Un modello NLU basato sui trigrammi probabilmente prevede che l'utente digiterà poi i topo.

Metti a confronto N-grammi con sacco di parole, che sono insiemi di parole non ordinati.

NLU

#language

Abbreviazione di natural languageing (comprensione del linguaggio naturale).

O

prompt one-shot

#language
#IAgenerativa

Un messaggio contenente un esempio che mostra come deve rispondere il modello linguistico di grandi dimensioni (LLM). Ad esempio, il seguente prompt contiene un esempio che mostra come un modello linguistico di grandi dimensioni (LLM) dovrebbe rispondere a una query.

Parti di un prompt Note
Qual è la valuta ufficiale del paese specificato? La domanda a cui vuoi che l'LLM risponda.
Francia: EUR Ecco un esempio.
India: La query effettiva.

Confronta i prompt one-shot con i seguenti termini:

P

ottimizzazione efficiente dei parametri

#language
#IAgenerativa

Un insieme di tecniche per mettere a punto un modello linguistico preaddestrato (PLM) di grandi dimensioni in modo più efficiente rispetto all'ottimizzazione completa. Un'ottimizzazione efficiente in base ai parametri in genere ottimizza molti meno parametri rispetto all'ottimizzazione completa, ma in genere produce un modello linguistico di grandi dimensioni che ha le stesse prestazioni (o quasi) di un modello linguistico di grandi dimensioni (LLM) creato con un'ottimizzazione completa.

Confronta e contrapponi l'ottimizzazione efficiente dai parametri con:

L'ottimizzazione efficiente dei parametri è nota anche come ottimizzazione efficiente dei parametri.

pipeline

#language

Una forma di Parallelismo del modello in cui l'elaborazione di un modello viene divisa in fasi consecutive e ogni fase viene eseguita su un dispositivo diverso. Mentre una fase elabora un batch, la fase precedente può lavorare sul batch successivo.

Vedi anche la formazione graduale.

PLM

#language
#IAgenerativa

Abbreviazione di modello linguistico preaddestrato.

codifica posizionale

#language

Una tecnica per aggiungere informazioni sulla posizione di un token in una sequenza all'incorporamento. I modelli Transformer utilizzano la codifica posizionale per comprendere meglio la relazione tra le diverse parti della sequenza.

Un'implementazione comune della codifica posizionale utilizza una funzione sinusoidale. In particolare, la frequenza e l'ampiezza della funzione sinusoidale sono determinate dalla posizione del token nella sequenza. Questa tecnica consente al modello Transformer di imparare a osservare parti diverse della sequenza in base alla loro posizione.

modello preaddestrato

#language
#image
#IAgenerativa

Modelli o componenti del modello (come un vettore di incorporamento) già addestrati. A volte, invii vettori di incorporamento preaddestrati in una rete neurale. Altre volte, il modello addestrerà i vettori di incorporamento in sé, invece di affidarsi agli incorporamenti preaddestrati.

Il termine modello linguistico preaddestrato fa riferimento a un modello linguistico di grandi dimensioni (LLM) che è stato sottoposto a preaddestramento.

preaddestramento

#language
#image
#IAgenerativa

L'addestramento iniziale di un modello su un grande set di dati. Alcuni modelli preaddestrati sono giganti e in genere devono essere perfezionati mediante addestramento aggiuntivo. Ad esempio, gli esperti di ML potrebbero preaddestrare un modello linguistico di grandi dimensioni (LLM) su un vasto set di dati di testo, come tutte le pagine in inglese su Wikipedia. Dopo il pre-addestramento, il modello risultante potrebbe essere ulteriormente perfezionato tramite una delle seguenti tecniche:

richiesta

#language
#IAgenerativa

Qualsiasi testo inserito come input in un modello linguistico di grandi dimensioni (LLM) per condizionare il modello in modo che si comporti in un determinato modo. I prompt possono essere brevi come una frase o arbitrariamente lunghi (ad esempio l'intero testo di un romanzo). I prompt rientrano in più categorie, incluse quelle mostrate nella seguente tabella:

Categoria del prompt Esempio Note
Domanda Quanto è veloce un piccione a volare?
Istruzione Scrivi una poesia divertente sull'arbitraggio. Un prompt che chiede al modello LLM di fare qualcosa.
Esempio Traduci il codice Markdown in HTML. Ad esempio:
Markdown: * voce elenco
HTML: <ul> <li>elemento dell'elenco</li> </ul>
La prima frase di questo prompt di esempio è un'istruzione. Il resto del prompt è l'esempio.
Ruolo Spiega perché la discesa del gradiente viene utilizzata nell'addestramento tramite machine learning per un dottorato di ricerca in fisica. La prima parte della frase è un'istruzione; la frase "per un dottorato in fisica" è la parte relativa al ruolo.
Input parziale per il completamento del modello Il Primo Ministro del Regno Unito vive presso Un prompt di input parziale può terminare improvvisamente (come in questo esempio) o terminare con un trattino basso.

Un modello di IA generativa è in grado di rispondere a un prompt con testo, codice, immagini, incorporamenti, video... praticamente qualsiasi cosa.

apprendimento basato su prompt

#language
#IAgenerativa

La funzionalità di alcuni modelli che consente loro di adattare il proprio comportamento in risposta a un input di testo arbitrario (richieste). In un tipico paradigma di apprendimento basato su prompt, un modello linguistico di grandi dimensioni (LLM) risponde a un prompt generando del testo. Ad esempio, supponiamo che un utente inserisca il seguente prompt:

Riassumi il terzo principio della dinamica di Newton.

Un modello in grado di apprendimento basato su prompt non è addestrato specificamente per rispondere al prompt precedente. Piuttosto, il modello "conosce" molte informazioni sulla fisica, molto sulle regole generali del linguaggio e molto su ciò che costituisce risposte generalmente utili. Queste conoscenze sono sufficienti per fornire una risposta (si spera) utile. Il feedback umano aggiuntivo ("Questa risposta era troppo complicata." o "Che cos'è una reazione?") consente ad alcuni sistemi di apprendimento basati su prompt di migliorare gradualmente l'utilità delle loro risposte.

progettazione dei prompt

#language
#IAgenerativa

Sinonimo di prompt engineering.

ingegneria del prompt

#language
#IAgenerativa

L'arte di creare messaggi che generino le risposte desiderate da un modello linguistico di grandi dimensioni (LLM). Gli esseri umani svolgono l'ingegneria del prompt. Scrivere prompt ben strutturati è essenziale per garantire risposte utili da un modello linguistico di grandi dimensioni (LLM). Il prompt engineering dipende da molti fattori, tra cui:

Consulta Introduzione alla progettazione dei prompt per ulteriori dettagli sulla scrittura di prompt utili.

Progettazione di prompt è un sinonimo di prompt engineering.

ottimizzazione dei prompt

#language
#IAgenerativa

Un meccanismo di ottimizzazione efficiente dei parametri che apprende un "prefisso" che il sistema antepone al prompt effettivo.

Una variante dell'ottimizzazione dei prompt, a volte chiamata ottimizzazione del prefisso, consiste nell'anteporre il prefisso a ogni livello. Al contrario, la maggior parte dell'ottimizzazione dei prompt aggiunge solo un prefisso al livello di input.

R

prompt dei ruoli

#language
#IAgenerativa

Parte facoltativa di un prompt che identifica un pubblico di destinazione per la risposta di un modello di IA generativa. Senza un messaggio sul ruolo, un modello linguistico di grandi dimensioni (LLM) fornisce una risposta che potrebbe o meno essere utile per la persona che pone le domande. Con un prompt di ruolo, un modello linguistico di grandi dimensioni può rispondere nel modo più appropriato e utile per un pubblico di destinazione specifico. Ad esempio, la parte del prompt del ruolo delle seguenti richieste è in grassetto:

  • Riassumi questo articolo per un dottorato di ricerca in economia.
  • Descrivi come funzionano le maree per un bambino di dieci anni.
  • Spiegare la crisi finanziaria del 2008. Parla come potresti a un bambino o a un golden retriever.

S

auto-attenzione (detto anche strato di auto-attenzione)

#language

Un livello di rete neurale che trasforma una sequenza di incorporamenti (ad esempio incorporamenti token) in un'altra sequenza di incorporamenti. Ogni incorporamento nella sequenza di output viene costruita integrando le informazioni dagli elementi della sequenza di input tramite un meccanismo di attenzione.

La parte relativa all'auto-attenzione all'auto-attenzione si riferisce alla sequenza associata a se stessa e non ad altro contesto. L'auto-attenzione è uno dei componenti di base principali dei Transformer e utilizza la terminologia di ricerca del dizionario, ad esempio "query", "chiave" e "valore".

Un livello di auto-attenzione inizia con una sequenza di rappresentazioni di input, una per ogni parola. La rappresentazione di input per una parola può essere una semplice incorporamento. Per ogni parola in una sequenza di input, la rete assegna un punteggio alla pertinenza della parola rispetto a ogni elemento dell'intera sequenza di parole. I punteggi di pertinenza determinano in che misura la rappresentazione finale di una parola incorpora le rappresentazioni di altre parole.

Ad esempio, considera la seguente frase:

L'animale non ha attraversato la strada perché era troppo stanco.

L'illustrazione seguente (da Transformer: A Novel Neural Network Architecture for Language Understanding) mostra il modello di attenzione di un livello di auto-attenzione per il pronome it, con l'oscurità di ogni riga che indica in che misura ogni parola contribuisce alla rappresentazione:

La seguente frase appare due volte: L&#39;animale non ha attraversato la strada perché era troppo stanco. Le righe collegano il pronome in una frase a cinque token (L&#39;animale, la strada, questo e il punto) nell&#39;altra frase.  La linea tra il pronome e la parola &quot;animale&quot; è più incisiva.

Il livello di auto-attenzione mette in evidenza le parole che sono pertinenti al contesto. In questo caso, il livello Attention ha imparato a evidenziare le parole a cui potrebbe fare riferimento, assegnando il massimo peso ad animale.

Per una sequenza di n token, l'auto-attenzione trasforma una sequenza di incorporamenti n volte separate, una volta in ogni posizione della sequenza.

Fai riferimento anche ad attenzione e auto-attenzione a più persone.

analisi del sentiment

#language

Utilizzo di algoritmi statistici o di machine learning per determinare l'atteggiamento complessivo di un gruppo (positivo o negativo) nei confronti di un servizio, un prodotto, un'organizzazione o un argomento. Ad esempio, utilizzando la comprensione del linguaggio naturale, un algoritmo potrebbe eseguire un'analisi del sentiment sul feedback testuale di un corso universitario per determinare il livello in cui gli studenti hanno generalmente apprezzato o meno il corso.

attività da sequenza a sequenza

#language

Un'attività che converte una sequenza di input di token in una sequenza di output di token. Ad esempio, due tipi popolari di attività da sequenza a sequenza sono:

  • Traduttori:
    • Sequenza di input di esempio: "Ti amo".
    • Sequenza di output di esempio: "Je t'aime".
  • Risposta alle domande:
    • Esempio di sequenza di input: "Mi serve l'auto a New York?"
    • Sequenza di output di esempio: "No. Tieni l'auto a casa".

salta grammo

#language

Un elemento n-gram che può omettere (o "saltare") parole dal contesto originale, ossia le N parole potrebbero non essere state originariamente adiacenti. Più precisamente, "k-skip-n-gram" è un n-grammo per cui potrebbero essere state saltate fino a k parole.

Ad esempio, "the quick brown fox" ha i seguenti possibili 2 grammi:

  • "il rapido"
  • "marrone rapido"
  • "volpe marrone"

"1-skip-2-gram" è una coppia di parole tra le quali al massimo 1 parola. Pertanto, "the quick brown fox" ha il seguente 1-saltamento di 2 grammi:

  • "il marrone"
  • "volpe veloce"

Inoltre, tutti i 2 grammi sono anche di 1-salta-2-grammi, poiché meno di una parola può essere saltata.

L'opzione Salta-grammi è utile per comprendere meglio il contesto di una parola. Nell'esempio, "volpe" è stato associato direttamente a "veloce" nel set di 1-skip-2-grammi, ma non nel set di 2-grammi.

Questa funzionalità consente di addestrare i modelli di incorporamento delle parole.

ottimizzazione dei prompt software

#language
#IAgenerativa

Una tecnica per l'ottimizzazione di un modello linguistico di grandi dimensioni (LLM) per una determinata attività, senza perfezionamento intensivo di risorse. Anziché riaddestrare tutte le ponderazioni nel modello, l'ottimizzazione dei prompt software regola automaticamente un prompt per raggiungere lo stesso obiettivo.

Dato un prompt testuale, l'ottimizzazione dei prompt software in genere aggiunge ulteriori incorporamenti di token al prompt e utilizza la retropropagazione dell'input per ottimizzare l'input.

Un prompt "hard" contiene token effettivi invece di incorporamenti di token.

elemento sparso

#language
#fundamentals

Una feature i cui valori sono prevalentemente zero o vuoti. Ad esempio, una caratteristica che contiene un singolo valore 1 e un milione di valori 0 è scarsa. Al contrario, una caratteristica densa ha valori che non sono prevalentemente zero o vuoti.

Nel machine learning, un numero sorprendente di caratteristiche sono sparse. Le caratteristiche categoriche sono in genere caratteristiche sparse. Ad esempio, delle 300 possibili specie di alberi in una foresta, un singolo esempio potrebbe identificare solo un acero. Oppure, tra i milioni di video possibili in una raccolta video, un singolo esempio potrebbe identificare solo "Casablanca".

In un modello, in genere rappresenti caratteristiche sparse con codifica one-hot. Se la codifica one-hot è di grandi dimensioni, potresti aggiungere un livello di incorporamento oltre alla codifica one-hot per una maggiore efficienza.

rappresentazione sparsa

#language
#fundamentals

Memorizzazione solo delle posizioni degli elementi diversi da zero in una caratteristica sparsa.

Ad esempio, supponiamo che un elemento di categoria denominato species identifichi le 36 specie di alberi in una determinata foresta. Supponiamo inoltre che ogni esempio identifichi solo una singola specie.

Puoi utilizzare un vettore one-hot per rappresentare le specie degli alberi in ciascun esempio. Un vettore one-hot contiene un singolo elemento 1 (per rappresentare le specie di alberi in questione nell'esempio) e 35 0 (per rappresentare le 35 specie di alberi non presenti in quell'esempio). Di conseguenza, la rappresentazione one-hot di maple potrebbe avere il seguente aspetto:

Vettore in cui le posizioni da 0 a 23 contengono il valore 0, la posizione 24 contiene il valore 1 e le posizioni da 25 a 35 contengono il valore 0.

In alternativa, la rappresentazione sparsa identificherebbe semplicemente la posizione della specifica specie. Se maple si trova nella posizione 24, la rappresentazione sparsa di maple sarebbe semplicemente:

24

Nota che la rappresentazione sparsa è molto più compatta rispetto alla rappresentazione one-hot.

addestramento graduale

#language

Tattica di addestramento di un modello in una sequenza di fasi discrete. L'obiettivo può essere accelerare il processo di addestramento o ottenere una migliore qualità del modello.

Di seguito è riportata un'illustrazione dell'approccio di stack progressivo:

  • La fase 1 contiene 3 livelli nascosti, la fase 2 contiene 6 livelli nascosti e la fase 3 contiene 12 livelli nascosti.
  • La fase 2 inizia l'addestramento con i pesi appresi nei 3 livelli nascosti della fase 1. La fase 3 inizia l'addestramento con i pesi appresi nei 6 livelli nascosti della fase 2.

Tre fasi, etichettate come Fase 1, Fase 2 e Fase 3.
          Ogni fase contiene un numero diverso di livelli: la fase 1 contiene 3 livelli, la fase 2 ha 6 livelli e la fase 3 ne contiene 12.
          I 3 livelli della Fase 1 diventano i primi 3 strati della Fase 2.
          Analogamente, i sei livelli della fase 2 diventano i primi sei della fase 3.

Vedi anche pipeline.

token della sottoparola

#language

Nei modelli linguistici, un token costituito da una sottostringa di una parola, che può essere l'intera parola.

Ad esempio, una parola come "itemize" potrebbe essere scomposta nei pezzi "item" (una radice) e "ize" (un suffisso), ognuno dei quali è rappresentato da un proprio token. La suddivisione di parole insolite in tali parti, chiamate sottoparole, consente ai modelli linguistici di operare sulle parti più comuni della parola, come prefissi e suffissi.

Al contrario, parole comuni come "andare" potrebbero non essere suddivise e potrebbero essere rappresentate da un singolo token.

T

T5

#language

Un modello di Transfer Learning da testo a testo introdotto dall' IA di Google nel 2020. T5 è un modello encoder-decoder basato sull'architettura Transformer, addestrato su un set di dati di dimensioni estremamente grandi. Si tratta di una soluzione efficace per varie attività di elaborazione del linguaggio naturale, come la generazione di testo, la traduzione di lingue e la risposta alle domande in modo conversazionale.

Il T5 prende il nome dalle cinque T di "Text-to-Text Transfer Transformer".

T5X

#language

Un framework di machine learning open source progettato per creare e addestrare modelli di elaborazione del linguaggio naturale (NLP) su larga scala. T5 è implementato sul codebase T5X (che è costruito su JAX e Flax).

temperatura

#language
#image
#IAgenerativa

Un iperparametro che controlla il grado di casualità dell'output di un modello. Temperature più alte comportano output più casuali, mentre temperature più basse generano output meno casuali.

La scelta della temperatura migliore dipende dall'applicazione specifica e dalle proprietà preferite dell'output del modello. Ad esempio, probabilmente alzi la temperatura quando crei un'applicazione che genera un output di creatività. Al contrario, probabilmente abbassiresti la temperatura quando crei un modello che classifica immagini o testo per migliorarne accuratezza e coerenza.

La temperatura viene spesso utilizzata con softmax.

intervallo di testo

#language

L'intervallo dell'indice dell'array associato a una sottosezione specifica di una stringa di testo. Ad esempio, la parola good nella stringa Python s="Be good now" occupa l'intervallo di testo da 3 a 6.

token

#language

In un modello linguistico, l'unità atomica su cui il modello viene addestrato e su cui esegue previsioni. Un token è in genere uno dei seguenti:

  • Una parola, ad esempio la frase "cani come i gatti" è composta da tre token di parola: "cani", "mi piace" e "gatti".
  • un carattere, ad esempio la frase "pesce bicicletta" è composta da nove token di caratteri. Tieni presente che lo spazio vuoto viene considerato come uno dei token.
  • in cui una singola parola può essere un singolo token o più token. Una sottoparola è composta da una parola radice, un prefisso o un suffisso. Ad esempio, un modello linguistico che utilizza parole secondarie come token potrebbe visualizzare la parola "cani" come due token (la parola radice "cane" e il suffisso plurale "s"). Lo stesso modello linguistico potrebbe considerare la singola parola "più alta" come due sottoparole (la parola radice "tall" e il suffisso "er").

Nei domini esterni ai modelli linguistici, i token possono rappresentare altri tipi di unità atomiche. In visione artificiale, ad esempio, un token potrebbe essere un sottoinsieme di un'immagine.

Transformer

#language

Un'architettura di rete neurale sviluppata da Google che si basa sui meccanismi di auto-attenzione per trasformare una sequenza di incorporamenti di input in una sequenza di incorporamenti di output senza fare affidamento su convoluzioni o reti neurali ricorrenti. Un Transformer può essere visto come una pila di livelli di auto-attenzione.

Un trasformatore può includere uno qualsiasi dei seguenti elementi:

Un encoder trasforma una sequenza di incorporamenti in una nuova sequenza della stessa lunghezza. Un encoder include N livelli identici, ognuno dei quali contiene due sottolivelli. Questi due sottolivelli vengono applicati in ciascuna posizione della sequenza di incorporamento dell'input, trasformando ogni elemento della sequenza in un nuovo processo di incorporamento. Il primo sottolivello dell'encoder aggrega informazioni provenienti da tutta la sequenza di input. Il secondo sottolivello dell'encoder trasforma le informazioni aggregate in un incorporamento di output.

Un decoder trasforma una sequenza di incorporamenti di input in una sequenza di incorporamenti di output, possibilmente con una lunghezza diversa. Un decoder include anche N livelli identici con tre sottolivelli, due dei quali sono simili ai sottolivelli dell'encoder. Il terzo sottolivello decoder prende l'output dell'encoder e applica il meccanismo di auto-attenzione per raccoglierne informazioni.

Il post del blog Transformer: una nuova architettura di rete neurale per la comprensione del linguaggio offre un'ottima introduzione ai trasformatori.

trigramma

#seq
#language

Un N-grammo in cui N=3.

U

unidirezionale

#language

Un sistema che valuta solo il testo che precede una sezione di testo target. Al contrario, un sistema bidirezionale valuta sia il testo che precede e segue una sezione target del testo. Per ulteriori dettagli, consulta la sezione bidirezionale.

modello linguistico unidirezionale

#language

Un modello linguistico che basa le sue probabilità solo sui token che compaiono prima e non dopo i token di destinazione. Sono invece opposti al modello linguistico bidirezionale.

V

Autoencoder variazionale (VAE)

#language

Un tipo di encoder automatico che sfrutta la discrepanza tra input e output per generare versioni modificate degli input. Gli autoencoder variazionali sono utili per l'IA generativa.

Le VAE si basano sull'inferenza variazionale, una tecnica per stimare i parametri di un modello di probabilità.

M

incorporamento di parole

#language

Rappresentare ogni parola in un insieme di parole all'interno di un vettore di incorporamento, ovvero rappresentare ogni parola come un vettore di valori in virgola mobile compresi tra 0,0 e 1,0. Le parole con significati simili hanno rappresentazioni più simili rispetto a parole con significati diversi. Ad esempio, carote, sedali e cetrioli avranno tutte rappresentazioni relativamente simili, molto diverse da quelle di aeroplano, occhiali da sole e dentifricio.

Z

prompt zero-shot

#language
#IAgenerativa

Un messaggio che non fornisce un esempio di come vuoi che risponda il modello linguistico di grandi dimensioni (LLM). Ad esempio:

Parti di un prompt Note
Qual è la valuta ufficiale del paese specificato? La domanda a cui vuoi che l'LLM risponda.
India: La query effettiva.

Il modello linguistico di grandi dimensioni (LLM) potrebbe rispondere con una delle seguenti risposte:

  • Rupia
  • INR
  • Rupia indiana
  • La rupia
  • Rupia indiana

Tutte le risposte sono corrette, anche se potresti preferire un formato particolare.

Confronta i prompt zero-shot con i seguenti termini: