Questa pagina è stata tradotta dall'API Cloud Translation.

Glossario del machine learning

Questo glossario definisce i termini relativi all'intelligenza artificiale.

A

ablazione

Una tecnica per valutare l'importanza di una caratteristica o di un componente rimuovendolo temporaneamente da un modello. Quindi, riaddestra il modello senza quella funzionalità o componente e, se il modello riaddestrato ha prestazioni significativamente peggiori, la funzionalità o il componente rimossi erano probabilmente importanti.

Ad esempio, supponiamo di addestrare un modello di classificazione su 10 funzionalità e di ottenere una precisione dell'88% sul set di test. Per controllare l'importanza della prima funzionalità, puoi eseguire di nuovo l'addestramento del modello utilizzando solo le altre nove funzionalità. Se il modello riaddestrato ha prestazioni significativamente peggiori (ad esempio, precisione del 55%), la funzionalità rimossa era probabilmente importante. Al contrario, se il modello riaddestrato funziona altrettanto bene, allora la funzionalità probabilmente non era così importante.

L'ablazione può anche contribuire a determinare l'importanza di:

Componenti più grandi, ad esempio un intero sottosistema di un sistema ML più grande
Processi o tecniche, ad esempio un passaggio di pre-elaborazione dei dati

In entrambi i casi, osserverai come cambia (o non cambia) il rendimento del sistema dopo aver rimosso il componente.

Test A/B

Un modo statistico per confrontare due (o più) tecniche: la A e la B. In genere, A è una tecnica esistente, mentre B è una nuova tecnica. Il test A/B non solo determina quale tecnica ha un rendimento migliore, ma anche se la differenza è statisticamente significativa.

In genere, i test A/B confrontano una singola metrica su due tecniche; ad esempio, come si confronta l'accuratezza del modello per due tecniche? Tuttavia, i test A/B possono anche confrontare un numero finito di metriche.

chip dell'acceleratore

#GoogleCloud

Una categoria di componenti hardware specializzati progettati per eseguire i calcoli chiave necessari per gli algoritmi di deep learning.

I chip di accelerazione (o semplicemente acceleratori) possono aumentare notevolmente la velocità e l'efficienza delle attività di addestramento e inferenza rispetto a una CPU generica. Sono ideali per l'addestramento di reti neurali e attività simili ad alta intensità di calcolo.

Ecco alcuni esempi di chip di accelerazione:

Tensor Processing Unit (TPU) di Google con hardware dedicato per il deep learning.
Le GPU di NVIDIA, sebbene inizialmente progettate per l'elaborazione grafica, sono progettate per consentire l'elaborazione parallela, che può aumentare in modo significativo la velocità di elaborazione.

accuracy

#fundamentals

#Metric

Il numero di previsioni di classificazione corrette diviso per il numero totale di previsioni. Ossia:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Ad esempio, un modello che ha effettuato 40 previsioni corrette e 10 errate avrebbe un'accuratezza pari a:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

La classificazione binaria fornisce nomi specifici per le diverse categorie di previsioni corrette e previsioni errate. Pertanto, la formula per l'accuratezza della classificazione binaria è la seguente:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

dove:

TP è il numero di veri positivi (previsioni corrette).
TN è il numero di veri negativi (previsioni corrette).
FP è il numero di falsi positivi (previsioni errate).
FN è il numero di falsi negativi (previsioni errate).

Confronta e contrapponi l'accuratezza con la precisione e il richiamo.

Fai clic sull'icona per visualizzare i dettagli sull'accuratezza e sui set di dati con sbilanciamento di classe.

Sebbene sia una metrica preziosa per alcune situazioni, l'accuratezza è molto fuorviante per altre. In particolare, l'accuratezza è in genere una metrica scadente per valutare i modelli di classificazione che elaborano set di dati con squilibrio di classe.

Ad esempio, supponiamo che in una determinata città subtropicale nevichi solo 25 giorni al secolo. Poiché i giorni senza neve (la classe negativa) superano di gran lunga i giorni con neve (la classe positiva), il set di dati sulla neve per questa città è sbilanciato. Immagina un modello di classificazione binaria che dovrebbe prevedere se nevicherà o meno ogni giorno, ma prevede semplicemente "no neve" ogni giorno. Questo modello è molto preciso, ma non ha potere predittivo. La tabella seguente riassume i risultati per un secolo di previsioni:

Categoria	Numero
VP	0
TN	36499
FP	0
FN	25

L'accuratezza di questo modello è quindi:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36499) / (0 + 36499 + 0 + 25) = 0.9993 = 99.93%

Sebbene un'accuratezza del 99,93% sembri una percentuale molto impressionante, il modello in realtà non ha capacità predittiva.

Precisione e richiamo sono in genere metriche più utili rispetto all'accuratezza per valutare i modelli addestrati su set di dati con classi sbilanciate.

Per saperne di più, consulta Classificazione: accuratezza, richiamo, precisione e metriche correlate in Machine Learning Crash Course.

azione

Nel reinforcement learning, il meccanismo mediante il quale l'agente passa da uno stato all'altro dell'ambiente. L'agente sceglie l'azione utilizzando una policy.

funzione di attivazione

#fundamentals

Una funzione che consente alle reti neurali di apprendere relazioni non lineari (complesse) tra le caratteristiche e l'etichetta.

Le funzioni di attivazione più comuni includono:

ReLU
Sigmoide

I grafici delle funzioni di attivazione non sono mai singole linee rette. Ad esempio, il grafico della funzione di attivazione ReLU è costituito da due linee rette:

Un grafico cartesiano di due linee. La prima linea ha un valore
y costante pari a 0 e si estende lungo l'asse x da -infinito,0 a 0,-0.
La seconda riga inizia da 0,0. Questa retta ha una pendenza di +1, quindi
va da 0,0 a +infinito,+infinito.

Un grafico della funzione di attivazione sigmoidea è il seguente:

Un grafico curvo bidimensionale con valori x che coprono il dominio
da -infinito a +positivo, mentre i valori y coprono l'intervallo da quasi 0 a
quasi 1. Quando x è 0, y è 0,5. La pendenza della curva è sempre
positiva, con la pendenza più alta a 0,0,5 e pendenze che diminuiscono gradualmente
all'aumentare del valore assoluto di x.

Fai clic sull'icona per visualizzare un esempio.

In una rete neurale, le funzioni di attivazione manipolano la somma ponderata di tutti gli input di un neurone. Per calcolare una somma ponderata, il neurone somma i prodotti dei valori e dei pesi pertinenti. Ad esempio, supponiamo che l'input pertinente a un neurone sia costituito da:

valore di input	peso dell'input
2	-1,3
-1	0,6
3	0,4

La somma ponderata è quindi:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Supponiamo che il progettista di questa rete neurale scelga la funzione sigmoide come funzione di attivazione. In questo caso, il neurone calcola la sigmoide di -2,0, che è circa 0,12. Pertanto, il neurone passa 0,12 (anziché -2,0) al livello successivo della rete neurale. La figura seguente illustra la parte pertinente della procedura:

Per saperne di più, consulta Reti neurali: funzioni di attivazione in Machine Learning Crash Course.

apprendimento attivo

Un approccio di addestramento in cui l'algoritmo sceglie alcuni dei dati da cui apprende. L'apprendimento attivo è particolarmente utile quando gli esempi etichettati sono scarsi o costosi da ottenere. Anziché cercare ciecamente una gamma diversificata di esempi etichettati, un algoritmo di apprendimento attivo cerca selettivamente la gamma particolare di esempi di cui ha bisogno per l'apprendimento.

AdaGrad

Un sofisticato algoritmo di discesa del gradiente che ridimensiona i gradienti di ogni parametro, assegnando di fatto a ogni parametro un tasso di apprendimento indipendente. Per una spiegazione completa, vedi Adaptive Subgradient Methods for Online Learning and Stochastic Optimization.

adattamento

#generativeAI

Sinonimo di ottimizzazione o ottimizzazione avanzata.

agente

#generativeAI

Software in grado di ragionare sugli input multimodali dell'utente per pianificare ed eseguire azioni per suo conto.

Nel reinforcement learning, un agente è l'entità che utilizza una policy per massimizzare il rendimento previsto ottenuto dalla transizione tra gli stati dell'ambiente.

agentico

#generativeAI

La forma aggettivale di agente. Il termine "agente" si riferisce alle qualità che possiedono gli agenti (come l'autonomia).

workflow agentico

#generativeAI

Un processo dinamico in cui un agente pianifica ed esegue autonomamente le azioni per raggiungere un obiettivo. Il processo può comportare ragionamenti, l'invocazione di strumenti esterni e l'autocorrezione del piano.

clustering agglomerativo

#clustering

Vedi clustering gerarchico.

AI slop

#generativeAI

Output di un sistema di AI generativa che privilegia la quantità rispetto alla qualità. Ad esempio, una pagina web con contenuti di bassa qualità generati dall'AI è piena di contenuti di bassa qualità generati dall'AI e prodotti a basso costo.

rilevamento di anomalie

Il processo di identificazione degli outlier. Ad esempio, se la media per una determinata caratteristica è 100 con una deviazione standard di 10, il rilevamento di anomalie dovrebbe segnalare un valore di 200 come sospetto.

AR

Abbreviazione di realtà aumentata.

area sotto la curva PR

#Metric

Vedi AUC PR (area sotto la curva PR).

area sotto la curva ROC

#Metric

Consulta la sezione AUC (Area sotto la curva ROC).

intelligenza artificiale generale

Un meccanismo non umano che dimostra un'ampia gamma di capacità di risoluzione dei problemi, creatività e adattabilità. Ad esempio, un programma che dimostra un'intelligenza artificiale generale potrebbe tradurre testi, comporre sinfonie ed eccellere in giochi che non sono ancora stati inventati.

intelligenza artificiale

#fundamentals

Un programma o un modello non umano in grado di risolvere attività sofisticate. Ad esempio, un programma o un modello che traduce il testo o un programma o un modello che identifica le malattie dalle immagini radiologiche mostrano entrambi intelligenza artificiale.

Formalmente, il machine learning è un sottocampo dell'intelligenza artificiale. Tuttavia, negli ultimi anni, alcune organizzazioni hanno iniziato a utilizzare i termini intelligenza artificiale e machine learning in modo intercambiabile.

Attention,

Un meccanismo utilizzato in una rete neurale che indica l'importanza di una determinata parola o parte di una parola. L'attenzione comprime la quantità di informazioni di cui un modello ha bisogno per prevedere il token/la parola successivi. Un tipico meccanismo di attenzione potrebbe consistere in una somma ponderata su un insieme di input, in cui il peso per ogni input viene calcolato da un'altra parte della rete neurale.

Fai riferimento anche all'auto-attenzione e all'auto-attenzione multi-head, che sono i componenti di base dei Transformer.

Per saperne di più sull'auto-attenzione, consulta LLM: che cos'è un modello linguistico di grandi dimensioni? in Machine Learning Crash Course.

attributo

#responsible

Sinonimo di funzionalità.

Nell'equità del machine learning, gli attributi si riferiscono spesso a caratteristiche relative agli individui.

campionamento degli attributi

#df

Una tattica per l'addestramento di una foresta decisionale in cui ogni albero decisionale considera solo un sottoinsieme casuale di possibili caratteristiche durante l'apprendimento della condizione. In genere, per ogni nodo viene campionato un sottoinsieme diverso di funzionalità. Al contrario, quando si addestra un albero decisionale senza campionamento degli attributi, vengono prese in considerazione tutte le funzionalità possibili per ogni nodo.

AUC (area sotto la curva ROC)

#fundamentals

#Metric

Un numero compreso tra 0,0 e 1,0 che rappresenta la capacità di un modello di classificazione binaria di separare le classi positive dalle classi negative. Più l'AUC è vicino a 1,0, migliore è la capacità del modello di separare le classi tra loro.

Ad esempio, la seguente illustrazione mostra un modello di classificazione che separa perfettamente le classi positive (ovali verdi) da quelle negative (rettangoli viola). Questo modello perfetto in modo non realistico ha un'AUC pari a 1,0:

Una retta numerica con 8 esempi positivi da un lato e
9 esempi negativi dall'altro.

Al contrario, la seguente illustrazione mostra i risultati per un modello di classificazione che ha generato risultati casuali. Questo modello ha un AUC di 0,5:

Una retta numerica con 6 esempi positivi e 6 esempi negativi.
La sequenza di esempi è positiva, negativa,
positiva, negativa, positiva, negativa, positiva, negativa, positiva
negativa, positiva, negativa.

Sì, il modello precedente ha un'AUC di 0,5, non di 0.

La maggior parte dei modelli si trova a metà strada tra i due estremi. Ad esempio, il seguente modello separa in qualche modo i positivi dai negativi e pertanto ha un'AUC compresa tra 0,5 e 1,0:

Una retta numerica con 6 esempi positivi e 6 esempi negativi.
La sequenza di esempi è negativo, negativo, negativo, negativo,
positivo, negativo, positivo, positivo, negativo, positivo, positivo,
positivo.

L'AUC ignora qualsiasi valore impostato per la soglia di classificazione. L'AUC, invece, prende in considerazione tutte le possibili soglie di classificazione.

Fai clic sull'icona per scoprire la relazione tra le curve AUC e ROC.

L'AUC rappresenta l'area sotto una curva ROC. Ad esempio, la curva ROC per un modello che separa perfettamente i positivi dai negativi ha il seguente aspetto:

L'AUC è l'area della regione grigia nell'illustrazione precedente. In questo caso insolito, l'area è semplicemente la lunghezza della regione grigia (1,0) moltiplicata per la larghezza della regione grigia (1,0). Pertanto, il prodotto di 1,0 e 1,0 produce un AUC pari esattamente a 1,0, che è il punteggio AUC più alto possibile.

Al contrario, la curva ROC per un modello di classificazione che non può separare le classi è la seguente. L'area di questa regione grigia è 0,5.

Una curva ROC più tipica ha un aspetto simile al seguente:

Calcolare manualmente l'area sotto questa curva sarebbe un'operazione laboriosa, motivo per cui in genere un programma calcola la maggior parte dei valori AUC.

Fai clic sull'icona per una definizione più formale di AUC.

L'AUC è la probabilità che un modello di classificazione sia più sicuro che un esempio positivo scelto a caso sia effettivamente positivo rispetto a un esempio negativo scelto a caso.

Per saperne di più, consulta Classificazione: ROC e AUC in Machine Learning Crash Course.

realtà aumentata

Una tecnologia che sovrappone un'immagine generata al computer alla visualizzazione del mondo reale di un utente, fornendo così una visualizzazione composita.

autoencoder

Un sistema che impara a estrarre le informazioni più importanti dall'input. Gli autoencoder sono una combinazione di un encoder e di un decoder. Gli autoencoder si basano sul seguente processo in due passaggi:

L'encoder mappa l'input in un formato (intermedio) a dimensioni inferiori (in genere) con perdita.
Il decodificatore crea una versione con perdita dell'input originale mappando il formato a dimensionalità inferiore al formato di input originale a dimensionalità superiore.

Gli autoencoder vengono addestrati end-to-end facendo in modo che il decodificatore tenti di ricostruire l'input originale dal formato intermedio dell'encoder nel modo più fedele possibile. Poiché il formato intermedio è più piccolo (con meno dimensioni) rispetto al formato originale, l'autoencoder è costretto a imparare quali informazioni nell'input sono essenziali e l'output non sarà perfettamente identico all'input.

Ad esempio:

Se i dati di input sono un'immagine, la copia non esatta sarà simile all'immagine originale, ma leggermente modificata. Forse la copia non esatta rimuove il rumore dal grafico originale o riempie alcuni pixel mancanti.
Se i dati di input sono di tipo testuale, un autoencoder genererà un nuovo testo che imita (ma non è identico a) il testo originale.

Vedi anche autoencoder variazionali.

valutazione automatica

#generativeAI

Utilizzo di software per valutare la qualità dell'output di un modello.

Quando l'output del modello è relativamente semplice, uno script o un programma può confrontare l'output del modello con una risposta di riferimento. Questo tipo di valutazione automatica è talvolta chiamato valutazione programmatica. Metriche come ROUGE o BLEU sono spesso utili per la valutazione programmatica.

Quando l'output del modello è complesso o non ha una risposta corretta, a volte la valutazione automatica viene eseguita da un programma ML separato chiamato valutatore automatico.

Contrasto con la valutazione umana.

bias di automazione

#responsible

Quando un decisore umano favorisce i consigli forniti da un sistema decisionale automatizzato rispetto alle informazioni create senza automazione, anche quando il sistema decisionale automatizzato commette errori.

Per saperne di più, consulta Equità: tipi di bias in Machine Learning Crash Course.

AutoML

Qualsiasi processo automatizzato per la creazione di modelli di machine learning. AutoML può svolgere automaticamente attività come le seguenti:

Cerca il modello più appropriato.
Ottimizza gli iperparametri.
Prepara i dati (inclusa l'esecuzione del feature engineering).
Esegui il deployment del modello risultante.

AutoML è utile per i data scientist perché può far risparmiare tempo e impegno nello sviluppo di pipeline di machine learning e migliorare la precisione delle previsioni. È utile anche ai non esperti, in quanto rende più accessibili le complicate attività di machine learning.

Per saperne di più, consulta Machine Learning automatizzato (AutoML) in Machine Learning Crash Course.

autorater evaluation

#generativeAI

Un meccanismo ibrido per giudicare la qualità dell'output di un modello di AI generativa che combina la valutazione umana con la valutazione automatica. Un sistema di valutazione automatica è un modello ML addestrato su dati creati tramite valutazione umana. Idealmente, uno strumento di valutazione automatica impara a imitare un valutatore umano.

Sono disponibili valutatori automatici predefiniti, ma i migliori sono ottimizzati in modo specifico per l'attività che stai valutando.

modello autoregressivo

#generativeAI

Un modello che deduce una previsione in base alle proprie previsioni precedenti. Ad esempio, i modelli linguistici autoregressivi prevedono il successivo token in base ai token previsti in precedenza. Tutti i modelli linguistici di grandi dimensioni basati su Transformer sono autoregressivi.

Al contrario, i modelli di immagini basati su GAN di solito non sono autoregressivi, in quanto generano un'immagine in un singolo passaggio in avanti e non in modo iterativo in passaggi. Tuttavia, alcuni modelli di generazione delle immagini sono autoregressivi perché generano un'immagine in più passaggi.

perdita ausiliaria

Una funzione di perdita, utilizzata insieme alla funzione di perdita principale di un modello di rete neurale, che contribuisce ad accelerare l'addestramento durante le prime iterazioni, quando i pesi vengono inizializzati in modo casuale.

Le funzioni di perdita ausiliari inviano gradienti�� efficaci ai livelli�� precedenti. Ciò facilita la convergenza durante l'addestramento combattendo il problema di scomparsa del gradiente.

precisione media a k

#Metric

Una metrica per riassumere il rendimento di un modello su un singolo prompt che genera risultati classificati, ad esempio un elenco numerato di consigli di libri. La precisione media a k è la media dei valori di precisione a k per ogni risultato pertinente. La formula per la precisione media a k è quindi:

\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]

dove:

$n$ è il numero di elementi pertinenti nell'elenco.

Contrasto con richiamo a k.

Fai clic sull'icona per un esempio.

Supponiamo che a un modello linguistico di grandi dimensioni venga fornita la seguente query:

List the 6 funniest movies of all time in order.

Il modello linguistico di grandi dimensioni restituisce il seguente elenco:

The General
Mean Girls
Platoon
Le amiche della sposa
Quarto potere
This is Spinal Tap

Quattro dei film nell'elenco restituito sono molto divertenti (ovvero sono pertinenti), ma due sono drammatici (non pertinenti). La seguente tabella mostra i risultati nel dettaglio:

Posizione	Film	Pertinente?	Precisione a k
1	The General	Sì	1.0
2	Mean Girls	Sì	1,0
3	Platoon	No	non pertinente
4	Le amiche della sposa	Sì	0,75
5	Quarto potere	No	non pertinente
6	This is Spinal Tap	Sì	0,67

Il numero di risultati pertinenti è 4. Pertanto, puoi calcolare la precisione media a 6 nel seguente modo:

$${\text{average precision at 6}} = \frac{1}{4} {\text{(1.0 + 1.0 + 0.75 + 0.67)} } $$ $${\text{average precision at 6}} = {\text{~0.85} } $$

axis-aligned condition

#df

In un albero decisionale, una condizione che coinvolge una sola caratteristica. Ad esempio, se area è una funzionalità, la seguente è una condizione allineata all'asse:

area > 200

Contrasto con la condizione obliqua.

B

backpropagation

#fundamentals

L'algoritmo che implementa la discesa del gradiente nelle reti neurali.

L'addestramento di una rete neurale prevede molte iterazioni del seguente ciclo a due passaggi:

Durante la propagazione in avanti, il sistema elabora un batch di esempi per ottenere una o più previsioni. Il sistema confronta ogni previsione con ogni valore dell'etichetta. La differenza tra la previsione e il valore dell'etichetta è la perdita per quell'esempio. Il sistema aggrega le perdite per tutti gli esempi per calcolare la perdita totale per il batch corrente.
Durante il passaggio all'indietro (backpropagation), il sistema riduce la perdita modificando i pesi di tutti i neuroni in tutti gli strati nascosti.

Le reti neurali spesso contengono molti neuroni in molti strati nascosti. Ciascuno di questi neuroni contribuisce alla perdita complessiva in modi diversi. La retropropagazione determina se aumentare o diminuire i pesi applicati a particolari neuroni.

Il tasso di apprendimento è un moltiplicatore che controlla il grado in cui ogni passaggio all'indietro aumenta o diminuisce ogni peso. Un tasso di apprendimento elevato aumenterà o diminuirà ogni peso più di un tasso di apprendimento basso.

In termini di calcolo, la retropropagazione implementa la regola della catena del calcolo. ovvero la retropropagazione calcola la derivata parziale dell'errore rispetto a ogni parametro.

Anni fa, i professionisti del machine learning dovevano scrivere codice per implementare la retropropagazione. Le moderne API ML come Keras ora implementano la backpropagation per te. Finalmente.

Per saperne di più, consulta la sezione Reti neurali di Machine Learning Crash Course.

bagging

#df

Un metodo per addestrare un ensemble in cui ogni modello costituente viene addestrato su un sottoinsieme casuale di esempi di addestramento campionati con reinserimento. Ad esempio, una foresta casuale è un insieme di alberi decisionali addestrati con il bagging.

Il termine bagging è l'abbreviazione di bootstrap aggregating.

Per ulteriori informazioni, consulta la sezione Foreste casuali del corso Decision Forests.

bag of words

Una rappresentazione delle parole in una frase o in un passaggio, indipendentemente dall'ordine. Ad esempio, il modello bag of words rappresenta le tre frasi seguenti in modo identico:

il cane salta
salta il cane
dog jumps the

Ogni parola viene mappata a un indice in un vettore sparso, dove il vettore ha un indice per ogni parola del vocabolario. Ad esempio, la frase the dog jumps viene mappata in un vettore delle caratteristiche con valori diversi da zero nei tre indici corrispondenti alle parole the, dog e jumps. Il valore diverso da zero può essere uno dei seguenti:

1 per indicare la presenza di una parola.
Un conteggio del numero di volte in cui una parola compare nel sacchetto. Ad esempio, se la frase fosse il cane marrone è un cane con il pelo marrone, sia marrone che cane sarebbero rappresentati come 2, mentre le altre parole sarebbero rappresentate come 1.
Un altro valore, ad esempio il logaritmo del conteggio del numero di volte in cui una parola appare nel bag.

base di riferimento

#Metric

Un modello utilizzato come punto di riferimento per confrontare le prestazioni di un altro modello (in genere, uno più complesso). Ad esempio, un modello di regressione logistica può fungere da buona base di riferimento per un modello profondo.

Per un problema specifico, la baseline aiuta gli sviluppatori di modelli a quantificare il rendimento minimo previsto che un nuovo modello deve raggiungere per essere utile.

modello base

#generativeAI

Un modello preaddestrato che può fungere da punto di partenza per l'ottimizzazione per svolgere attività o applicazioni specifiche.

Vedi anche modello preaddestrato e modello di base.

batch

#fundamentals

L'insieme di esempi utilizzati in un'iterazione di addestramento . La dimensione del batch determina il numero di esempi in un batch.

Consulta la sezione Epoca per una spiegazione della relazione tra un batch e un'epoca.

Per saperne di più, consulta Regressione lineare: iperparametri in Machine Learning Crash Course.

inferenza batch

#GoogleCloud

Il processo di inferenza delle previsioni su più esempi senza etichetta suddivisi in sottoinsiemi più piccoli ("batch").

L'inferenza batch può sfruttare le funzionalità di parallelizzazione dei chip acceleratori. ovvero più acceleratori possono dedurre simultaneamente le previsioni su batch diversi di esempi senza etichetta, aumentando notevolmente il numero di inferenze al secondo.

Per saperne di più, consulta Sistemi ML di produzione: inferenza statica e dinamica in Machine Learning Crash Course.

normalizzazione batch

Normalizzazione dell'input o dell'output delle funzioni di attivazione in un livello nascosto. La normalizzazione dei batch può offrire i seguenti vantaggi:

Rendere le reti neurali più stabili proteggendo dai pesi anomali.
Consente tassi di apprendimento più elevati, che possono accelerare l'addestramento.
Ridurre l'overfitting.

dimensione del batch

#fundamentals

Il numero di esempi in un batch. Ad esempio, se la dimensione del batch è 100, il modello elabora 100 esempi per iterazione.

Di seguito sono riportate le strategie più comuni per le dimensioni del batch:

Discesa stocastica del gradiente (SGD), in cui la dimensione del batch è 1.
Batch completo, in cui la dimensione del batch è il numero di esempi nell'intero set di addestramento. Ad esempio, se il set di addestramento contiene un milione di esempi, la dimensione del batch sarà di un milione di esempi. Il caricamento completo del batch è in genere una strategia inefficiente.
Mini-batch in cui la dimensione del batch è generalmente compresa tra 10 e 1000. Il mini-batch è in genere la strategia più efficiente.

Per ulteriori informazioni, consulta le seguenti risorse:

Sistemi ML di produzione: inferenza statica e dinamica in Machine Learning Crash Course.
Guida pratica per l'ottimizzazione del deep learning.

Rete neurale bayesiana

Una rete neurale probabilistica che tiene conto dell'incertezza nei pesi e negli output. Un modello di regressione di rete neurale standard in genere prevede un valore scalare; ad esempio, un modello standard prevede un prezzo della casa di 853.000. Al contrario, una rete neurale bayesiana prevede una distribuzione di valori; ad esempio, un modello bayesiano prevede un prezzo della casa di 853.000 con una deviazione standard di 67.200.

Una rete neurale bayesiana si basa sul teorema di Bayes per calcolare le incertezze nelle ponderazioni e nelle previsioni. Una rete neurale bayesiana può essere utile quando è importante quantificare l'incertezza, ad esempio nei modelli correlati ai prodotti farmaceutici. Le reti neurali bayesiane possono anche contribuire a prevenire l'overfitting.

Ottimizzazione bayesiana

Una tecnica di modello di regressione probabilistica per ottimizzare le funzioni obiettivo computazionalmente costose ottimizzando invece un surrogato che quantifica l'incertezza utilizzando una tecnica di apprendimento bayesiano. Poiché l'ottimizzazione bayesiana è di per sé molto costosa, viene solitamente utilizzata per ottimizzare attività costose da valutare che hanno un numero ridotto di parametri, ad esempio la selezione degli iperparametri.

Equazione di Bellman

Nell'apprendimento per rinforzo, la seguente identità è soddisfatta dalla funzione Q ottimale:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Gli algoritmi di apprendimento per rinforzo applicano questa identità per creare l'apprendimento Q utilizzando la seguente regola di aggiornamento:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

Oltre al reinforcement learning, l'equazione di Bellman ha applicazioni nella programmazione dinamica. Consulta la voce di Wikipedia relativa all'equazione di Bellman.

BERT (Bidirectional Encoder Representations from Transformers)

Un'architettura del modello per la rappresentazione del testo. Un modello BERT addestrato può far parte di un modello più grande per la classificazione del testo o altre attività di ML.

BERT ha le seguenti caratteristiche:

Utilizza l'architettura Transformer e si basa quindi sull'auto-attenzione.
Utilizza la parte encoder del Transformer. Il compito dell'encoder è produrre buone rappresentazioni di testo, anziché eseguire un'attività specifica come la classificazione.
È bidirezionale.
Utilizza la mascheratura per l'addestramento non supervisionato.

Le varianti di BERT includono:

ALBERT, acronimo di A Light BERT.
LaBSE.

Consulta la pagina Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing per una panoramica di BERT.

bias (etica/equità)

#responsible

#fundamentals

1. Stereotipare, mostrare preconcetti o favoritismi verso determinate cose, persone o gruppi rispetto ad altri. Questi bias possono influire sulla raccolta e sull'interpretazione dei dati, sulla progettazione di un sistema e sul modo in cui gli utenti interagiscono con un sistema. Le forme di questo tipo di bias includono:

bias di automazione
Bias di conferma
Bias dello sperimentatore
bias di attribuzione di gruppo
bias implicito
Bias di affinità
Bias di omogeneità del gruppo esterno

2. Errore sistematico introdotto da una procedura di campionamento o reporting. Le forme di questo tipo di bias includono:

Bias di copertura
Bias di non risposta
Bias di partecipazione
bias di segnalazione
bias di campionamento
Bias di selezione

Da non confondere con il termine di bias nei modelli di machine learning o con il bias di previsione.

Per saperne di più, consulta Equità: tipi di bias in Machine Learning Crash Course.

bias (matematica) o termine di bias

#fundamentals

Un'intercettazione o un offset da un'origine. Il bias è un parametro nei modelli di machine learning, che è simboleggiato da uno dei seguenti:

b
w₀

Ad esempio, il bias è il b nella seguente formula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

In una semplice retta bidimensionale, il bias indica semplicemente l'intercetta sull'asse y. Ad esempio, la pendenza della retta nell'illustrazione seguente è 2.

Il grafico di una retta con pendenza 0,5 e bias (intercetta y) 2.

Il bias esiste perché non tutti i modelli iniziano dall'origine (0,0). Ad esempio, supponiamo che l'ingresso in un parco divertimenti costi 2 euro e che vengano addebitati 0,50 euro per ogni ora di permanenza di un cliente. Pertanto, un modello che mappa il costo totale ha una distorsione di 2 perché il costo più basso è di 2 euro.

Il bias non deve essere confuso con il bias in etica ed equità o con il bias di previsione.

Per saperne di più, consulta Regressione lineare in Machine Learning Crash Course.

bidirezionale

Termine utilizzato per descrivere un sistema che valuta il testo che precede e segue una sezione di testo di destinazione. Al contrario, un sistema unidirezionale valuta solo il testo che precede una sezione di testo di destinazione.

Ad esempio, considera un modello linguistico mascherato che deve determinare le probabilità per la parola o le parole che rappresentano la sottolineatura nella seguente domanda:

Qual è il tuo _____?

Un modello linguistico unidirezionale dovrebbe basare le sue probabilità solo sul contesto fornito dalle parole "Che", "cosa" e "è". Al contrario, un modello linguistico bidirezionale potrebbe acquisire contesto anche da "con" e "te", il che potrebbe aiutarlo a generare previsioni migliori.

modello linguistico bidirezionale

Un modello linguistico che determina la probabilità che un determinato token sia presente in una determinata posizione in un estratto di testo in base al testo precedente e successivo.

bigram

Un bigramma in cui N=2.

classificazione binaria

#fundamentals

Un tipo di attività di classificazione che prevede una delle due classi reciprocamente esclusive:

la classe positiva
la classe negativa

Ad esempio, i seguenti due modelli di machine learning eseguono ciascuno la classificazione binaria:

Un modello che determina se i messaggi email sono spam (la classe positiva) o non spam (la classe negativa).
Un modello che valuta i sintomi medici per determinare se una persona ha una determinata malattia (la classe positiva) o non ha quella malattia (la classe negativa).

Contrasta con la classificazione multiclasse.

Vedi anche regressione logistica e soglia di classificazione.

Per saperne di più, consulta la sezione Classificazione del corso intensivo di machine learning.

condizione binaria

#df

In un albero decisionale, una condizione che ha solo due possibili risultati, in genere sì o no. Ad esempio, la seguente è una condizione binaria:

temperature >= 100

Contrasto con la condizione non binaria.

Per ulteriori informazioni, consulta la sezione Tipi di condizioni del corso Decision Forests.

binning

Sinonimo di raggruppamento.

modello black box

Un modello il cui "ragionamento" è impossibile o difficile da comprendere per gli esseri umani. Ciò significa che, sebbene gli esseri umani possano vedere come i prompt influenzano le risposte, non possono determinare esattamente come un modello black box determina la risposta. In altre parole, un modello a scatola nera non ha interpretabilità.

La maggior parte dei modelli di deep learning e dei modelli linguistici di grandi dimensioni sono scatole nere.

BLEU (Bilingual Evaluation Understudy)

Una metrica compresa tra 0,0 e 1,0 per valutare le traduzioni automatiche, ad esempio dallo spagnolo al giapponese.

Per calcolare un punteggio, BLEU in genere confronta la traduzione di un modello ML (testo generato) con la traduzione di un esperto umano (testo di riferimento). Il grado di corrispondenza tra gli n-grammi nel testo generato e nel testo di riferimento determina il punteggio BLEU.

Il documento originale su questa metrica è BLEU: a Method for Automatic Evaluation of Machine Translation.

Vedi anche BLEURT.

BLEURT (Bilingual Evaluation Understudy from Transformers)

Una metrica per valutare le traduzioni automatiche da una lingua all'altra, in particolare da e verso l'inglese.

Per le traduzioni da e verso l'inglese, BLEURT è più in linea con le valutazioni umane rispetto a BLEU. A differenza di BLEU, BLEURT enfatizza le somiglianze semantiche (di significato) e può adattarsi alla parafrasi.

BLEURT si basa su un modello linguistico di grandi dimensioni preaddestrato (BERT per l'esattezza) che viene poi ottimizzato su testi di traduttori umani.

Il documento originale su questa metrica è BLEURT: Learning Robust Metrics for Text Generation.

aumentare

Una tecnica di machine learning che combina in modo iterativo un insieme di modelli di classificazione semplici e non molto accurati (definiti "classificatori deboli") in un modello di classificazione con elevata accuratezza (un "classificatore forte") mediante l'assegnazione di un peso maggiore agli esempi che il modello sta attualmente classificando in modo errato.

Per ulteriori informazioni, consulta la sezione Gradient Boosted Decision Trees? nel corso Decision Forests.

riquadro di delimitazione

In un'immagine, le coordinate (x, y) di un rettangolo attorno a un'area di interesse, ad esempio il cane nell'immagine seguente.

Fotografia di un cane seduto su un divano. Un riquadro di selezione verde
con coordinate in alto a sinistra (275, 1271) e in basso a destra (2954, 2761) circoscrive il corpo del cane

trasmissione

Espandere la forma di un operando in un'operazione matematica con matrici a dimensioni compatibili per l'operazione. Ad esempio, l'algebra lineare richiede che i due operandi in un'operazione di addizione matriciale abbiano le stesse dimensioni. Di conseguenza, non puoi aggiungere una matrice di forma (m, n) a un vettore di lunghezza n. La trasmissione consente questa operazione espandendo virtualmente il vettore di lunghezza n in una matrice di forma (m, n) replicando gli stessi valori in ogni colonna.

Fai clic sull'icona per un esempio.

Date le seguenti definizioni di A e B, l'algebra lineare vieta A+B perché A e B hanno dimensioni diverse:

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

Tuttavia, la trasmissione consente l'operazione A+B espandendo virtualmente B a:

 [[2, 2, 2],
  [2, 2, 2]]

Pertanto, A+B è ora un'operazione valida:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

Per ulteriori dettagli, consulta la seguente descrizione del broadcasting in NumPy.

il bucketing

#fundamentals

Conversione di una singola caratteristica in più caratteristiche binarie chiamate bucket o bin, in genere in base a un intervallo di valori. La caratteristica troncata è in genere una caratteristica continua.

Ad esempio, anziché rappresentare la temperatura come una singola caratteristica continua in virgola mobile, potresti dividere gli intervalli di temperatura in bucket discreti, ad esempio:

<= 10 gradi Celsius rientrerebbe nel bucket "freddo".
11-24 gradi Celsius rientrano nella categoria "temperato".
>= 25 gradi Celsius sarebbe il bucket "caldo".

Il modello tratterà ogni valore nello stesso bucket in modo identico. Ad esempio, i valori 13 e 22 si trovano entrambi nel bucket temperato, quindi il modello tratta i due valori in modo identico.

Fai clic sull'icona per ulteriori note.

Se rappresenti la temperatura come una funzionalità continua, il modello la considera come una singola funzionalità. Se rappresenti la temperatura come tre bucket, il modello tratta ogni bucket come una funzionalità separata. ovvero un modello può apprendere relazioni separate di ogni bucket con l'etichetta. Ad esempio, un modello di regressione lineare può apprendere pesi separati per ogni bucket.

Aumentare il numero di bucket rende il modello più complesso aumentando il numero di relazioni che il modello deve apprendere. Ad esempio, i bucket freddo, temperato e caldo sono essenzialmente tre funzionalità separate su cui addestrare il modello. Se decidi di aggiungere altri due bucket, ad esempio per il freddo e il caldo, il modello dovrà ora essere addestrato su cinque funzionalità separate.

Come fai a sapere quanti bucket creare o quali devono essere gli intervalli per ciascun bucket? Le risposte in genere richiedono una buona dose di sperimentazione.

Per saperne di più, consulta Dati numerici: Binning in Machine Learning Crash Course.

C

livello di calibrazione

Un aggiustamento post-previsione, in genere per tenere conto del bias di previsione. Le previsioni e le probabilità aggiustate devono corrispondere alla distribuzione di un insieme osservato di etichette.

generazione di candidati

Il set iniziale di consigli scelti da un sistema di consigli. Ad esempio, considera una libreria che offre 100.000 titoli. La fase di generazione dei candidati crea un elenco molto più piccolo di libri adatti a un determinato utente, ad esempio 500. Ma anche 500 libri sono troppi da consigliare a un utente. Le fasi successive e più costose di un sistema di consigli (come l'assegnazione del punteggio e il riposizionamento) riducono questi 500 a un insieme di consigli molto più piccolo e utile.

Per ulteriori informazioni, consulta la panoramica della generazione di candidati nel corso sui sistemi di raccomandazione.

campionamento dei candidati

Un'ottimizzazione in fase di addestramento che calcola una probabilità per tutte le etichette positive, utilizzando, ad esempio, softmax, ma solo per un campione casuale di etichette negative. Ad esempio, dato un esempio etichettato beagle e dog, il campionamento dei candidati calcola le probabilità previste e i termini di perdita corrispondenti per:

beagle
cane
un sottoinsieme casuale delle classi negative rimanenti (ad esempio, gatto, lecca-lecca, recinzione).

L'idea è che le classi negative possono imparare da un rinforzo negativo meno frequente, a condizione che le classi positive ricevano sempre un rinforzo positivo adeguato, e questo è effettivamente osservato empiricamente.

Il campionamento dei candidati è più efficiente dal punto di vista computazionale rispetto agli algoritmi di addestramento che calcolano le previsioni per tutte le classi negative, in particolare quando il numero di classi negative è molto elevato.

dati categorici

#fundamentals

Caratteristiche con un insieme specifico di valori possibili. Ad esempio, considera una funzionalità categorica denominata traffic-light-state, che può avere solo uno dei seguenti tre valori possibili:

red
yellow
green

Rappresentando traffic-light-state come caratteristica categorica, un modello può apprendere i diversi impatti di red, green e yellow sul comportamento del conducente.

Le caratteristiche categoriche sono a volte chiamate caratteristiche discrete.

Contrasto con i dati numerici.

Per saperne di più, consulta la sezione Lavorare con dati categorici di Machine Learning Crash Course.

modello linguistico causale

Sinonimo di modello linguistico unidirezionale.

Consulta la sezione Modello linguistico bidirezionale per confrontare i diversi approcci direzionali nella modellazione del linguaggio.

centroide

#clustering

Il centro di un cluster determinato da un algoritmo k-means o k-medie. Ad esempio, se k è 3, l'algoritmo k-means o k-medie trova 3 centroidi.

Per saperne di più, consulta la sezione Algoritmi di clustering del corso sul clustering.

clustering basato sui centroidi

#clustering

Una categoria di algoritmi di clustering che organizzano i dati in cluster non gerarchici. k-means è l'algoritmo di clustering basato sui centroidi più utilizzato.

Contrasto con gli algoritmi di clustering gerarchico.

Per saperne di più, consulta la sezione Algoritmi di clustering del corso sul clustering.

chain-of-thought prompting

#generativeAI

Una tecnica di prompt engineering che incoraggia un modello linguistico di grandi dimensioni (LLM) a spiegare il suo ragionamento, passo dopo passo. Ad esempio, considera il seguente prompt, prestando particolare attenzione alla seconda frase:

Quante forze G sperimenterebbe un conducente in un'auto che passa da 0 a 96 km/h in 7 secondi? Nella risposta, mostra tutti i calcoli pertinenti.

La risposta dell'LLM probabilmente:

Mostra una sequenza di formule di fisica, inserendo i valori 0, 60 e 7 nei punti appropriati.
Spiega perché ha scelto queste formule e cosa significano le varie variabili.

La Chain-of-Thought Prompting costringe l'LLM a eseguire tutti i calcoli, il che potrebbe portare a una risposta più corretta. Inoltre, il prompting chain-of-thought consente all'utente di esaminare i passaggi dell'LLM per determinare se la risposta è sensata o meno.

chat

#generativeAI

I contenuti di un dialogo bot e risposta con un sistema ML, in genere un modello linguistico di grandi dimensioni. L'interazione precedente in una chat (ciò che hai digitato e come ha risposto il modello linguistico di grandi dimensioni) diventa il contesto per le parti successive della chat.

Un chatbot è un'applicazione di un modello linguistico di grandi dimensioni (LLM).

posto di blocco

Dati che acquisiscono lo stato dei parametri di un modello durante l'addestramento o al termine dell'addestramento. Ad esempio, durante l'addestramento, puoi:

Interrompere l'addestramento, intenzionalmente o a causa di determinati errori.
Acquisisci il checkpoint.
In un secondo momento, ricarica il checkpoint, possibilmente su un hardware diverso.
Riavvia l'addestramento.

classe

#fundamentals

Una categoria a cui può appartenere un'etichetta. Ad esempio:

In un modello di classificazione binaria che rileva lo spam, le due classi potrebbero essere spam e non spam.
In un modello di classificazione multi-classe che identifica le razze di cani, le classi potrebbero essere barboncino, beagle, carlino e così via.

Un modello di classificazione prevede una classe. Al contrario, un modello di regressione prevede un numero anziché una classe.

Per saperne di più, consulta la sezione Classificazione del corso intensivo di machine learning.

set di dati bilanciato per classe

Un set di dati contenente etichette categoriche in cui il numero di istanze di ogni categoria è approssimativamente uguale. Ad esempio, considera un set di dati botanici la cui etichetta binaria può essere pianta autoctona o pianta non autoctona:

Un set di dati con 515 piante autoctone e 485 piante non autoctone è un set di dati bilanciato per classe.
Un set di dati con 875 piante autoctone e 125 piante non autoctone è un set di dati con sbilanciamento di classe.

Non esiste una linea di demarcazione formale tra i set di dati bilanciati per classe e i set di dati sbilanciati per classe. La distinzione diventa importante solo quando un modello addestrato su un set di dati con forte squilibrio di classe non riesce a convergere. Per maggiori dettagli, consulta Dataset: dataset sbilanciati in Machine Learning Crash Course.

modello di classificazione

#fundamentals

Un modello la cui previsione è una classe. Ad esempio, i seguenti sono tutti modelli di classificazione:

Un modello che prevede la lingua di una frase di input (francese? Spagnolo? italiano?).
Un modello che prevede le specie di alberi (acero? Quercia? Baobab?).
Un modello che prevede la classe positiva o negativa per una particolare condizione medica.

Al contrario, i modelli di regressione prevedono numeri anziché classi.

Due tipi comuni di modelli di classificazione sono:

classificazione binaria
Classificazione multiclasse

soglia di classificazione

#fundamentals

In una classificazione binaria, un numero compreso tra 0 e 1 che converte l'output non elaborato di un modello di regressione logistica in una previsione della classe positiva o della classe negativa. Tieni presente che la soglia di classificazione è un valore scelto da un essere umano, non un valore scelto dall'addestramento del modello.

Un modello di regressione logistica restituisce un valore grezzo compreso tra 0 e 1. Quindi:

Se questo valore grezzo è maggiore della soglia di classificazione, viene prevista la classe positiva.
Se questo valore grezzo è inferiore alla soglia di classificazione, viene prevista la classe negativa.

Ad esempio, supponiamo che la soglia di classificazione sia 0,8. Se il valore non elaborato è 0,9, il modello prevede la classe positiva. Se il valore non elaborato è 0,7, il modello prevede la classe negativa.

La scelta della soglia di classificazione influisce notevolmente sul numero di falsi positivi e falsi negativi.

Fai clic sull'icona per ulteriori note.

Man mano che i modelli o i set di dati si evolvono, a volte gli ingegneri modificano anche la soglia di classificazione. Quando la soglia di classificazione cambia, le previsioni della classe positiva possono improvvisamente diventare classi negative e viceversa.

Ad esempio, considera un modello di previsione di malattie di classificazione binaria. Supponiamo che quando il sistema viene eseguito nel primo anno:

Il valore grezzo per un determinato paziente è 0,95.
La soglia di classificazione è 0,94.

Pertanto, il sistema diagnostica la classe positiva. (Il paziente ansima, "Oh no! Non mi sento bene.")

Un anno dopo, forse i valori sono i seguenti:

Il valore grezzo per lo stesso paziente rimane a 0,95.
La soglia di classificazione cambia in 0,97.

Pertanto, il sistema ora riclassifica il paziente come classe negativa. ("Happy day! Non sono malato.") Stesso paziente. Diagnosi diversa.

Per saperne di più, consulta Soglie e matrice di confusione in Machine Learning Crash Course.

classificatore

#fundamentals

Un termine informale per un modello di classificazione.

set di dati sbilanciato per classe

#fundamentals

Un set di dati per una classificazione in cui il numero totale di etichette di ogni classe differisce in modo significativo. Ad esempio, considera un set di dati di classificazione binaria le cui due etichette sono suddivise come segue:

1.000.000 di etichette negative
10 etichette positive

Il rapporto tra etichette negative e positive è di 100.000 a 1, quindi si tratta di un set di dati con classi sbilanciate.

Al contrario, il seguente set di dati è bilanciato per classe perché il rapporto tra etichette negative ed etichette positive è relativamente vicino a 1:

517 etichette negative
483 etichette positive

I set di dati multiclasse possono anche essere sbilanciati. Ad esempio, il seguente set di dati di classificazione multiclasse è anche sbilanciato perché un'etichetta ha molti più esempi rispetto alle altre due:

1.000.000 di etichette con la classe "verde"
200 etichette con la classe "viola"
350 etichette con la classe "arancione"

L'addestramento di set di dati con classi sbilanciate può presentare sfide particolari. Per maggiori dettagli, consulta Dataset sbilanciati in Machine Learning Crash Course.

Vedi anche entropia, classe maggioritaria e classe minoritaria.

clipping

#fundamentals

Una tecnica per gestire gli outlier eseguendo una o entrambe le seguenti operazioni:

Riduzione dei valori della funzionalità superiori a una soglia massima fino a tale soglia.
Aumentando i valori delle funzionalità inferiori a una soglia minima fino a quella soglia minima.

Ad esempio, supponiamo che meno dello 0,5% dei valori di una determinata caratteristica rientri al di fuori dell'intervallo 40-60. In questo caso, puoi:

Tronca tutti i valori superiori a 60 (la soglia massima) in modo che siano esattamente 60.
Taglia tutti i valori inferiori a 40 (la soglia minima) in modo che siano esattamente 40.

Gli outlier possono danneggiare i modelli, a volte causando l'overflow dei pesi durante l'addestramento. Alcuni valori anomali possono anche rovinare drasticamente metriche come l'accuratezza. Il clipping è una tecnica comune per limitare i danni.

Il taglio del gradiente forza i valori del gradiente all'interno di un intervallo designato durante l'addestramento.

Per saperne di più, consulta Dati numerici: normalizzazione in Machine Learning Crash Course.

Cloud TPU

#TensorFlow

#GoogleCloud

Un acceleratore hardware specializzato progettato per velocizzare i carichi di lavoro di machine learning su Google Cloud.

clustering

#clustering

Raggruppare esempi correlati, in particolare durante l'apprendimento non supervisionato. Una volta raggruppati tutti gli esempi, una persona può facoltativamente fornire un significato a ogni cluster.

Esistono molti algoritmi di clustering. Ad esempio, l'algoritmo k-means raggruppa gli esempi in base alla loro vicinanza a un centroide, come nel seguente diagramma:

Un ricercatore umano potrebbe quindi esaminare i cluster e, ad esempio, etichettare il cluster 1 come "alberi nani" e il cluster 2 come "alberi di dimensioni normali".

Come altro esempio, considera un algoritmo di clustering basato sulla distanza di un esempio da un punto centrale, illustrato come segue:

Decine di punti dati sono disposti in cerchi concentrici, quasi
come fori intorno al centro di un bersaglio. L'anello più interno
di punti dati è classificato come cluster 1, l'anello centrale
come cluster 2 e l'anello più esterno come
cluster 3.

Per saperne di più, consulta il corso sul clustering.

co-adattamento

Un comportamento indesiderato in cui i neuroni prevedono pattern nei dati di addestramento basandosi quasi esclusivamente sugli output di altri neuroni specifici anziché sul comportamento della rete nel suo complesso. Quando i pattern che causano la co-adattamento non sono presenti nei dati di convalida, la co-adattamento causa un overfitting. La regolarizzazione dropout riduce la co-adattamento perché il dropout garantisce che i neuroni non possano fare affidamento esclusivamente su altri neuroni specifici.

Filtro collaborativo

Fare previsioni sugli interessi di un utente in base agli interessi di molti altri utenti. Il filtraggio collaborativo viene spesso utilizzato nei sistemi di suggerimenti.

Per saperne di più, consulta la sezione Filtro collaborativo del corso Recommendation Systems.

modello compatto

Qualsiasi modello di piccole dimensioni progettato per essere eseguito su dispositivi di piccole dimensioni con risorse di calcolo limitate. Ad esempio, i modelli compatti possono essere eseguiti su cellulari, tablet o sistemi incorporati.

computing

(Sostantivo) Le risorse di calcolo utilizzate da un modello o un sistema, ad esempio potenza di elaborazione, memoria e spazio di archiviazione.

Vedi chip di accelerazione.

deriva del concetto

Un cambiamento nella relazione tra le caratteristiche e l'etichetta. Nel tempo, il concept drift riduce la qualità di un modello.

Durante l'addestramento, il modello apprende la relazione tra le caratteristiche e le relative etichette nel set di addestramento. Se le etichette nel set di addestramento sono buone approssimazioni del mondo reale, il modello dovrebbe fare buone previsioni del mondo reale. Tuttavia, a causa della variazione del concetto, le previsioni del modello tendono a peggiorare nel tempo.

Ad esempio, considera un modello di classificazione binaria che prevede se un determinato modello di auto è "efficiente dal punto di vista del consumo di carburante". ovvero le caratteristiche potrebbero essere:

peso dell'auto
compressione del motore
transmission type

mentre l'etichetta è:

a basso consumo di carburante
non efficiente in termini di consumo di carburante

Tuttavia, il concetto di "auto a basso consumo di carburante" è in continua evoluzione. Un modello di auto etichettato come efficiente in termini di consumo di carburante nel 1994 sarebbe quasi certamente etichettato come non efficiente in termini di consumo di carburante nel 2024. Un modello che soffre di concept drift tende a fare previsioni sempre meno utili nel tempo.

Confronta e contrapponi con la non stazionarietà.

Fai clic sull'icona per ulteriori note.

Per compensare la variazione del concetto, esegui il retraining dei modelli più rapidamente del tasso di variazione del concetto. Ad esempio, se il concept drift riduce la precisione del modello di un margine significativo ogni due mesi, esegui il retraining del modello più frequentemente di ogni due mesi.

condizione

#df

In un albero decisionale, qualsiasi nodo che esegue un test. Ad esempio, il seguente albero decisionale contiene due condizioni:

Un albero decisionale composto da due condizioni: (x > 0) e
(y > 0).

Una condizione è chiamata anche divisione o test.

Condizione di contrasto con foglia.

Vedi anche:

binary condition
condizione non binaria.
axis-aligned-condition
oblique-condition

Per ulteriori informazioni, consulta la sezione Tipi di condizioni del corso Decision Forests.

confabulazione

Sinonimo di allucinazione.

Confabulazione è probabilmente un termine più preciso dal punto di vista tecnico rispetto ad allucinazione. Tuttavia, l'allucinazione è diventata popolare per prima.

configurazione

Il processo di assegnazione dei valori iniziali delle proprietà utilizzati per addestrare un modello, inclusi:

i livelli che compongono il modello
la posizione dei dati
iperparametri come:

Nei progetti di machine learning, la configurazione può essere eseguita tramite un file di configurazione speciale o utilizzando librerie di configurazione come le seguenti:

bias di conferma

#responsible

La tendenza a cercare, interpretare, favorire e ricordare le informazioni in un modo che confermi le proprie convinzioni o ipotesi preesistenti. Gli sviluppatori di machine learning potrebbero raccogliere o etichettare i dati in modi che influenzano un risultato a sostegno delle loro convinzioni esistenti. Il bias di conferma è una forma di bias implicito.

Il bias dell'osservatore è una forma di bias di conferma in cui un osservatore continua ad addestrare i modelli finché un'ipotesi preesistente non viene confermata.

matrice di confusione

#fundamentals

Una tabella NxN che riassume il numero di previsioni corrette e errate effettuate da un modello di classificazione. Ad esempio, considera la seguente matrice di confusione per un modello di classificazione binaria:

	Tumore (previsto)	Non tumorale (previsto)
Tumore (dati di riferimento)	18 (VP)	1 (FN)
Non-Tumor (ground truth)	6 (FP)	452 (TN)

La matrice di confusione precedente mostra quanto segue:

Delle 19 previsioni in cui la verità di base era Tumore, il modello ne ha classificate correttamente 18 e in modo errato 1.
Delle 458 previsioni in cui la verità di base era Non-Tumor, il modello ne ha classificate correttamente 452 e in modo errato 6.

La matrice di confusione per un problema di classificazione multiclasse può aiutarti a identificare i pattern di errori. Ad esempio, considera la seguente matrice di confusione per un modello di classificazione multiclasse a tre classi che classifica tre diversi tipi di iris (Virginica, Versicolor e Setosa). Quando i dati empirici reali erano Virginica, la matrice di confusione mostra che il modello aveva molte più probabilità di prevedere erroneamente Versicolor rispetto a Setosa:

	Setosa (previsto)	Versicolor (previsto)	Virginica (previsto)
Setosa (dati di fatto)	88	12	0
Versicolor (dati empirici reali)	6	141	7
Virginica (dati empirici reali)	2	27	109

Come altro esempio, una matrice di confusione potrebbe rivelare che un modello addestrato a riconoscere le cifre scritte a mano tende a prevedere erroneamente 9 anziché 4 o 1 anziché 7.

Le matrici di confusione contengono informazioni sufficienti per calcolare una varietà di metriche di rendimento, tra cui precisione e richiamo.

analisi delle circoscrizioni

Suddivisione di una frase in strutture grammaticali più piccole ("costituenti"). Una parte successiva del sistema di ML, ad esempio un modello di comprensione del linguaggio naturale, può analizzare i costituenti più facilmente rispetto alla frase originale. Ad esempio, considera la seguente frase:

Il mio amico ha adottato due gatti.

Un analizzatore sintattico può dividere questa frase nei seguenti due costituenti:

Il mio amico è una frase nominale.
adopted two cats è una frase verbale.

Questi componenti possono essere ulteriormente suddivisi in componenti più piccoli. Ad esempio, il gruppo verbale

ha adottato due gatti

potrebbe essere ulteriormente suddiviso in:

adottato è un verbo.
two cats è un altro sintagma nominale.

embedding contestuale del linguaggio

#generativeAI

Un embedding che si avvicina alla "comprensione" di parole e frasi in modo simile a quello di un oratore umano fluente. Gli incorporamenti del linguaggio contestualizzati possono comprendere sintassi, semantica e contesto complessi.

Ad esempio, considera gli incorporamenti della parola inglese cow. Gli embedding precedenti, come word2vec, possono rappresentare le parole in inglese in modo che la distanza nello spazio di embedding da cow a bull sia simile alla distanza da ewe (pecora femmina) a ram (pecora maschio) o da female a male. Gli incorporamenti del linguaggio contestualizzato possono fare un ulteriore passo avanti riconoscendo che i parlanti inglesi a volte usano casualmente la parola cow per indicare sia la mucca che il toro.

finestra contestuale

#generativeAI

Il numero di token che un modello può elaborare in un determinato prompt. Più è ampia la finestra contestuale, maggiore è la quantità di informazioni che il modello può utilizzare per fornire risposte coerenti e consistenti al prompt.

funzionalità continua

#fundamentals

Una caratteristica in virgola mobile con un intervallo infinito di valori possibili, come temperatura o peso.

Contrasto con la funzionalità discreta.

campionamento di convenienza

Utilizzo di un set di dati non raccolti scientificamente per eseguire esperimenti rapidi. In un secondo momento, è essenziale passare a un set di dati raccolti scientificamente.

convergenza

#fundamentals

Uno stato raggiunto quando i valori di perdita cambiano molto poco o non cambiano affatto a ogni iterazione. Ad esempio, la seguente curva di perdita suggerisce la convergenza dopo circa 700 iterazioni:

Grafico cartesiano. L'asse X è perso. L'asse Y indica il numero di iterazioni di addestramento. La perdita è molto elevata durante le prime iterazioni, ma
diminuisce bruscamente. Dopo circa 100 iterazioni, la perdita continua a diminuire, ma in modo molto più graduale. Dopo circa 700 iterazioni,
la perdita rimane costante.

Un modello converge quando un ulteriore addestramento non lo migliora.

Nel deep learning, i valori di perdita a volte rimangono costanti o quasi per molte iterazioni prima di diminuire. Durante un lungo periodo di valori di perdita costanti, potresti avere temporaneamente una falsa sensazione di convergenza.

Vedi anche interruzione anticipata.

Per saperne di più, consulta Convergenza del modello e curve di perdita in Machine Learning Crash Course.

programmazione conversazionale

#generativeAI

Un dialogo iterativo tra te e un modello di AI generativa allo scopo di creare software. Emetti un prompt che descrive un software. Poi, il modello utilizza questa descrizione per generare il codice. Poi, emetti un nuovo prompt per risolvere i difetti del prompt precedente o del codice generato e il modello genera il codice aggiornato. Continuate a fare avanti e indietro finché il software generato non è abbastanza buono.

Il conversation coding è essenzialmente il significato originale di vibe coding.

Contrasta con la codifica delle specifiche.

funzione convessa

Una funzione in cui la regione sopra il grafico della funzione è un insieme convesso. La funzione convessa prototipica ha una forma simile alla lettera U. Ad esempio, le seguenti sono tutte funzioni convesse:

Curve a forma di U, ciascuna con un singolo punto minimo.

Al contrario, la seguente funzione non è convessa. Nota come la regione sopra il grafico non sia un insieme convesso:

Una curva a forma di W con due punti di minimo locale diversi.

Una funzione strettamente convessa ha esattamente un punto di minimo locale, che è anche il punto di minimo globale. Le funzioni a forma di U classiche sono funzioni strettamente convesse. Tuttavia, alcune funzioni convesse (ad esempio le rette) non hanno forma a U.

Fai clic sull'icona per un'analisi più approfondita dei calcoli.

Molte delle funzioni di perdita comuni, tra cui le seguenti, sono funzioni convesse:

L₂ loss
Perdita logaritmica
Regolarizzazione L₁
Regolarizzazione _L2

Molte varianti della discesa del gradiente garantiscono di trovare un punto vicino al minimo di una funzione strettamente convessa. Allo stesso modo, molte varianti della discesa del gradiente stocastico hanno un'alta probabilità (anche se non una garanzia) di trovare un punto vicino al minimo di una funzione strettamente convessa.

La somma di due funzioni convesse (ad esempio, perdita L₂ + regolarizzazione L₁) è una funzione convessa.

I modelli profondi non sono mai funzioni convesse. È interessante notare che gli algoritmi progettati per l'ottimizzazione convessa tendono a trovare soluzioni ragionevolmente buone sulle reti profonde, anche se non è garantito che queste soluzioni siano un minimo globale.

Per saperne di più, consulta Funzioni di convergenza e convesse in Machine Learning Crash Course.

ottimizzazione convessa

Il processo di utilizzo di tecniche matematiche come la discesa del gradiente per trovare il minimo di una funzione convessa. Gran parte della ricerca nel machine learning si è concentrata sulla formulazione di vari problemi come problemi di ottimizzazione convessa e sulla loro risoluzione in modo più efficiente.

Per informazioni dettagliate, consulta Boyd e Vandenberghe, Convex Optimization.

insieme convesso

Un sottoinsieme dello spazio euclideo tale che una linea tracciata tra due punti qualsiasi del sottoinsieme rimanga completamente all'interno del sottoinsieme. Ad esempio, le seguenti due forme sono insiemi convessi:

Un'illustrazione di un rettangolo. Un'altra illustrazione di un ovale.

Al contrario, le due forme seguenti non sono insiemi convessi:

Un'illustrazione di un grafico a torta con una fetta mancante.
Un'altra illustrazione di un poligono molto irregolare.

convoluzione

In matematica, in termini semplici, una combinazione di due funzioni. Nel machine learning, una convoluzione combina il filtro convoluzionale e la matrice di input per addestrare i pesi.

Il termine "convoluzione" nel machine learning è spesso un modo abbreviato per fare riferimento all'operazione di convoluzione o al livello convoluzionale.

Senza convoluzioni, un algoritmo di machine learning dovrebbe apprendere un peso separato per ogni cella di un tensore di grandi dimensioni. Ad esempio, un algoritmo di machine learning addestrato su immagini 2K x 2K sarebbe costretto a trovare 4 milioni di pesi separati. Grazie alle convoluzioni, un algoritmo di machine learning deve trovare i pesi solo per ogni cella del filtro convoluzionale, riducendo drasticamente la memoria necessaria per addestrare il modello. Quando viene applicato il filtro convoluzionale, viene semplicemente replicato nelle celle in modo che ognuna venga moltiplicata per il filtro.

Per saperne di più, consulta Introduzione alle reti neurali convoluzionali nel corso Classificazione delle immagini.

filtro convoluzionale

Uno dei due attori in un'operazione di convoluzione. (L'altro attore è una sezione di una matrice di input.) Un filtro convoluzionale è una matrice con lo stesso rango della matrice di input, ma una forma più piccola. Ad esempio, data una matrice di input 28x28, il filtro può essere qualsiasi matrice 2D più piccola di 28x28.

Nella manipolazione fotografica, tutte le celle di un filtro convoluzionale sono in genere impostate su un pattern costante di 1 e 0. Nel machine learning, i filtri convoluzionali vengono in genere inizializzati con numeri casuali e poi la rete addestra i valori ideali.

Per saperne di più, consulta Convoluzione nel corso Classificazione delle immagini.

livello convoluzionale

Uno strato di una rete neurale profonda in cui un filtro convoluzionale passa lungo una matrice di input. Ad esempio, considera il seguente filtro convoluzionale 3x3:

Una matrice 3x3 con i seguenti valori: [[0,1,0], [1,0,1], [0,1,0]]

L'animazione seguente mostra un livello convoluzionale costituito da 9 operazioni convoluzionali che coinvolgono la matrice di input 5x5. Tieni presente che ogni operazione di convoluzione funziona su una diversa sezione 3x3 della matrice di input. La matrice 3x3 risultante (a destra) è costituita dai risultati delle 9 operazioni di convoluzione:

Per saperne di più, consulta Livelli completamente connessi nel corso Classificazione delle immagini.

rete neurale convoluzionale

Una rete neurale in cui almeno uno strato è uno strato convoluzionale. Una tipica rete neurale convoluzionale è costituita da una combinazione dei seguenti livelli:

livelli convoluzionali
livelli di pooling
livelli densi

Le reti neurali convoluzionali hanno ottenuto ottimi risultati in alcuni tipi di problemi, come il riconoscimento delle immagini.

operazione di convoluzione

La seguente operazione matematica in due passaggi:

Moltiplicazione elemento per elemento del filtro convoluzionale e di una sezione di una matrice di input. La sezione della matrice di input ha lo stesso rango e le stesse dimensioni del filtro convoluzionale.
Somma di tutti i valori nella matrice dei prodotti risultante.

Ad esempio, considera la seguente matrice di input 5x5:

La matrice 5x5: [[128,97,53,201,198], [35,22,25,200,195],
[37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].

Ora immagina il seguente filtro convoluzionale 2x2:

La matrice 2x2: [[1, 0], [0, 1]]

Ogni operazione di convoluzione coinvolge una singola sezione 2x2 della matrice di input. Ad esempio, supponiamo di utilizzare la sezione 2x2 in alto a sinistra della matrice di input. Pertanto, l'operazione di convoluzione su questa sezione è la seguente:

Applicazione del filtro convoluzionale [[1, 0], [0, 1]] alla sezione 2x2 in alto a sinistra
della matrice di input, ovvero [[128,97], [35,22]].
Il filtro convoluzionale lascia intatti 128 e 22, ma azzera
97 e 35. Di conseguenza, l'operazione di convoluzione produce
il valore 150 (128+22).

Un livello convoluzionale è costituito da una serie di operazioni convoluzionali, ognuna delle quali agisce su una sezione diversa della matrice di input.

costo

#Metric

Sinonimo di perdita.

co-training

Un approccio di apprendimento semi-supervisionato particolarmente utile quando sono vere tutte le seguenti condizioni:

Il rapporto tra esempi senza etichetta ed esempi con etichetta nel set di dati è elevato.
Si tratta di un problema di classificazione (binaria o multiclasse).
Il set di dati contiene due diversi insiemi di caratteristiche predittive indipendenti l'uno dall'altro e complementari.

Il co-training amplifica essenzialmente i segnali indipendenti in un segnale più forte. Ad esempio, considera un modello di classificazione che classifica le singole auto usate come Buone o Cattive. Un insieme di funzionalità predittive potrebbe concentrarsi su caratteristiche aggregate come l'anno, la marca e il modello dell'auto; un altro insieme di funzionalità predittive potrebbe concentrarsi su la cronologia di guida del precedente proprietario e la cronologia di manutenzione dell'auto.

L'articolo fondamentale sul co-training è Combining Labeled and Unlabeled Data with Co-Training di Blum e Mitchell.

equità controfattuale

#responsible

#Metric

Una metrica di equità che controlla se un modello di classificazione produce lo stesso risultato per un individuo e per un altro individuo identico al primo, tranne per uno o più attributi sensibili. La valutazione di un modello di classificazione per l'equità controfattuale è un metodo per individuare potenziali fonti di bias in un modello.

Per saperne di più, consulta uno dei seguenti articoli:

Equità: equità controfattuale in Machine Learning Crash Course.
When Worlds Collide: Integrating Different Counterfactual Assumptions in Fairness (Quando i mondi si scontrano: integrare diverse ipotesi controfattuali nell'equità)

bias di copertura

#responsible

Consulta la sezione Bias di selezione.

crash blossom

Una frase o un'espressione con un significato ambiguo. I crash blossom rappresentano un problema significativo nella comprensione del linguaggio naturale. Ad esempio, il titolo Red Tape Holds Up Skyscraper è un crash blossom perché un modello NLU potrebbe interpretare il titolo letteralmente o figurativamente.

Fai clic sull'icona per ulteriori note.

Per chiarire il significato di quel titolo misterioso:

Red Tape può riferirsi a una delle seguenti situazioni:
- Un adesivo
- Eccessiva burocrazia
Holds Up può riferirsi a una delle seguenti situazioni:
- Supporto strutturale
- Ritardi

critico

Sinonimo di Deep Q-Network.

entropia incrociata

#Metric

Una generalizzazione della perdita logaritmica per problemi di classificazione multiclasse. L'entropia incrociata quantifica la differenza tra due distribuzioni di probabilità. Vedi anche perplessità.

convalida incrociata

Un meccanismo per stimare il livello di generalizzazione di un modello a nuovi dati testando il modello su uno o più sottoinsiemi di dati non sovrapposti sottratti dal set di addestramento.

funzione di distribuzione cumulativa (CDF)

#Metric

Una funzione che definisce la frequenza dei campioni minore o uguale a un valore target. Ad esempio, considera una distribuzione normale di valori continui. Una CDF indica che circa il 50% dei campioni deve essere inferiore o uguale alla media e che circa l'84% dei campioni deve essere inferiore o uguale a una deviazione standard sopra la media.

D

analisi dei dati

Ottenere una comprensione dei dati considerando campioni, misurazioni e visualizzazioni. L'analisi dei dati può essere particolarmente utile quando un set di dati viene ricevuto per la prima volta, prima di creare il primo modello. È inoltre fondamentale per comprendere gli esperimenti e risolvere i problemi del sistema.

aumento dei dati

Aumentare artificialmente l'intervallo e il numero di esempi di addestramento trasformando gli esempi esistenti per creare esempi aggiuntivi. Ad esempio, supponiamo che le immagini siano una delle tue caratteristiche, ma il tuo set di dati non contiene esempi di immagini sufficienti per consentire al modello di apprendere associazioni utili. Idealmente, dovresti aggiungere al tuo set di dati un numero sufficiente di immagini etichettate per consentire al modello di addestrarsi correttamente. Se non è possibile, l'aumento dei dati può ruotare, allungare e riflettere ogni immagine per produrre molte varianti dell'immagine originale, ottenendo possibilmente dati etichettati sufficienti per consentire un ottimo addestramento.

DataFrame

#fundamentals

Un tipo di dati pandas popolare per rappresentare i set di dati in memoria.

Un DataFrame è analogo a una tabella o a un foglio di lavoro. Ogni colonna di un DataFrame ha un nome (un'intestazione) e ogni riga è identificata da un numero univoco.

Ogni colonna di un DataFrame è strutturata come un array bidimensionale, tranne per il fatto che a ogni colonna può essere assegnato un proprio tipo di dati.

Consulta anche la pagina di riferimento di pandas.DataFrame ufficiale.

parallelismo dei dati

Un modo per scalare l'addestramento o l'inferenza che replica un intero modello su più dispositivi e poi passa un sottoinsieme dei dati di input a ciascun dispositivo. Il parallelismo dei dati può consentire l'addestramento e l'inferenza su batch di dimensioni molto grandi; tuttavia, il parallelismo dei dati richiede che il modello sia abbastanza piccolo da poter essere inserito in tutti i dispositivi.

Il parallelismo dei dati in genere accelera l'addestramento e l'inferenza.

Vedi anche parallelismo dei modelli.

API Dataset (tf.data)

#TensorFlow

Un'API TensorFlow di alto livello per leggere i dati e trasformarli in un formato richiesto da un algoritmo di machine learning. Un oggetto tf.data.Dataset rappresenta una sequenza di elementi, in cui ogni elemento contiene uno o più tensori. Un oggetto tf.data.Iterator fornisce l'accesso agli elementi di un Dataset.

set di dati

#fundamentals

Una raccolta di dati non elaborati, comunemente (ma non esclusivamente) organizzati in uno dei seguenti formati:

un foglio di lavoro
un file in formato CSV (valori separati da virgola)

confine decisionale

Il separatore tra le classi apprese da un modello in un problema di classificazione binaria o multiclasse. Ad esempio, nell'immagine seguente che rappresenta un problema di classificazione binaria, il confine decisionale è la frontiera tra la classe arancione e la classe blu:

Un confine ben definito tra una classe e l'altra.

foresta di alberi decisionali

#df

Un modello creato da più alberi decisionali. Una foresta decisionale fa una previsione aggregando le previsioni dei suoi alberi decisionali. I tipi più comuni di foreste decisionali includono foreste casuali e alberi potenziati dal gradiente.

Per ulteriori informazioni, consulta la sezione Foreste decisionali del corso sulle foreste decisionali.

soglia di decisione

Sinonimo di soglia di classificazione.

albero decisionale

#df

Un modello di apprendimento supervisionato composto da un insieme di condizioni e foglie organizzate gerarchicamente. Ad esempio, di seguito è riportata una struttura decisionale:

Un albero decisionale composto da quattro condizioni disposte
gerarchicamente, che portano a cinque foglie.

decoder

In generale, qualsiasi sistema di ML che esegue la conversione da una rappresentazione elaborata, densa o interna a una rappresentazione più grezza, sparsa o esterna.

I decoder sono spesso un componente di un modello più grande, in cui vengono spesso accoppiati a un encoder.

Nelle attività di sequenza-sequenza, un decoder inizia con lo stato interno generato dall'encoder per prevedere la sequenza successiva.

Consulta Transformer per la definizione di un decoder all'interno dell'architettura Transformer.

Per saperne di più, consulta Modelli linguistici di grandi dimensioni in Machine Learning Crash Course.

modello deep

#fundamentals

Una rete neurale contenente più di un strato nascosto.

Un modello profondo è chiamato anche rete neurale profonda.

Contrasta con il modello ampio.

per le reti neurali profonde

Sinonimo di modello profondo.

Deep Q-Network (DQN)

Nel Q-learning, una rete neurale profonda che prevede le funzioni Q.

Critic è un sinonimo di Deep Q-Network.

parità demografica

#responsible

#Metric

Una metrica di equità che viene soddisfatta se i risultati della classificazione di un modello non dipendono da un determinato attributo sensibile.

Ad esempio, se sia i lillipuziani che i brobdingnagiani fanno domanda all'Università di Glubbdubdrib, la parità demografica viene raggiunta se la percentuale di lillipuziani ammessi è la stessa di quella dei brobdingnagiani ammessi, indipendentemente dal fatto che un gruppo sia in media più qualificato dell'altro.

Contrasta con probabilità equalizzate e uguaglianza delle opportunità, che consentono ai risultati della classificazione aggregata di dipendere da attributi sensibili, ma non consentono ai risultati della classificazione per determinate etichette verità di riferimento specificate di dipendere da attributi sensibili. Consulta "Attacking discrimination with smarter machine learning" per una visualizzazione che esplora i compromessi quando si esegue l'ottimizzazione per la parità demografica.

Per saperne di più, consulta Equità: parità demografica in Machine Learning Crash Course.

riduzione del rumore

Un approccio comune all'apprendimento auto-supervisionato in cui:

Rumore viene aggiunto artificialmente al set di dati.
Il modello prova a rimuovere il rumore.

La rimozione del rumore consente l'apprendimento da esempi non etichettati. Il set di dati originale funge da target o etichetta e i dati rumorosi come input.

Alcuni modelli linguistici mascherati utilizzano la rimozione del rumore nel seguente modo:

Il rumore viene aggiunto artificialmente a una frase senza etichetta mascherando alcuni dei token.
Il modello tenta di prevedere i token originali.

caratteristica densa

#fundamentals

Una caratteristica in cui la maggior parte o tutti i valori sono diversi da zero, in genere un tensore di valori in virgola mobile. Ad esempio, il seguente tensore di 10 elementi è denso perché 9 dei suoi valori sono diversi da zero:

Contrasto con la funzionalità sparsa.

strato denso

Sinonimo di strato completamente connesso.

profondità

#fundamentals

La somma di quanto segue in una rete neurale:

il numero di livelli nascosti
il numero di livelli di output, in genere 1
il numero di eventuali strati di embedding

Ad esempio, una rete neurale con cinque strati nascosti e uno strato di output ha una profondità di 6.

Tieni presente che il livello di input non influisce sulla profondità.

rete neurale convoluzionale separabile per profondità (sepCNN)

Un'architettura di rete neurale convoluzionale basata su Inception, ma in cui i moduli Inception vengono sostituiti da convoluzioni separabili in profondità. Noto anche come Xception.

Una convoluzione separabile per profondità (abbreviata anche come convoluzione separabile) scompone una convoluzione 3D standard in due operazioni di convoluzione separate più efficienti dal punto di vista computazionale: prima una convoluzione separabile per profondità, con una profondità di 1 (n ✕ n ✕ 1), e poi una convoluzione puntuale, con lunghezza e larghezza di 1 (1 ✕ 1 ✕ n).

Per saperne di più, consulta Xception: Deep Learning with Depthwise Separable Convolutions.

etichetta derivata

Sinonimo di etichetta proxy.

dispositivo

#TensorFlow

#GoogleCloud

Un termine sovraccarico con le seguenti due possibili definizioni:

Una categoria di hardware in grado di eseguire una sessione TensorFlow, tra cui CPU, GPU e TPU.
Quando addestri un modello ML su chip acceleratori (GPU o TPU), la parte del sistema che manipola effettivamente tensori e incorporamenti. Il dispositivo funziona con chip di accelerazione. Al contrario, l'host in genere viene eseguito su una CPU.

privacy differenziale

Nell'apprendimento automatico, un approccio di anonimizzazione per proteggere i dati sensibili (ad esempio, le informazioni personali di un individuo) inclusi nel set di addestramento di un modello dall'esposizione. Questo approccio garantisce che il modello non impari o ricordi molto di una persona specifica. Ciò si ottiene campionando e aggiungendo rumore durante l'addestramento del modello per oscurare i singoli punti dati, riducendo il rischio di esporre dati di addestramento sensibili.

La privacy differenziale viene utilizzata anche al di fuori del machine learning. Ad esempio, i data scientist a volte utilizzano la privacy differenziale per proteggere la privacy individuale quando calcolano le statistiche sull'utilizzo dei prodotti per diverse fasce demografiche.

riduzione delle dimensioni

Riduzione del numero di dimensioni utilizzate per rappresentare una determinata funzionalità in un vettore delle funzionalità, in genere mediante la conversione in un vettore di incorporamento.

dimensioni

Termine sovraccarico con una delle seguenti definizioni:

Il numero di livelli di coordinate in un Tensor. Ad esempio:
- Uno scalare ha zero dimensioni, ad esempio ["Hello"].
- Un vettore ha una dimensione, ad esempio [3, 5, 7, 11].
- Una matrice ha due dimensioni, ad esempio [[2, 4, 18], [5, 7, 14]]. Puoi specificare in modo univoco una cella particolare in un vettore unidimensionale con una coordinata; hai bisogno di due coordinate per specificare in modo univoco una cella particolare in una matrice bidimensionale.
Il numero di voci in un vettore di caratteristiche.
Il numero di elementi in un livello di incorporamento.

prompt diretto

#generativeAI

Sinonimo di prompt zero-shot.

funzionalità discreta

#fundamentals

Una caratteristica con un insieme finito di valori possibili. Ad esempio, una caratteristica i cui valori possono essere solo animale, vegetale o minerale è una caratteristica discreta (o categorica).

Contrasto con la caratteristica continua.

modello discriminativo

Un modello che prevede etichette da un insieme di una o più funzionalità. Più formalmente, i modelli discriminativi definiscono la probabilità condizionale di un output date le funzionalità e i pesi, ovvero:

p(output | features, weights)

Ad esempio, un modello che prevede se un'email è spam a partire da caratteristiche e pesi è un modello discriminante.

La stragrande maggioranza dei modelli di apprendimento supervisionato, inclusi i modelli di classificazione e regressione, sono modelli discriminativi.

Contrasto con il modello generativo.

discriminatore

Un sistema che determina se gli esempi sono reali o falsi.

In alternativa, il sottosistema all'interno di una rete adversarial generativa che determina se gli esempi creati dal generatore sono reali o falsi.

Per saperne di più, consulta la sezione Il discriminatore del corso sulle GAN.

impatto discriminatorio

#responsible

Prendere decisioni sulle persone che influiscono in modo sproporzionato su diversi sottogruppi della popolazione. Ciò si riferisce in genere a situazioni in cui un processo decisionale algoritmico danneggia o avvantaggia alcuni sottogruppi più di altri.

Ad esempio, supponiamo che un algoritmo che determina l'idoneità di un lillipuziano a un mutuo per una casa in miniatura abbia maggiori probabilità di classificarlo come "non idoneo" se il suo indirizzo postale contiene un determinato codice postale. Se i lillipuziani Big-Endian hanno maggiori probabilità di avere indirizzi postali con questo codice postale rispetto ai lillipuziani Little-Endian, questo algoritmo potrebbe comportare un impatto disparato.

In contrasto con il trattamento disparato, che si concentra sulle disparità che si verificano quando le caratteristiche dei sottogruppi sono input espliciti per un processo decisionale algoritmico.

trattamento discriminatorio

#responsible

L'inclusione di attributi sensibili nel processo decisionale algoritmico in modo che diversi sottogruppi di persone vengano trattati in modo diverso.

Ad esempio, considera un algoritmo che determina l'idoneità dei lillipuziani a un prestito per una casa in miniatura in base ai dati forniti nella domanda di prestito. Se l'algoritmo utilizza l'affiliazione di un lillipuziano come Big-Endian o Little-Endian come input, sta attuando un trattamento discriminatorio lungo questa dimensione.

Si differenzia dall'impatto disparato, che si concentra sulle disparità negli impatti sociali delle decisioni algoritmiche sui sottogruppi, indipendentemente dal fatto che questi sottogruppi siano input del modello.

distillazione

#generativeAI

Il processo di riduzione delle dimensioni di un modello (noto come insegnante) in un modello più piccolo (noto come studente) che emula le previsioni del modello originale nel modo più fedele possibile. La distillazione è utile perché il modello più piccolo presenta due vantaggi chiave rispetto al modello più grande (l'insegnante):

Tempi di inferenza più rapidi
Riduzione dell'utilizzo di memoria ed energia

Tuttavia, le previsioni dello studente in genere non sono buone come quelle dell'insegnante.

La distillazione addestra il modello studente a ridurre al minimo una funzione di perdita in base alla differenza tra gli output delle previsioni dei modelli studente e insegnante.

Confronta e contrapponi la distillazione con i seguenti termini:

ottimizzazione
Apprendimento basato sui prompt

Per saperne di più, consulta LLM: fine-tuning, distillazione e prompt engineering in Machine Learning Crash Course.

distribution

La frequenza e l'intervallo di valori diversi per una determinata funzionalità o etichetta. Una distribuzione acquisisce la probabilità di un valore specifico.

L'immagine seguente mostra gli istogrammi di due distribuzioni diverse:

A sinistra, una distribuzione della ricchezza secondo la legge di potenza rispetto al numero di persone che possiedono quella ricchezza.
A destra, una distribuzione normale dell'altezza rispetto al numero di persone che hanno quell'altezza.

Comprendere la distribuzione di ogni funzionalità ed etichetta può aiutarti a determinare come normalizzare i valori e rilevare gli outlier.

L'espressione fuori distribuzione si riferisce a un valore che non compare nel set di dati o è molto raro. Ad esempio, un'immagine del pianeta Saturno sarebbe considerata fuori distribuzione per un set di dati costituito da immagini di gatti.

clustering divisivo

#clustering

Vedi clustering gerarchico.

sottocampionamento

Termine sovraccarico che può significare una delle seguenti opzioni:

Riduzione della quantità di informazioni in una caratteristica per addestrare un modello in modo più efficiente. Ad esempio, prima di addestrare un modello di riconoscimento delle immagini, esegui il downsampling delle immagini ad alta risoluzione in un formato a risoluzione inferiore.
Addestramento su una percentuale sproporzionatamente bassa di esempi di classe sovra rappresentata per migliorare l'addestramento del modello sulle classi sottorappresentate. Ad esempio, in un set di dati con squilibrio di classe, i modelli tendono ad apprendere molto sulla classe maggioritaria e non abbastanza sulla classe minoritaria. Il sottocampionamento aiuta a bilanciare la quantità di addestramento sulle classi maggioritarie e minoritarie.

Per saperne di più, consulta Set di dati: set di dati sbilanciati in Machine Learning Crash Course.

DQN

Abbreviazione di Deep Q-Network.

regolarizzazione del dropout

Una forma di regolarizzazione utile per l'addestramento di reti neurali. La regolarizzazione del dropout rimuove una selezione casuale di un numero fisso di unità in un livello di rete per un singolo passo del gradiente. Più unità vengono escluse, più forte è la regolarizzazione. Ciò equivale ad addestrare la rete a emulare un ensemble di reti più piccole di dimensioni esponenzialmente grandi. Per tutti i dettagli, consulta l'articolo Dropout: A Simple Way to Prevent Neural Networks from Overfitting.

dinamico

#fundamentals

Qualcosa che viene fatto di frequente o in modo continuo. I termini dinamico e online sono sinonimi nel machine learning. Di seguito sono riportati gli utilizzi comuni di dinamico e online nel machine learning:

Un modello dinamico (o modello online) è un modello che viene riaddestrato di frequente o continuamente.
L'addestramento dinamico (o addestramento online) è il processo di addestramento frequente o continuo.
L'inferenza dinamica (o inferenza online) è il processo di generazione di previsioni on demand.

modello dinamico

#fundamentals

Un modello che viene riaddestrato frequentemente (forse anche in modo continuo). Un modello dinamico è un "apprendista permanente" che si adatta costantemente all'evoluzione dei dati. Un modello dinamico è noto anche come modello online.

Contrasta con il modello statico.

E

esecuzione eager

#TensorFlow

Un ambiente di programmazione TensorFlow in cui le operazioni vengono eseguite immediatamente. Al contrario, le operazioni chiamate in esecuzione del grafico non vengono eseguite finché non vengono valutate in modo esplicito. L'esecuzione eager è un'interfaccia imperativa, molto simile al codice nella maggior parte dei linguaggi di programmazione. I programmi di esecuzione eager sono in genere molto più facili da eseguire il debug rispetto ai programmi di esecuzione del grafico.

interruzione anticipata

#fundamentals

Un metodo di regolarizzazione che prevede di terminare l'addestramento prima che la perdita di addestramento finisca di diminuire. Nell'interruzione anticipata, l'addestramento del modello viene interrotto intenzionalmente quando la perdita su un set di dati di convalida inizia ad aumentare, ovvero quando le prestazioni di generalizzazione peggiorano.

Fai clic sull'icona per ulteriori note.

L'interruzione anticipata può sembrare controintuitiva. Dopo tutto, dire a un modello di interrompere l'addestramento mentre la perdita è ancora in diminuzione può sembrare come dire a uno chef di smettere di cucinare prima che il dolce sia completamente cotto. Tuttavia, addestrare un modello per troppo tempo può portare a un overfitting. ovvero, se addestri un modello troppo a lungo, il modello potrebbe adattarsi così bene ai dati di addestramento che non fa buone previsioni su nuovi esempi.

In contrasto con l'uscita anticipata.

Distanza di movimento terra (EMD)

#Metric

Una misura della similarità relativa di due distribuzioni. Minore è la distanza di Earth Mover, più simili sono le distribuzioni.

modifica distanza

#Metric

Una misurazione del grado di somiglianza tra due stringhe di testo. Nel machine learning, la distanza di modifica è utile per i seguenti motivi:

La distanza di modifica è facile da calcolare.
La distanza di modifica può confrontare due stringhe note per essere simili tra loro.
La distanza di modifica può determinare il grado di somiglianza di stringhe diverse rispetto a una determinata stringa.

Esistono diverse definizioni di distanza di modifica, ognuna delle quali utilizza operazioni sulle stringhe diverse. Per un esempio, consulta Distanza di Levenshtein.

Notazione di Einstein

Una notazione efficiente per descrivere come devono essere combinati due tensori. I tensori vengono combinati moltiplicando gli elementi di un tensore per gli elementi dell'altro tensore e poi sommando i prodotti. La notazione di Einstein utilizza simboli per identificare gli assi di ogni tensore e questi stessi simboli vengono riorganizzati per specificare la forma del nuovo tensore risultante.

NumPy fornisce un'implementazione comune di Einsum.

livello di incorporamento

#fundamentals

Uno speciale livello nascosto che viene addestrato su una caratteristica categorica ad alta dimensionalità per apprendere gradualmente un vettore di incorporamento a dimensionalità inferiore. Un livello di incorporamento consente a una rete neurale di eseguire l'addestramento in modo molto più efficiente rispetto all'addestramento basato solo sulla caratteristica categorica ad alta dimensionalità.

Ad esempio, attualmente Earth supporta circa 73.000 specie di alberi. Supponiamo che la specie di albero sia una caratteristica del tuo modello, quindi il livello di input del modello include un vettore one-hot lungo 73.000 elementi. Ad esempio, forse baobab potrebbe essere rappresentato in questo modo:

Un array di 73.000 elementi. I primi 6232 elementi contengono il valore
0. L'elemento successivo contiene il valore 1. Gli ultimi 66.767 elementi contengono
il valore zero.

Un array di 73.000 elementi è molto lungo. Se non aggiungi un livello di incorporamento al modello, l'addestramento richiederà molto tempo a causa della moltiplicazione di 72.999 zeri. Forse scegli che lo strato di incorporamento sia composto da 12 dimensioni. Di conseguenza, il livello di incorporamento imparerà gradualmente un nuovo vettore di incorporamento per ogni specie di albero.

In alcune situazioni, l'hashing è un'alternativa ragionevole a un livello di incorporamento.

Per saperne di più, consulta la sezione Incorporamenti di Machine Learning Crash Course.

spazio di embedding

Lo spazio vettoriale d-dimensionale a cui vengono mappate le caratteristiche di uno spazio vettoriale di dimensione superiore. Lo spazio di embedding è addestrato per acquisire la struttura significativa per l'applicazione prevista.

Il prodotto scalare di due embedding è una misura della loro similarità.

vettore di embedding

In generale, un array di numeri in virgola mobile presi da qualsiasi strato nascosto che descrivono gli input di quello strato nascosto. Spesso, un vettore di incorporamento è l'array di numeri in virgola mobile addestrati in un livello di incorporamento. Ad esempio, supponiamo che un livello di embedding debba apprendere un vettore di embedding per ciascuna delle 73.000 specie di alberi sulla Terra. Forse il seguente array è il vettore di incorporamento per un baobab:

Un array di 12 elementi, ognuno contenente un numero in virgola mobile
compreso tra 0,0 e 1,0.

Un vettore di incorporamento non è un insieme di numeri casuali. Uno strato di incorporamento determina questi valori tramite l'addestramento, in modo simile a come una rete neurale apprende altri pesi durante l'addestramento. Ogni elemento dell'array è una valutazione di una caratteristica di una specie arborea. Quale elemento rappresenta la caratteristica di quale specie di albero? È molto difficile per gli esseri umani determinarlo.

La parte matematicamente notevole di un vettore di incorporamento è che elementi simili hanno insiemi simili di numeri in virgola mobile. Ad esempio, specie di alberi simili hanno un insieme di numeri in virgola mobile più simile rispetto a specie di alberi diverse. Le sequoie e le sequoie rosse sono specie arboree correlate, quindi avranno un insieme di numeri in virgola mobile più simile rispetto alle sequoie e alle palme da cocco. I numeri nel vettore di incorporamento cambiano ogni volta che viene eseguito il retraining del modello, anche se viene eseguito con input identici.

funzione di distribuzione cumulativa empirica (eCDF o EDF)

#Metric

Una funzione di distribuzione cumulativa basata su misurazioni empiriche di un set di dati reale. Il valore della funzione in qualsiasi punto dell'asse x è la frazione di osservazioni nel set di dati che sono minori o uguali al valore specificato.

minimizzazione empirica del rischio (ERM)

Scegliendo la funzione che minimizza la perdita nel set di addestramento. Contrasto con la riduzione del rischio strutturale.

codificatore

In generale, qualsiasi sistema ML che converte una rappresentazione non elaborata, sparsa o esterna in una rappresentazione più elaborata, densa o interna.

Gli encoder sono spesso un componente di un modello più grande, in cui vengono spesso accoppiati a un decoder. Alcuni Transformer accoppiano encoder e decoder, mentre altri Transformer utilizzano solo l'encoder o solo il decoder.

Alcuni sistemi utilizzano l'output dell'encoder come input per una rete di classificazione o regressione.

Nelle attività da sequenza a sequenza, un encoder accetta una sequenza di input e restituisce uno stato interno (un vettore). Poi, il decoder utilizza questo stato interno per prevedere la sequenza successiva.

Consulta Transformer per la definizione di un encoder nell'architettura Transformer.

Per saperne di più, consulta LLM: che cos'è un modello linguistico di grandi dimensioni in Machine Learning Crash Course.

endpoints

Una posizione indirizzabile in rete (in genere un URL) in cui è possibile raggiungere un servizio.

ensemble

Una raccolta di modelli addestrati in modo indipendente le cui previsioni vengono calcolate come media o aggregate. In molti casi, un ensemble produce previsioni migliori rispetto a un singolo modello. Ad esempio, una foresta casuale è un insieme costruito da più alberi decisionali. Tieni presente che non tutte le foreste decisionali sono insiemi.

Per saperne di più, consulta Random Forest in Machine Learning Crash Course.

entropia

#df

#Metric

Nella teoria dell'informazione, una descrizione di quanto sia imprevedibile una distribuzione di probabilità. In alternativa, l'entropia è anche definita come la quantità di informazioni contenute in ogni esempio. Una distribuzione ha l'entropia più elevata possibile quando tutti i valori di una variabile casuale sono ugualmente probabili.

L'entropia di un insieme con due possibili valori "0" e "1" (ad esempio, le etichette in un problema di classificazione binaria) ha la seguente formula:

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

dove:

H è l'entropia.
p è la frazione di esempi "1".
q è la frazione di esempi "0". Tieni presente che q = (1 - p)
log è generalmente log₂. In questo caso, l'unità di entropia è un bit.

Ad esempio, supponiamo quanto segue:

100 esempi contengono il valore "1"
300 esempi contengono il valore "0"

Pertanto, il valore di entropia è:

p = 0,25
q = 0,75
H = (-0,25)log₂(0,25) - (0,75)log₂(0,75) = 0,81 bit per esempio

Un insieme perfettamente bilanciato (ad esempio, 200 "0" e 200 "1") avrebbe un'entropia di 1 bit per esempio. Man mano che un insieme diventa più sbilanciato, la sua entropia tende a 0.

Negli alberi decisionali, l'entropia aiuta a formulare il guadagno di informazioni per aiutare lo splitter a selezionare le condizioni durante la crescita di un albero decisionale di classificazione.

Confronta l'entropia con:

Impurità di Gini
Funzione di perdita entropia incrociata

L'entropia viene spesso chiamata entropia di Shannon.

Per saperne di più, consulta Splitter esatto per la classificazione binaria con funzionalità numeriche nel corso Decision Forests.

produzione

Nell'apprendimento per rinforzo, il mondo che contiene l'agente e gli consente di osservare lo stato. Ad esempio, il mondo rappresentato può essere un gioco come gli scacchi o un mondo fisico come un labirinto. Quando l'agente applica un'azione all'ambiente, l'ambiente passa da uno stato all'altro.

puntata

Nell'apprendimento per rinforzo, ogni tentativo ripetuto dell'agente di apprendere un ambiente.

periodo

#fundamentals

Un passaggio di addestramento completo sull'intero set di addestramento in modo che ogni esempio sia stato elaborato una volta.

Un'epoca rappresenta N/dimensione batch iterazioni di addestramento, dove N è il numero totale di esempi.

Ad esempio, supponiamo quanto segue:

Il set di dati è composto da 1000 esempi.
La dimensione del batch è di 50 esempi.

Pertanto, una singola epoca richiede 20 iterazioni:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

Per saperne di più, consulta Regressione lineare: iperparametri in Machine Learning Crash Course.

epsilon greedy policy

Nell'apprendimento per rinforzo, una policy che segue una policy casuale con probabilità epsilon o una policy greedy altrimenti. Ad esempio, se epsilon è 0,9, la policy segue una policy casuale il 90% delle volte e una policy greedy il 10% delle volte.

Nel corso di episodi successivi, l'algoritmo riduce il valore di epsilon per passare da una strategia casuale a una strategia greedy. Spostando la policy, l'agente esplora prima l'ambiente in modo casuale e poi sfrutta avidamente i risultati dell'esplorazione casuale.

uguaglianza di opportunità

#responsible

#Metric

Una metrica di equità per valutare se un modello prevede il risultato desiderabile altrettanto bene per tutti i valori di un attributo sensibile. In altre parole, se il risultato desiderabile per un modello è la classe positiva, l'obiettivo sarebbe che il tasso di veri positivi sia lo stesso per tutti i gruppi.

L'uguaglianza delle opportunità è correlata alle probabilità equalizzate, che richiedono che entrambi i tassi di veri positivi e i tassi di falsi positivi siano gli stessi per tutti i gruppi.

Supponiamo che l'Università di Glubbdubdrib ammetta sia i lillipuziani che i brobdingnagiani a un rigoroso programma di matematica. Le scuole secondarie di Lilliput offrono un solido programma di corsi di matematica e la stragrande maggioranza degli studenti è qualificata per il programma universitario. Le scuole secondarie di Brobdingnag non offrono corsi di matematica e, di conseguenza, molti meno studenti sono qualificati. L'uguaglianza delle opportunità è soddisfatta per l'etichetta preferita di "ammesso" rispetto alla nazionalità (lillipuziana o brobdingnagiana) se gli studenti qualificati hanno la stessa probabilità di essere ammessi indipendentemente dal fatto che siano lillipuziani o brobdingnagiani.

Ad esempio, supponiamo che 100 lillipuziani e 100 brobdingnaghi facciano domanda all'Università di Glubbdubdrib e che le decisioni di ammissione vengano prese come segue:

Tabella 1. Candidati lillipuziani (il 90% è qualificato)

	Qualificato	Non qualificato
Ammesso	45	3
Rifiutato	45	7
Totale	90	10
Percentuale di studenti qualificati ammessi: 45/90 = 50% Percentuale di studenti non qualificati respinti: 7/10 = 70% Percentuale totale di studenti lillipuziani ammessi: (45+3)/100 = 48%

Tabella 2. Candidati brobdingnagiani (il 10% è qualificato):

	Qualificato	Non qualificato
Ammesso	5	9
Rifiutato	5	81
Totale	10	90
Percentuale di studenti qualificati ammessi: 5/10 = 50% Percentuale di studenti non qualificati respinti: 81/90 = 90% Percentuale totale di studenti di Brobdingnag ammessi: (5+9)/100 = 14%

Gli esempi precedenti soddisfano la parità di opportunità per l'accettazione di studenti qualificati perché i lillipuziani e i brobdingnagiani qualificati hanno entrambi il 50% di possibilità di essere ammessi.

Sebbene l'uguaglianza delle opportunità sia soddisfatta, le seguenti due metriche di equità non sono soddisfatte:

Parità demografica: lillipuziani e brobdingnaghi vengono ammessi all'università a tassi diversi; il 48% degli studenti lillipuziani viene ammesso, ma solo il 14% degli studenti brobdingnaghi.
Probabilità equalizzate: mentre gli studenti lillipuziani e brobdingnagiani qualificati hanno la stessa probabilità di essere ammessi, il vincolo aggiuntivo che gli studenti lillipuziani e brobdingnagiani non qualificati abbiano la stessa probabilità di essere respinti non è soddisfatto. I Lillipuziani non qualificati hanno un tasso di rifiuto del 70%, mentre i Brobdingnagiani non qualificati hanno un tasso di rifiuto del 90%.

Per saperne di più, consulta la sezione Equità: pari opportunità di Machine Learning Crash Course.

probabilità equalizzate

#responsible

#Metric

Una metrica di equità per valutare se un modello prevede i risultati in modo equo per tutti i valori di un attributo sensibile rispetto sia alla classe positiva sia alla classe negativa, non solo a una classe o all'altra esclusivamente. In altre parole, sia la percentuale di veri positivi sia la percentuale di falsi negativi devono essere uguali per tutti i gruppi.

Le probabilità equalizzate sono correlate all'uguaglianza di opportunità, che si concentra solo sui tassi di errore per una singola classe (positiva o negativa).

Ad esempio, supponiamo che l'Università di Glubbdubdrib ammetta sia i lillipuziani che i brobdingnagiani a un rigoroso programma di matematica. Le scuole secondarie di Lilliput offrono un solido programma di corsi di matematica e la stragrande maggioranza degli studenti è idonea al programma universitario. Le scuole secondarie di Brobdingnag non offrono corsi di matematica e, di conseguenza, molti meno studenti sono qualificati. La condizione di pari opportunità è soddisfatta a condizione che, indipendentemente dal fatto che un candidato sia un lillipuziano o un brobdingnagiano, se è qualificato, abbia la stessa probabilità di essere ammesso al programma e, se non è qualificato, abbia la stessa probabilità di essere rifiutato.

Supponiamo che 100 Lillipuziani e 100 Brobdingnagiani facciano domanda all'Università di Glubbdubdrib e che le decisioni di ammissione vengano prese come segue:

Tabella 3. Candidati lillipuziani (il 90% è qualificato)

	Qualificato	Non qualificato
Ammesso	45	2
Rifiutato	45	8
Totale	90	10
Percentuale di studenti qualificati ammessi: 45/90 = 50% Percentuale di studenti non qualificati respinti: 8/10 = 80% Percentuale totale di studenti lillipuziani ammessi: (45+2)/100 = 47%

Tabella 4. Candidati brobdingnagiani (il 10% è qualificato):

	Qualificato	Non qualificato
Ammesso	5	18
Rifiutato	5	72
Totale	10	90
Percentuale di studenti qualificati ammessi: 5/10 = 50% Percentuale di studenti non qualificati respinti: 72/90 = 80% Percentuale totale di studenti di Brobdingnag ammessi: (5+18)/100 = 23%

La condizione di probabilità uguale è soddisfatta perché gli studenti lillipuziani e brobdingnagiani qualificati hanno entrambi il 50% di possibilità di essere ammessi, mentre quelli non qualificati hanno l'80% di possibilità di essere respinti.

Le probabilità equalizzate sono definite formalmente in "Equality of Opportunity in Supervised Learning" come segue: "il predittore Ŷ soddisfa le probabilità equalizzate rispetto all'attributo protetto A e al risultato Y se Ŷ e A sono indipendenti, condizionati a Y".

Estimator

#TensorFlow

Un'API TensorFlow deprecata. Utilizza tf.keras anziché gli Estimator.

evals

#generativeAI

#Metric

Utilizzato principalmente come abbreviazione di valutazioni LLM. Più in generale, evals è l'abbreviazione di qualsiasi forma di valutazione.

valutazione

#generativeAI

#Metric

Il processo di misurazione della qualità di un modello o il confronto tra modelli diversi.

Per valutare un modello di machine learning supervisionato, in genere lo si confronta con un set di convalida e un set di test. La valutazione di un LLM in genere comporta valutazioni più ampie di qualità e sicurezza.

esempio

#fundamentals

I valori di una riga di caratteristiche ed eventualmente un'etichetta. Gli esempi di apprendimento supervisionato rientrano in due categorie generali:

Un esempio etichettato è costituito da una o più funzionalità e da un'etichetta. Gli esempi etichettati vengono utilizzati durante l'addestramento.
Un esempio senza etichetta è costituito da una o più funzionalità, ma nessuna etichetta. Gli esempi senza etichetta vengono utilizzati durante l'inferenza.

Ad esempio, supponiamo che tu stia addestrando un modello per determinare l'influenza delle condizioni meteorologiche sui punteggi dei test degli studenti. Ecco tre esempi etichettati:

Funzionalità			Etichetta
Temperatura	Umidità	Pressione	Punteggio del test
15	47	998	Buono
19	34	1020	Eccellente
18	92	1012	Scadente

Ecco tre esempi senza etichetta:

Temperatura	Umidità	Pressione
12	62	1014
21	47	1017
19	41	1021

La riga di un set di dati è in genere l'origine non elaborata di un esempio. ovvero un sottoinsieme delle colonne del set di dati. Inoltre, le caratteristiche di un esempio possono includere anche caratteristiche sintetiche, come incroci di caratteristiche.

Per saperne di più, consulta Apprendimento supervisionato nel corso Introduzione al machine learning.

experience replay

Nell'apprendimento per rinforzo, una tecnica DQN utilizzata per ridurre le correlazioni temporali nei dati di addestramento. L'agente memorizza le transizioni di stato in un buffer di replay, quindi campiona le transizioni dal buffer di replay per creare dati di addestramento.

bias dello sperimentatore

#responsible

Consulta la sezione relativa al bias di conferma.

problema del gradiente esplosivo

La tendenza dei gradienti nelle reti neurali profonde (soprattutto reti neurali ricorrenti) a diventare sorprendentemente ripidi (alti). I gradienti elevati spesso causano aggiornamenti molto grandi ai pesi di ogni nodo in una rete neurale profonda.

I modelli che soffrono del problema del gradiente esplosivo diventano difficili o impossibili da addestrare. Il clipping del gradiente può attenuare questo problema.

Confrontalo con il problema di scomparsa del gradiente.

V

F₁

#Metric

Una metrica di classificazione binaria "roll-up" che si basa sia sulla precisione sia sul richiamo. Ecco la formula:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

Fai clic sull'icona per visualizzare gli esempi.

Supponiamo che precisione e richiamo abbiano i seguenti valori:

precisione = 0,6
recall = 0.4

Calcola F₁ nel seguente modo:

$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

Quando precisione e richiamo sono abbastanza simili (come nell'esempio precedente), F₁ è vicino alla loro media. Quando precisione e richiamo differiscono in modo significativo, F₁ è più vicino al valore inferiore. Ad esempio:

precisione = 0,9
recall = 0.1

$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

oggettività

#generativeAI

Nel mondo del machine learning, una proprietà che descrive un modello il cui output si basa sulla realtà. L'accuratezza è un concetto, non una metrica. Ad esempio, supponi di inviare il seguente prompt a un modello linguistico di grandi dimensioni:

Qual è la formula chimica del sale da tavola?

Un modello che ottimizza l'accuratezza risponderebbe:

NaCl

È allettante presumere che tutti i modelli debbano basarsi su fatti reali. Tuttavia, alcuni prompt, come i seguenti, devono indurre un modello di AI generativa a ottimizzare la creatività anziché l'accuratezza.

Scrivimi una filastrocca su un astronauta e un bruco.

È improbabile che il limerick risultante si basi sulla realtà.

Contrasto con l'ancoraggio.

vincolo di equità

#responsible

Applicazione di un vincolo a un algoritmo per garantire che una o più definizioni di equità siano soddisfatte. Ecco alcuni esempi di vincoli di equità:

Post-elaborazione dell'output del modello.
Modifica della funzione di perdita per incorporare una penalità per la violazione di una metrica di equità.
Aggiunta diretta di un vincolo matematico a un problema di ottimizzazione.

metrica di equità

#responsible

#Metric

Una definizione matematica di "equità" misurabile. Alcune metriche di equità comunemente utilizzate includono:

probabilità equalizzate
parità predittiva
equità controfattuale
parità demografica

Molte metriche di equità si escludono a vicenda. Vedi Incompatibilità delle metriche di equità.

#fundamentals

#Metric

La proporzione di esempi negativi effettivi per i quali il modello ha previsto erroneamente la classe positiva. La seguente formula calcola il tasso di falsi positivi:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

La percentuale di falsi positivi è l'asse x di una curva ROC.

Per saperne di più, consulta Classificazione: ROC e AUC in Machine Learning Crash Course.

decadimento rapido

#generativeAI

Una tecnica di addestramento per migliorare le prestazioni degli LLM. Il decadimento rapido comporta una rapida diminuzione del tasso di apprendimento durante l'addestramento. Questa strategia aiuta a evitare che il modello esegua un overfitting dei dati di addestramento e migliora la generalizzazione.

caratteristica

#fundamentals

Una variabile di input per un modello di machine learning. Un esempio è composto da una o più funzionalità. Ad esempio, supponiamo che tu stia addestrando un modello per determinare l'influenza delle condizioni meteorologiche sui punteggi dei test degli studenti. La tabella seguente mostra tre esempi, ognuno dei quali contiene tre funzionalità e un'etichetta:

Funzionalità			Etichetta
Temperatura	Umidità	Pressione	Punteggio del test
15	47	998	92
19	34	1020	84
18	92	1012	87

Contrasto con l'etichetta.

Per saperne di più, consulta Apprendimento supervisionato nel corso Introduzione al machine learning.

incrocio di caratteristiche

#fundamentals

Una caratteristica sintetica formata "incrociando" caratteristiche categoriche o raggruppate.

Ad esempio, considera un modello di "previsione dell'umore" che rappresenta la temperatura in uno dei seguenti quattro bucket:

freezing
chilly
temperate
warm

e rappresenta la velocità del vento in uno dei seguenti tre bucket:

still
light
windy

Senza incroci di caratteristiche, il modello lineare viene addestrato in modo indipendente su ciascuno dei sette bucket precedenti. Pertanto, il modello viene addestrato, ad esempio, su freezing indipendentemente dall'addestramento su, ad esempio, windy.

In alternativa, potresti creare un incrocio di caratteristiche di temperatura e velocità del vento. Questa funzionalità sintetica avrebbe i seguenti 12 valori possibili:

freezing-still
freezing-light
freezing-windy
chilly-still
chilly-light
chilly-windy
temperate-still
temperate-light
temperate-windy
warm-still
warm-light
warm-windy

Grazie agli incroci di caratteristiche, il modello può apprendere le differenze di umore tra un giorno freezing-windy e un giorno freezing-still.

Se crei una caratteristica sintetica da due caratteristiche che hanno molte bucket diversi, l'incrocio di caratteristiche risultante avrà un numero enorme di combinazioni possibili. Ad esempio, se una funzionalità ha 1000 bucket e l'altra ne ha 2000, il cross di funzionalità risultante ha 2.000.000 di bucket.

Formalmente, un incrocio è un prodotto cartesiano.

I cross di caratteristiche vengono utilizzati principalmente con i modelli lineari e raramente con le reti neurali.

Per saperne di più, consulta Dati categorici: combinazioni di funzionalità in Machine Learning Crash Course.

e applicazione del feature engineering.

#fundamentals

#TensorFlow

Un processo che prevede i seguenti passaggi:

Determinare quali caratteristiche potrebbero essere utili per l'addestramento di un modello.
Conversione dei dati non elaborati del set di dati in versioni efficienti di queste caratteristiche.

Ad esempio, potresti determinare che temperature potrebbe essere una funzionalità utile. Poi, potresti sperimentare il raggruppamento per ottimizzare ciò che il modello può apprendere da diversi intervalli di temperature.

Il feature engineering è talvolta chiamato estrazione delle funzionalità o featurizzazione.

Fai clic sull'icona per ulteriori note su TensorFlow.

In TensorFlow, il feature engineering spesso significa convertire le voci dei file di log non elaborati in buffer di protocollo tf.Example. Vedi anche tf.Transform.

Per saperne di più, consulta la sezione Dati numerici: come un modello acquisisce i dati utilizzando i vettori delle funzionalità di Machine Learning Crash Course.

estrazione delle caratteristiche

Termine sovraccarico con una delle seguenti definizioni:

Recupero delle rappresentazioni delle funzionalità intermedie calcolate da un modello non supervisionato o preaddestrato (ad esempio, i valori dello strato nascosto in una rete neurale) da utilizzare come input in un altro modello.
Sinonimo di feature engineering.

importanza delle caratteristiche

#df

#Metric

Sinonimo di importanza delle variabili.

set di funzionalità

#fundamentals

Il gruppo di funzionalità su cui viene addestrato il tuo modello di machine learning. Ad esempio, un semplice insieme di funzionalità per un modello che prevede i prezzi delle case potrebbe essere costituito da codice postale, dimensioni della proprietà e condizioni della proprietà.

specifiche della funzionalità

#TensorFlow

Descrive le informazioni necessarie per estrarre i dati delle funzionalità dal buffer di protocollo tf.Example. Poiché il buffer di protocollo tf.Example è solo un contenitore per i dati, devi specificare quanto segue:

I dati da estrarre (ovvero le chiavi delle funzionalità)
Il tipo di dati (ad esempio, float o int)
La lunghezza (fissa o variabile)

vettore di caratteristiche

#fundamentals

L'array di valori delle funzionalità che compongono un esempio. Il vettore delle caratteristiche viene inserito durante l'addestramento e durante l'inferenza. Ad esempio, il vettore delle caratteristiche per un modello con due caratteristiche discrete potrebbe essere:

[0.92, 0.56]

Quattro strati: uno di input, due nascosti e uno di output.
Lo strato di input contiene due nodi, uno con il valore
0,92 e l'altro con il valore 0,56.

Ogni esempio fornisce valori diversi per il vettore delle caratteristiche, quindi il vettore delle caratteristiche per l'esempio successivo potrebbe essere simile a questo:

[0.73, 0.49]

Il feature engineering determina come rappresentare le caratteristiche nel vettore di caratteristiche. Ad esempio, una caratteristica categorica binaria con cinque valori possibili potrebbe essere rappresentata con codifica one-hot. In questo caso, la porzione del vettore delle caratteristiche per un particolare esempio sarebbe costituita da quattro zeri e un singolo 1.0 nella terza posizione, come segue:

[0.0, 0.0, 1.0, 0.0, 0.0]

Come altro esempio, supponiamo che il tuo modello sia composto da tre funzionalità:

una caratteristica categorica binaria con cinque valori possibili rappresentati con la codifica one-hot; ad esempio: [0.0, 1.0, 0.0, 0.0, 0.0]
un'altra caratteristica categorica binaria con tre valori possibili rappresentati con la codifica one-hot; ad esempio: [0.0, 0.0, 1.0]
una funzionalità in virgola mobile, ad esempio 8.3.

In questo caso, il vettore delle caratteristiche per ogni esempio sarebbe rappresentato da nove valori. Dati i valori di esempio nell'elenco precedente, il vettore delle funzionalità sarebbe:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

Per saperne di più, consulta la sezione Dati numerici: come un modello acquisisce i dati utilizzando i vettori delle funzionalità di Machine Learning Crash Course.

featurizzazione

Il processo di estrazione delle caratteristiche da una fonte di input, come un documento o un video, e la mappatura di queste caratteristiche in un vettore di caratteristiche.

Alcuni esperti di ML utilizzano il termine featurizzazione come sinonimo di feature engineering o estrazione delle caratteristiche.

apprendimento federato

Un approccio di machine learning distribuito che addestra modelli di machine learning utilizzando esempi decentralizzati che risiedono su dispositivi come gli smartphone. Nell'apprendimento federato, un sottoinsieme di dispositivi scarica il modello attuale da un server di coordinamento centrale. I dispositivi utilizzano gli esempi memorizzati sui dispositivi per apportare miglioramenti al modello. I dispositivi caricano i miglioramenti del modello (ma non gli esempi di addestramento) sul server di coordinamento, dove vengono aggregati con altri aggiornamenti per ottenere un modello globale migliorato. Dopo l'aggregazione, gli aggiornamenti del modello calcolati dai dispositivi non sono più necessari e possono essere eliminati.

Poiché gli esempi di addestramento non vengono mai caricati, l'apprendimento federato segue i principi di privacy della raccolta mirata dei dati e della minimizzazione dei dati.

Per saperne di più, consulta il fumetto sull'apprendimento federato.

ciclo di feedback

#fundamentals

Nel machine learning, una situazione in cui le previsioni di un modello influenzano i dati di addestramento per lo stesso modello o per un altro modello. Ad esempio, un modello che consiglia film influenzerà i film che le persone vedono, il che influenzerà a sua volta i modelli di consigli sui film successivi.

Per saperne di più, consulta Sistemi ML di produzione: domande da porre in Machine Learning Crash Course.

rete neurale feed-forward (FFN)

Una rete neurale senza connessioni cicliche o ricorsive. Ad esempio, le reti neurali profonde tradizionali sono reti neurali feedforward. A differenza delle reti neurali ricorrenti, che sono cicliche.

apprendimento few-shot

Un approccio di machine learning, spesso utilizzato per la classificazione degli oggetti, progettato per addestrare modelli di classificazione efficaci a partire da un numero ridotto di esempi di addestramento.

Vedi anche apprendimento one-shot e apprendimento zero-shot.

prompting few-shot

#generativeAI

Un prompt che contiene più di un esempio che dimostra come il modello linguistico di grandi dimensioni deve rispondere. Ad esempio, il seguente prompt lungo contiene due esempi che mostrano a un modello linguistico di grandi dimensioni come rispondere a una query.

Parti di un prompt	Note
`Qual è la valuta ufficiale del paese specificato?`	La domanda a cui vuoi che l'LLM risponda.
`Francia: EUR`	Un esempio.
`Regno Unito: GBP`	Un altro esempio.
`India:`	La query effettiva.

Il prompting few-shot in genere produce risultati più desiderabili rispetto al prompting zero-shot e al prompting one-shot. Tuttavia, il prompt few-shot richiede un prompt più lungo.

Il prompt few-shot è una forma di apprendimento few-shot applicata all'apprendimento basato su prompt.

Per saperne di più, consulta Prompt engineering in Machine Learning Crash Course.

Violino

Una libreria di configurazione Python-first che imposta i valori di funzioni e classi senza codice o infrastruttura invasivi. Nel caso di Pax e di altre basi di codice ML, queste funzioni e classi rappresentano modelli e iperparametri di addestramento.

Fiddle presuppone che le codebase di machine learning siano in genere suddivise in:

Codice della libreria, che definisce i livelli e gli ottimizzatori.
Codice "collante" del set di dati, che chiama le librerie e collega tutto.

Fiddle acquisisce la struttura di chiamata del codice di collegamento in una forma non valutata e modificabile.

ottimizzazione

#generativeAI

Un secondo passaggio di addestramento specifico per l'attività eseguito su un modello preaddestrato per perfezionarne i parametri per un caso d'uso specifico. Ad esempio, la sequenza di addestramento completa per alcuni modelli linguistici di grandi dimensioni è la seguente:

Preaddestramento: addestra un modello linguistico di grandi dimensioni su un vasto set di dati generici, come tutte le pagine di Wikipedia in lingua inglese.
Ottimizzazione:addestra il modello preaddestrato a svolgere un'attività specifica, ad esempio rispondere a domande mediche. L'ottimizzazione in genere prevede centinaia o migliaia di esempi incentrati sull'attività specifica.

Un altro esempio è la sequenza di addestramento completa per un modello di immagini di grandi dimensioni:

Pre-addestramento: addestra un modello di immagini di grandi dimensioni su un vasto set di dati di immagini generiche, ad esempio tutte le immagini di Wikimedia Commons.
Ottimizzazione:addestra il modello preaddestrato a svolgere un'attività specifica, come la generazione di immagini di orche.

Il perfezionamento può comportare una qualsiasi combinazione delle seguenti strategie:

Modifica di tutti i parametri esistenti del modello preaddestrato. Questa operazione viene a volte chiamata ottimizzazione completa.
Modifica solo alcuni dei parametri esistenti del modello preaddestrato (in genere, i livelli più vicini al livello di output), mantenendo invariati gli altri parametri esistenti (in genere, i livelli più vicini al livello di input). Consulta la sezione Ottimizzazione efficiente dei parametri.
Aggiungendo altri livelli, in genere sopra i livelli esistenti più vicini al livello di output.

L'ottimizzazione è una forma di transfer learning. Pertanto, il perfezionamento potrebbe utilizzare una funzione di perdita o un tipo di modello diverso da quelli utilizzati per addestrare il modello preaddestrato. Ad esempio, potresti ottimizzare un modello di immagini di grandi dimensioni preaddestrato per produrre un modello di regressione che restituisca il numero di uccelli in un'immagine di input.

Confronta e contrapponi il fine-tuning con i seguenti termini:

distillation
Apprendimento basato sui prompt

Per saperne di più, consulta la sezione Ottimizzazione di Machine Learning Crash Course.

Modello flash

#generativeAI

Una famiglia di modelli Gemini relativamente piccoli ottimizzati per la velocità e la bassa latenza. I modelli Flash sono progettati per un'ampia gamma di applicazioni in cui risposte rapide e velocità effettiva elevata sono fondamentali.

Lino

Una libreria open source ad alte prestazioni per il deep learning basata su JAX. Flax fornisce funzioni per l'addestramento delle reti neurali, nonché metodi per valutarne le prestazioni.

Flaxformer

Una libreria Transformer open source, basata su Flax, progettata principalmente per l'elaborazione del linguaggio naturale e la ricerca multimodale.

forget gate

La parte di una cella Long Short-Term Memory che regola il flusso di informazioni attraverso la cella. I cancelli di dimenticanza mantengono il contesto decidendo quali informazioni scartare dallo stato della cella.

foundation model

#generativeAI

#Metric

Un modello preaddestrato molto grande addestrato su un set di addestramento enorme e diversificato. Un modello di base può fare entrambe le seguenti operazioni:

Rispondere bene a un'ampia gamma di richieste.
Funge da modello di base per l'ottimizzazione o altre personalizzazioni.

In altre parole, un foundation model è già molto efficace in senso generale, ma può essere ulteriormente personalizzato per diventare ancora più utile per un'attività specifica.

frazione di successi

#generativeAI

#Metric

Una metrica per valutare il testo generato di un modello ML. La frazione di successi è il numero di output di testo generati "riusciti" diviso per il numero totale di output di testo generati. Ad esempio, se un modello linguistico di grandi dimensioni ha generato 10 blocchi di codice, cinque dei quali sono riusciti, la frazione di successi sarebbe del 50%.

Sebbene la frazione di successi sia ampiamente utile in tutta la statistica, all'interno del machine learning, questa metrica è utile principalmente per misurare attività verificabili come la generazione di codice o i problemi di matematica.

softmax completo

Sinonimo di softmax.

Contrasta con il campionamento dei candidati.

Per saperne di più, consulta Reti neurali: classificazione multiclasse in Machine Learning Crash Course.

strato completamente connesso

Uno strato nascosto in cui ogni nodo è connesso a ogni nodo dello strato nascosto successivo.

Uno strato completamente connesso è noto anche come strato denso.

function transformation

Una funzione che accetta una funzione come input e restituisce una funzione trasformata come output. JAX utilizza le trasformazioni delle funzioni.

G

GAN

Abbreviazione di rete generativa avversaria.

Gemini

#generativeAI

L'ecosistema che comprende l'AI più avanzata di Google. Gli elementi di questo ecosistema includono:

Vari modelli Gemini.
L'interfaccia conversazionale interattiva di un modello Gemini. Gli utenti digitano i prompt e Gemini risponde.
Varie API Gemini.
Vari prodotti aziendali basati sui modelli Gemini; ad esempio, Gemini for Google Cloud.

Modelli Gemini

#generativeAI

Modelli multimodali all'avanguardia di Google basati su Transformer. I modelli Gemini sono progettati specificamente per integrarsi con gli agenti.

Gli utenti possono interagire con i modelli Gemini in vari modi, ad esempio tramite un'interfaccia di dialogo interattiva e tramite SDK.

Gemma

#generativeAI

Una famiglia di modelli aperti leggeri creati sulla base della stessa ricerca e tecnologia utilizzata per creare i modelli Gemini. Sono disponibili diversi modelli Gemma, ognuno dei quali offre funzionalità diverse, come visione, codice e rispetto delle istruzioni. Per maggiori dettagli, vedi Gemma.

GenAI o genAI

#generativeAI

Abbreviazione di AI generativa.

generalizzazione

#fundamentals

La capacità di un modello di fare previsioni corrette su dati nuovi e mai visti prima. Un modello in grado di generalizzare è l'opposto di un modello che è overfitting.

Fai clic sull'icona per ulteriori note.

Addestra un modello sugli esempi nel set di addestramento. Di conseguenza, il modello apprende le peculiarità dei dati nel set di addestramento. La generalizzazione si chiede essenzialmente se il modello può fare buone previsioni su esempi che non sono nel set di addestramento.

Per favorire la generalizzazione, la regolarizzazione aiuta un modello ad addestrarsi in modo meno preciso sulle peculiarità dei dati nel set di addestramento.

Per saperne di più, consulta la sezione Generalizzazione di Machine Learning Crash Course.

curva di generalizzazione

#fundamentals

Un grafico della perdita di addestramento e della perdita di convalida in funzione del numero di iterazioni.

Una curva di generalizzazione può aiutarti a rilevare un possibile overfitting. Ad esempio, la seguente curva di generalizzazione suggerisce un overfitting perché la perdita di convalida alla fine diventa significativamente superiore alla perdita di addestramento.

Un grafico cartesiano in cui l'asse Y è etichettato come perdita e l'asse X
è etichettato come iterazioni. Vengono visualizzati due grafici. Un grafico mostra la
perdita di addestramento e l'altro la perdita di convalida.
I due grafici iniziano in modo simile, ma la perdita di addestramento alla fine
scende molto più in basso rispetto alla perdita di convalida.

Per saperne di più, consulta la sezione Generalizzazione di Machine Learning Crash Course.

modello lineare generalizzato

Una generalizzazione dei modelli di regressione dei minimi quadrati, basati sul rumore gaussiano, ad altri tipi di modelli basati su altri tipi di rumore, come il rumore di Poisson o il rumore categorico. Esempi di modelli lineari generalizzati includono:

Regressione logistica
regressione multiclasse
regressione dei minimi quadrati

I parametri di un modello lineare generalizzato possono essere trovati tramite ottimizzazione convessa.

I modelli lineari generalizzati presentano le seguenti proprietà:

La previsione media del modello di regressione dei minimi quadrati ottimale è uguale all'etichetta media nei dati di addestramento.
La probabilità media prevista dal modello di regressione logistica ottimale è uguale all'etichetta media nei dati di addestramento.

La potenza di un modello lineare generalizzato è limitata dalle sue caratteristiche. A differenza di un modello profondo, un modello lineare generalizzato non può "apprendere nuove caratteristiche".

testo generato

#generativeAI

In generale, il testo generato da un modello ML. Quando si valutano modelli linguistici di grandi dimensioni, alcune metriche confrontano il testo generato con il testo di riferimento. Ad esempio, supponiamo che tu stia cercando di determinare l'efficacia con cui un modello ML traduce dal francese all'olandese. In questo caso:

Il testo generato è la traduzione in olandese restituita dal modello di ML.
Il testo di riferimento è la traduzione in olandese creata da un traduttore umano (o software).

Tieni presente che alcune strategie di valutazione non prevedono testo di riferimento.

rete generativa avversaria (GAN)

Un sistema per creare nuovi dati in cui un generatore crea dati e un discriminatore determina se i dati creati sono validi o non validi.

Per saperne di più, consulta il corso sulle reti generative avversarie (GAN).

AI generativa

#generativeAI

Un campo trasformativo emergente senza una definizione formale. Detto questo, la maggior parte degli esperti concorda sul fatto che i modelli di AI generativa possono creare ("generare") contenuti che siano tutti i seguenti:

complesso
coerente
originale

Esempi di AI generativa:

Modelli linguistici di grandi dimensioni (LLM), che possono generare testi originali sofisticati e rispondere alle domande.
Modello di generazione delle immagini, che può produrre immagini uniche.
Modelli di generazione di audio e musica, che possono comporre musica originale o generare un parlato realistico.
Modelli di generazione video, che possono generare video originali.

Anche alcune tecnologie precedenti, tra cui LSTM e RNN, possono generare contenuti originali e coerenti. Alcuni esperti considerano queste tecnologie precedenti come AI generativa, mentre altri ritengono che la vera AI generativa richieda un output più complesso di quello che possono produrre queste tecnologie precedenti.

Contrasto con il machine learning predittivo.

modello generativo

In termini pratici, un modello che esegue una delle seguenti operazioni:

Crea (genera) nuovi esempi dal set di dati di addestramento. Ad esempio, un modello generativo potrebbe creare poesie dopo l'addestramento su un set di dati di poesie. La parte generatore di una rete generativa avversaria rientra in questa categoria.
Determina la probabilità che un nuovo esempio provenga dal set di addestramento o sia stato creato dallo stesso meccanismo che ha creato il set di addestramento. Ad esempio, dopo l'addestramento su un set di dati costituito da frasi in inglese, un modello generativo potrebbe determinare la probabilità che un nuovo input sia una frase in inglese valida.

Un modello generativo può teoricamente distinguere la distribuzione degli esempi o di caratteristiche particolari in un set di dati. Ossia:

p(examples)

I modelli di apprendimento non supervisionato sono generativi.

Contrasto con i modelli discriminativi.

generatore

Il sottosistema all'interno di una rete adversariale generativa che crea nuovi esempi.

Contrasta con il modello discriminativo.

Impurità di Gini

#df

#Metric

Una metrica simile all'entropia. Gli splitter utilizzano valori derivati dall'impurità di Gini o dall'entropia per comporre condizioni per gli alberi decisionali. L'information gain deriva dall'entropia. Non esiste un termine equivalente accettato universalmente per la metrica derivata dall'impurità di Gini; tuttavia, questa metrica senza nome è importante quanto l'information gain.

L'impurità di Gini è chiamata anche indice di Gini o semplicemente Gini.

Fai clic sull'icona per visualizzare i dettagli matematici sull'impurità di Gini.

L'impurità di Gini è la probabilità di classificare erroneamente un nuovo dato estratto dalla stessa distribuzione. L'impurità di Gini di un insieme con due valori possibili "0" e "1" (ad esempio, le etichette in un problema di classificazione binaria) viene calcolata in base alla seguente formula:

I = 1 - (p² + q²) = 1 - (p² + (1-p)²)

dove:

I è l'impurità di Gini.
p è la frazione di esempi "1".
q è la frazione di esempi "0". Tieni presente che q = 1-p

Ad esempio, considera il seguente set di dati:

100 etichette (0,25 del set di dati) contengono il valore "1"
300 etichette (0,75 del set di dati) contengono il valore "0"

Pertanto, l'impurità di Gini è:

p = 0,25
q = 0,75
I = 1 - (0,25² + 0,75²) = 0,375

Di conseguenza, un'etichetta casuale dello stesso set di dati avrebbe il 37,5% di probabilità di essere classificata in modo errato e il 62,5% di probabilità di essere classificata correttamente.

Un'etichetta perfettamente bilanciata (ad esempio, 200 "0" e 200 "1") avrebbe un'impurità di Gini pari a 0,5. Un'etichetta molto squilibrata avrebbe un'impurità di Gini vicina a 0,0.

set di dati di riferimento

Un insieme di dati selezionati manualmente che acquisiscono i dati di riferimento. I team possono utilizzare uno o più golden dataset per valutare la qualità di un modello.

Alcuni set di dati di riferimento acquisiscono diversi sottodomini di dati empirici reali. Ad esempio, un set di dati di riferimento per la classificazione delle immagini potrebbe acquisire le condizioni di illuminazione e la risoluzione delle immagini.

risposta di riferimento

#generativeAI

Una risposta nota per essere buona. Ad esempio, dato il seguente prompt:

2 + 2

La risposta ideale è:

4

Fai clic qui per visualizzare le note sulla risposta ideale e sul testo di riferimento.

Alcune metriche di valutazione, come ROUGE, confrontano il testo di riferimento con il testo generato di un modello. Quando a una richiesta esiste un'unica risposta corretta, la risposta ideale funge in genere da testo di riferimento.

Alcuni prompt non hanno una sola risposta corretta. Ad esempio, il prompt Riassumi questo documento probabilmente avrà molte risposte corrette. Per questi prompt, il testo di riferimento è spesso impraticabile perché un modello può generare una gamma molto ampia di possibili riassunti. Tuttavia, una risposta ottimale potrebbe essere utile in questa situazione. Ad esempio, una risposta ideale contenente un buon riepilogo del documento può contribuire ad addestrare uno strumento di valutazione automatica a scoprire i pattern di buoni riepiloghi dei documenti.

Google AI Studio

Uno strumento Google che fornisce un'interfaccia intuitiva per sperimentare e creare applicazioni utilizzando i modelli linguistici di grandi dimensioni di Google. Per maggiori dettagli, consulta la home page di Google AI Studio.

GPT (Generative Pre-trained Transformer)

#generativeAI

Una famiglia di modelli linguistici di grandi dimensioni basati su Transformer sviluppati da OpenAI.

Le varianti GPT possono essere applicate a più modalità, tra cui:

generazione di immagini (ad esempio, ImageGPT)
generazione di immagini da testo (ad esempio, DALL-E).

gradiente

Il vettore delle derivate parziali rispetto a tutte le variabili indipendenti. Nel machine learning, il gradiente è il vettore delle derivate parziali della funzione del modello. La pendenza indica la direzione di salita più ripida.

accumulo del gradiente

Una tecnica di retropropagazione che aggiorna i parametri solo una volta per epoca anziché una volta per iterazione. Dopo aver elaborato ogni mini-batch, l'accumulo del gradiente aggiorna semplicemente un totale parziale dei gradienti. Poi, dopo aver elaborato l'ultimo mini-batch dell'epoca, il sistema aggiorna finalmente i parametri in base al totale di tutte le modifiche ai gradienti.

L'accumulo del gradiente è utile quando la dimensione del batch è molto grande rispetto alla quantità di memoria disponibile per l'addestramento. Quando la memoria è un problema, la tendenza naturale è quella di ridurre la dimensione del batch. Tuttavia, la riduzione delle dimensioni del batch nella normale backpropagation aumenta il numero di aggiornamenti dei parametri. L'accumulo del gradiente consente al modello di evitare problemi di memoria, ma di eseguire comunque l'addestramento in modo efficiente.

alberi (decisionali) con boosting del gradiente (GBT)

#df

Un tipo di foresta decisionale in cui:

L'addestramento si basa sul gradient boosting.
Il modello debole è un albero decisionale.

Per ulteriori informazioni, consulta la sezione Gradient Boosted Decision Trees del corso Decision Forests.

gradient boosting

#df

Un algoritmo di addestramento in cui i modelli deboli vengono addestrati per migliorare iterativamente la qualità (ridurre la perdita) di un modello forte. Ad esempio, un modello debole potrebbe essere un modello lineare o un piccolo albero decisionale. Il modello forte diventa la somma di tutti i modelli deboli addestrati in precedenza.

Nella forma più semplice di gradient boosting, a ogni iterazione viene addestrato un modello debole per prevedere il gradiente di perdita del modello forte. Quindi, l'output del modello forte viene aggiornato sottraendo il gradiente previsto, in modo simile alla discesa del gradiente.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

dove:

$F_{0}$ è il modello di partenza.
$F_{i+1}$ è il modello forte successivo.
$F_{i}$ è il modello forte attuale.
$\xi$ è un valore compreso tra 0,0 e 1,0 chiamato restringimento, che è analogo al tasso di apprendimento nella discesa del gradiente.
$f_{i}$ è il modello debole addestrato per prevedere il gradiente di perdita di $F_{i}$.

Le varianti moderne del gradient boosting includono anche la derivata seconda (Hessiana) della perdita nel calcolo.

Gli alberi decisionali vengono comunemente utilizzati come modelli deboli nel gradient boosting. Vedi alberi (decisionali) con potenziamento del gradiente.

troncamento del gradiente

Un meccanismo comunemente utilizzato per mitigare il problema del gradiente esplosivo limitando artificialmente il valore massimo dei gradienti quando si utilizza la discesa del gradiente per addestrare un modello.

discesa del gradiente

#fundamentals

Una tecnica matematica per ridurre al minimo la perdita. La discesa del gradiente regola in modo iterativo pesi e bias, trovando gradualmente la combinazione migliore per ridurre al minimo la perdita.

La discesa del gradiente è più vecchia, molto più vecchia, del machine learning.

Per saperne di più, consulta Regressione lineare: discesa del gradiente in Machine Learning Crash Course.

grafico

#TensorFlow

In TensorFlow, una specifica di calcolo. I nodi del grafico rappresentano le operazioni. I bordi sono diretti e rappresentano il passaggio del risultato di un'operazione (un Tensor) come operando a un'altra operazione. Utilizza TensorBoard per visualizzare un grafico.

esecuzione del grafico

#TensorFlow

Un ambiente di programmazione TensorFlow in cui il programma prima costruisce un grafo e poi esegue tutto o parte di questo grafo. L'esecuzione del grafico è la modalità di esecuzione predefinita in TensorFlow 1.x.

Contrasto con l'esecuzione eager.

greedy policy

Nell'apprendimento per rinforzo, una policy che sceglie sempre l'azione con il rendimento previsto più alto.

fondatezza

Una proprietà di un modello il cui output si basa su (è "fondato su") materiale di origine specifico. Ad esempio, supponiamo di fornire un intero libro di testo di fisica come input ("contesto") a un modello linguistico di grandi dimensioni. Poi, chiedi al modello linguistico di grandi dimensioni di rispondere a una domanda di fisica. Se la risposta del modello riflette le informazioni contenute nel libro di testo, allora il modello è fondato su quel libro di testo.

Tieni presente che un modello basato su dati reali non è sempre un modello fattuale. Ad esempio, il libro di testo di fisica inserito potrebbe contenere errori.

dato di fatto

#fundamentals

Realtà.

La cosa che è effettivamente accaduta.

Ad esempio, considera un modello di classificazione binaria che prevede se uno studente al primo anno di università si laureerà entro sei anni. I dati di riferimento per questo modello sono se lo studente si è effettivamente laureato entro sei anni.

Fai clic sull'icona per ulteriori note.

Valutiamo la qualità del modello rispetto ai dati di fatto. Tuttavia, il dato di fatto non è sempre completamente veritiero. Ad esempio, considera i seguenti esempi di potenziali imperfezioni nei dati empirici reali:

Nell'esempio del diploma, siamo sicuri che i registri dei diplomi di ogni studente siano sempre corretti? Il sistema di registrazione dell'università è impeccabile?
Supponiamo che l'etichetta sia un valore in virgola mobile misurato da strumenti (ad esempio, barometri). Come possiamo assicurarci che ogni strumento sia calibrato in modo identico o che ogni lettura sia stata eseguita nelle stesse circostanze?
Se l'etichetta è una questione di opinione umana, come possiamo assicurarci che ogni revisore valuti gli eventi nello stesso modo? Per migliorare la coerenza, a volte intervengono valutatori umani esperti.

bias di attribuzione di gruppo

#responsible

Supporre che ciò che è vero per un individuo sia vero anche per tutti i membri del gruppo. Gli effetti del bias di attribuzione di gruppo possono essere esacerbati se per la raccolta dei dati viene utilizzato un campionamento di convenienza. In un campione non rappresentativo, le attribuzioni potrebbero non riflettere la realtà.

Vedi anche bias di omogeneità del gruppo esterno e bias di affinità. Per saperne di più, consulta anche Equità: tipi di bias in Machine Learning Crash Course.

H

allucinazione

#generativeAI

La produzione di output apparentemente plausibili ma errati dal punto di vista dei fatti da parte di un modello di AI generativa che dichiara di fare un'affermazione sul mondo reale. Ad esempio, un modello di AI generativa che afferma che Barack Obama è morto nel 1865 sta allucinando.

hashing

Nel machine learning, un meccanismo per raggruppare dati categorici, in particolare quando il numero di categorie è elevato, ma il numero di categorie effettivamente presenti nel set di dati è relativamente piccolo.

Ad esempio, sulla Terra esistono circa 73.000 specie di alberi. Potresti rappresentare ciascuna delle 73.000 specie di alberi in 73.000 bucket categorici separati. In alternativa, se in un set di dati compaiono solo 200 di queste specie di alberi, puoi utilizzare l'hashing per dividere le specie di alberi in 500 bucket.

Un singolo bucket potrebbe contenere più specie di alberi. Ad esempio, l'hashing potrebbe inserire baobab e acero rosso, due specie geneticamente diverse, nello stesso bucket. In ogni caso, l'hashing è un buon modo per mappare grandi insiemi categorici nel numero di bucket selezionato. L'hashing trasforma una caratteristica categorica con un numero elevato di valori possibili in un numero molto inferiore di valori raggruppandoli in modo deterministico.

Per saperne di più, consulta Dati categorici: vocabolario e codifica one-hot in Machine Learning Crash Course.

euristica

Una soluzione semplice e rapida da implementare a un problema. Ad esempio, "Con un'euristica, abbiamo raggiunto una precisione dell'86%. Quando siamo passati a una rete neurale profonda, l'accuratezza è salita al 98%".

strato nascosto

#fundamentals

Un livello in una rete neurale tra il livello di input (le funzionalità) e il livello di output (la previsione). Ogni livello nascosto è costituito da uno o più neuroni. Ad esempio, la seguente rete neurale contiene due strati nascosti, il primo con tre neuroni e il secondo con due neuroni:

Una rete neurale profonda contiene più di uno strato nascosto. Ad esempio, l'illustrazione precedente è una rete neurale profonda perché il modello contiene due livelli nascosti.

Per saperne di più, consulta Reti neurali: nodi e livelli nascosti in Machine Learning Crash Course.

clustering gerarchico

#clustering

Una categoria di algoritmi di clustering che creano un albero di cluster. Il clustering gerarchico è adatto ai dati gerarchici, come le tassonomie botaniche. Esistono due tipi di algoritmi di clustering gerarchico:

Il clustering agglomerativo assegna innanzitutto ogni esempio al proprio cluster e unisce in modo iterativo i cluster più vicini per creare un albero gerarchico.
Il clustering divisivo raggruppa prima tutti gli esempi in un unico cluster e poi divide iterativamente il cluster in un albero gerarchico.

Contrasto con il clustering basato sui centroidi.

Per saperne di più, consulta la sezione Algoritmi di clustering nel corso Clustering.

hill climbing

Un algoritmo per migliorare in modo iterativo ("salire una collina") un modello ML finché il modello smette di migliorare ("raggiunge la cima di una collina"). La forma generale dell'algoritmo è la seguente:

Crea un modello iniziale.
Crea nuovi modelli candidati apportando piccoli aggiustamenti al modo in cui addestri o ottimizzi. Ciò potrebbe comportare l'utilizzo di un set di addestramento leggermente diverso o di iperparametri diversi.
Valuta i nuovi modelli candidati ed esegui una delle azioni seguenti:
- Se un modello candidato supera il modello iniziale, questo diventa il nuovo modello iniziale. In questo caso, ripeti i passaggi 1, 2 e 3.
- Se nessun modello supera il modello iniziale, hai raggiunto la cima della collina e devi interrompere l'iterazione.

Consulta il Deep Learning Tuning Playbook per indicazioni sull'ottimizzazione degli iperparametri. Consulta i moduli sui dati di Machine Learning Crash Course per indicazioni sul feature engineering.

perdita hinge

#Metric

Una famiglia di funzioni di perdita per la classificazione progettate per trovare il limite decisionale il più lontano possibile da ogni esempio di addestramento, massimizzando così il margine tra gli esempi e il limite. Le SVM del kernel utilizzano la perdita hinge (o una funzione correlata, come la perdita hinge al quadrato). Per la classificazione binaria, la funzione di perdita hinge è definita come segue:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

dove y è l'etichetta reale, -1 o +1, e y' è l'output non elaborato del modello di classificazione:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Di conseguenza, un grafico della perdita hinge rispetto a (y * y') ha il seguente aspetto:

Un grafico cartesiano costituito da due segmenti di retta uniti. Il primo
segmento di retta inizia in (-3, 4) e termina in (1, 0). Il secondo segmento
inizia in corrispondenza di (1, 0) e continua all'infinito con una pendenza
pari a 0.

bias storico

#responsible

Un tipo di bias che esiste già nel mondo ed è entrato a far parte di un set di dati. Questi pregiudizi tendono a riflettere stereotipi culturali, disuguaglianze demografiche e pregiudizi esistenti nei confronti di determinati gruppi sociali.

Ad esempio, considera un modello di classificazione che prevede se un richiedente prestito non sarà in grado di restituire il prestito, che è stato addestrato su dati storici di insolvenza dei prestiti degli anni '80 di banche locali in due comunità diverse. Se i candidati precedenti della community A avevano una probabilità sei volte maggiore di non rimborsare i propri prestiti rispetto ai candidati della community B, il modello potrebbe apprendere un bias storico che lo porterebbe a essere meno propenso ad approvare prestiti nella community A, anche se le condizioni storiche che hanno portato a tassi di insolvenza più elevati in questa community non fossero più pertinenti.

Per saperne di più, consulta Equità: tipi di bias in Machine Learning Crash Course.

dati holdout

Esempi non utilizzati intenzionalmente ("tenuti in disparte") durante l'addestramento. Il set di dati di convalida e il set di dati di test sono esempi di dati di holdout. I dati di holdout consentono di valutare la capacità del modello di generalizzare i dati diversi da quelli su cui è stato addestrato. La perdita sul set di attesa fornisce una stima migliore della perdita su un set di dati invisibile rispetto alla perdita sul set di addestramento.

host

#TensorFlow

#GoogleCloud

Quando addestri un modello di ML su chip acceleratori (GPU o TPU), la parte del sistema che controlla entrambi gli elementi seguenti:

Il flusso generale del codice.
L'estrazione e la trasformazione della pipeline di input.

L'host in genere viene eseguito su una CPU, non su un chip acceleratore; il dispositivo manipola i tensori sui chip acceleratori.

valutazione umana

#generativeAI

Un processo in cui persone giudicano la qualità dell'output di un modello ML; ad esempio, persone bilingue giudicano la qualità di un modello di traduzione ML. La valutazione umana è particolarmente utile per giudicare i modelli che non hanno una sola risposta corretta.

Contrasta con la valutazione automatica e la valutazione del sistema di valutazione automatico.

human-in-the-loop (HITL)

#generativeAI

Un idioma definito in modo generico che potrebbe significare una delle seguenti opzioni:

Una policy di visualizzazione critica o scettica dell'output dell'AI generativa.
Una strategia o un sistema per garantire che le persone contribuiscano a modellare, valutare e perfezionare il comportamento di un modello. Mantenere un essere umano nel ciclo consente a un'AI di trarre vantaggio sia dall'intelligenza artificiale sia da quella umana. Ad esempio, un sistema in cui un'AI genera codice che viene poi esaminato dagli ingegneri informatici è un sistema human-in-the-loop.

iperparametro

#fundamentals

Le variabili che tu o un servizio di ottimizzazione degli iperparametri regolate durante le esecuzioni successive dell'addestramento di un modello. Ad esempio, il tasso di apprendimento è un iperparametro. Potresti impostare il tasso di apprendimento su 0,01 prima di una sessione di addestramento. Se determini che 0,01 è troppo alto, potresti impostare il tasso di apprendimento su 0,003 per la sessione di addestramento successiva.

Al contrario, i parametri sono i vari pesi e bias che il modello apprende durante l'addestramento.

Per saperne di più, consulta Regressione lineare: iperparametri in Machine Learning Crash Course.

iperpiano

Un confine che separa uno spazio in due sottospazi. Ad esempio, una linea è un iperpiano in due dimensioni e un piano è un iperpiano in tre dimensioni. Più comunemente nel machine learning, un iperpiano è il confine che separa uno spazio di dimensioni elevate. Le macchine a vettori di supporto del kernel utilizzano iperpiani per separare le classi positive da quelle negative, spesso in uno spazio molto dimensionale.

I

i.i.d.

Abbreviazione di indipendentemente e identicamente distribuito.

riconoscimento immagini

Un processo che classifica oggetti, pattern o concetti in un'immagine. Il riconoscimento delle immagini è noto anche come classificazione delle immagini.

Per saperne di più, consulta ML Practicum: Image Classification.

Per saperne di più, consulta il corso ML Practicum: classificazione delle immagini.

set di dati sbilanciato

Sinonimo di set di dati sbilanciato.

bias implicito

#responsible

Creare automaticamente un'associazione o un'ipotesi in base ai propri modelli mentali e ricordi. Il bias implicito può influire su quanto segue:

Come vengono raccolti e classificati i dati.
Come vengono progettati e sviluppati i sistemi di machine learning.

Ad esempio, quando si crea un modello di classificazione per identificare le foto di matrimoni, un ingegnere può utilizzare la presenza di un abito bianco in una foto come funzionalità. Tuttavia, gli abiti bianchi sono stati consueti solo durante determinate epoche e in determinate culture.

Vedi anche bias di conferma.

imputazione

Abbreviazione di imputazione del valore.

incompatibilità delle metriche di equità

#responsible

#Metric

L'idea che alcune nozioni di equità siano reciprocamente incompatibili e non possano essere soddisfatte contemporaneamente. Di conseguenza, non esiste un'unica metrica universale per quantificare l'equità che possa essere applicata a tutti i problemi di ML.

Sebbene possa sembrare scoraggiante, l'incompatibilità delle metriche di equità non implica che gli sforzi per l'equità siano inutili. Suggerisce invece che l'equità deve essere definita in modo contestuale per un determinato problema di ML, con l'obiettivo di prevenire danni specifici per i suoi casi d'uso.

Per una discussione più dettagliata sull'incompatibilità delle metriche di equità, consulta la sezione "On the (im)possibility of fairness".

apprendimento in-context

#generativeAI

Sinonimo di prompt few-shot.

indipendenti e identicamente distribuiti (i.i.d.)

#fundamentals

Dati estratti da una distribuzione che non cambia e in cui ogni valore estratto non dipende dai valori estratti in precedenza. Una distribuzione i.i.d. è il gas ideale del machine learning, un costrutto matematico utile ma quasi mai trovato esattamente nel mondo reale. Ad esempio, la distribuzione dei visitatori di una pagina web potrebbe essere i.i.d. in un breve periodo di tempo, ovvero la distribuzione non cambia durante questo breve periodo e la visita di una persona è generalmente indipendente da quella di un'altra. Tuttavia, se espandi questo periodo di tempo, potrebbero comparire differenze stagionali nei visitatori della pagina web.

Vedi anche non stazionarietà.

equità individuale

#responsible

#Metric

Una metrica di equità che controlla se individui simili vengono classificati in modo simile. Ad esempio, l'Accademia di Brobdingnag potrebbe voler soddisfare l'equità individuale assicurandosi che due studenti con voti identici e punteggi di test standardizzati abbiano la stessa probabilità di essere ammessi.

Tieni presente che l'equità individuale dipende interamente da come definisci la"similarità" (in questo caso, voti e punteggi dei test) e puoi correre il rischio di introdurre nuovi problemi di equità se la tua metrica di similarità non tiene conto di informazioni importanti (come il rigore del curriculum di uno studente).

Per una discussione più dettagliata sull'equità individuale, consulta la sezione "Equità attraverso la consapevolezza".

inferenza

#fundamentals

#generativeAI

Nel machine learning tradizionale, il processo di fare previsioni applicando un modello addestrato a esempi non etichettati. Per saperne di più, consulta Apprendimento supervisionato nel corso Introduzione al machine learning.

Nei modelli linguistici di grandi dimensioni, l'inferenza è il processo di utilizzo di un modello addestrato per generare una risposta a un prompt di input.

L'inferenza ha un significato leggermente diverso in statistica. Per maggiori dettagli, consulta l' articolo di Wikipedia sull'inferenza statistica.

percorso di inferenza

#df

In un albero decisionale, durante l'inferenza, il percorso che un particolare esempio segue dalla radice ad altre condizioni, terminando con una foglia. Ad esempio, nel seguente albero decisionale, le frecce più spesse mostrano il percorso di inferenza per un esempio con i seguenti valori delle funzionalità:

x = 7
y = 12
z = -3

Il percorso di inferenza nella seguente illustrazione passa attraverso tre condizioni prima di raggiungere la foglia (Zeta).

Le tre frecce spesse mostrano il percorso di inferenza.

Per ulteriori informazioni, consulta la sezione Alberi decisionali del corso Decision Forests.

guadagno di informazioni

#df

#Metric

Nelle foreste decisionali, la differenza tra l'entropia di un nodo e la somma ponderata (in base al numero di esempi) dell'entropia dei relativi nodi secondari. L'entropia di un nodo è l'entropia degli esempi in quel nodo.

Ad esempio, considera i seguenti valori di entropia:

entropia del nodo principale = 0,6
entropia di un nodo secondario con 16 esempi pertinenti = 0,2
entropia di un altro nodo secondario con 24 esempi pertinenti = 0,1

Pertanto, il 40% degli esempi si trova in un nodo secondario e il 60% nell'altro nodo secondario. Pertanto:

somma dell'entropia ponderata dei nodi secondari = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Pertanto, l'information gain è:

guadagno di informazioni = entropia del nodo principale - somma ponderata dell'entropia dei nodi secondari
information gain = 0,6 - 0,14 = 0,46

La maggior parte degli splitter cerca di creare condizioni che massimizzino l'acquisizione di informazioni.

bias di affinità

#responsible

Mostrare parzialità nei confronti del proprio gruppo o delle proprie caratteristiche. Se i tester o i valutatori sono amici, familiari o colleghi dello sviluppatore di machine learning, il bias di gruppo potrebbe invalidare il test del prodotto o il set di dati.

Il bias di affinità è una forma di bias di attribuzione di gruppo. Vedi anche bias di omogeneità del gruppo esterno.

Per saperne di più, consulta Equità: tipi di bias in Machine Learning Crash Course.

generatore di input

Un meccanismo mediante il quale i dati vengono caricati in una rete neurale.

Un generatore di input può essere considerato un componente responsabile dell'elaborazione dei dati non elaborati in tensori che vengono iterati per generare batch per addestramento, valutazione e inferenza.

livello di input

#fundamentals

Il livello di una rete neurale che contiene il vettore di caratteristiche. ovvero il livello di input fornisce esempi per l'addestramento o l'inferenza. Ad esempio, il livello di input nella seguente rete neurale è costituito da due funzionalità:

Quattro strati: uno di input, due nascosti e uno di output.

in-set condition

#df

In un albero decisionale, una condizione che verifica la presenza di un elemento in un insieme di elementi. Ad esempio, la seguente è una condizione in-set:

  house-style in [tudor, colonial, cape]

Durante l'inferenza, se il valore della funzionalità dello stile della casa è tudor, colonial o cape, questa condizione restituisce Sì. Se il valore della funzionalità di stile della casa è un altro (ad esempio, ranch), questa condizione restituisce No.

Le condizioni in-set in genere portano ad alberi decisionali più efficienti rispetto alle condizioni che testano le funzionalità codificate one-hot.

istanza

Sinonimo di esempio.

ottimizzazione delle istruzioni

#generativeAI

Una forma di ottimizzazione che migliora la capacità di un modello di AI generativa di seguire le istruzioni. L'ottimizzazione delle istruzioni prevede l'addestramento di un modello su una serie di prompt di istruzioni, in genere relativi a un'ampia gamma di attività. Il modello ottimizzato per le istruzioni risultante tende quindi a generare risposte utili a prompt zero-shot in una serie di attività.

Confrontare e contrapporre con:

Ottimizzazione efficiente dei parametri
Ottimizzazione dei prompt

interpretabilità

#fundamentals

La capacità di spiegare o presentare il ragionamento di un modello di ML in termini comprensibili per un essere umano.

La maggior parte dei modelli di regressione lineare, ad esempio, sono altamente interpretabili. Basta controllare i pesi dell'addestramento di ogni caratteristica. Le foreste decisionali sono anche altamente interpretabili. Alcuni modelli, tuttavia, richiedono una visualizzazione sofisticata per poter essere interpretati.

Puoi utilizzare lo strumento di interpretabilità dell'apprendimento (LIT) per interpretare i modelli ML.

accordo tra valutatori

#Metric

Una misura della frequenza con cui i valutatori umani sono d'accordo durante l'esecuzione di un'attività. Se i valutatori non sono d'accordo, potrebbe essere necessario migliorare le istruzioni dell'attività. A volte viene chiamato anche accordo tra annotatori o affidabilità tra valutatori. Vedi anche Kappa di Cohen, una delle misure di concordanza inter-rater più utilizzate.

Per saperne di più, consulta Dati categorici: problemi comuni in Machine Learning Crash Course.

Intersection over Union (IoU)

L'intersezione di due insiemi divisa per la loro unione. Nelle attività di rilevamento delle immagini di machine learning, l'IoU viene utilizzato per misurare l'accuratezza del riquadro di delimitazione previsto dal modello rispetto al riquadro di delimitazione dei dati empirici reali. In questo caso, l'IoU per i due riquadri è il rapporto tra l'area di sovrapposizione e l'area totale e il suo valore varia da 0 (nessuna sovrapposizione del riquadro di delimitazione previsto e del riquadro di delimitazione dei dati empirici reali) a 1 (il riquadro di delimitazione previsto e il riquadro di delimitazione dei dati empirici reali hanno le stesse coordinate).

Ad esempio, nell'immagine seguente:

Il riquadro di delimitazione previsto (le coordinate che delimitano la posizione in cui il modello prevede che si trovi il comodino nel dipinto) è delineato in viola.
Il riquadro di selezione dei dati di riferimento (le coordinate che delimitano la posizione effettiva del comodino nel dipinto) è evidenziato in verde.

In questo caso, l'intersezione dei riquadri di delimitazione per la previsione e i dati empirici reali (in basso a sinistra) è 1 e l'unione dei riquadri di delimitazione per la previsione e i dati empirici reali (in basso a destra) è 7, quindi l'IoU è $\frac{1}{7}$.

La stessa immagine di sopra, ma con ogni riquadro di delimitazione diviso in quattro
quadranti. Ci sono sette quadranti in totale, poiché il quadrante in basso a destra del riquadro di delimitazione dei dati empirici reali e il quadrante in alto a sinistra del riquadro di delimitazione previsto si sovrappongono. Questa
sezione sovrapposta (evidenziata in verde) rappresenta
l'intersezione e ha un'area di 1.

IoU

Abbreviazione di Intersection over Union.

matrice degli elementi

Nei sistemi di suggerimenti, una matrice di vettori di incorporamento generati dalla fattorizzazione matriciale che contiene indicatori latenti su ogni elemento. Ogni riga della matrice degli articoli contiene il valore di una singola funzionalità latente per tutti gli articoli. Ad esempio, considera un sistema di consigli sui film. Ogni colonna della matrice degli elementi rappresenta un singolo film. I segnali latenti potrebbero rappresentare generi o essere segnali più difficili da interpretare che coinvolgono interazioni complesse tra genere, stelle, età del film o altri fattori.

La matrice degli elementi ha lo stesso numero di colonne della matrice di destinazione che viene fattorizzata. Ad esempio, dato un sistema di consigli sui film che valuta 10.000 titoli di film, la matrice degli elementi avrà 10.000 colonne.

elementi

In un sistema di suggerimenti, le entità che un sistema consiglia. Ad esempio, i video sono gli articoli consigliati da un negozio di video, mentre i libri sono gli articoli consigliati da una libreria.

iteration

#fundamentals

Un singolo aggiornamento dei parametri di un modello, ovvero i pesi e i bias del modello, durante l'addestramento. La dimensione del batch determina quanti esempi il modello elabora in una singola iterazione. Ad esempio, se la dimensione del batch è 20, il modello elabora 20 esempi prima di regolare i parametri.

Quando addestri una rete neurale, una singola iterazione prevede i seguenti due passaggi:

Un passaggio in avanti per valutare la perdita su un singolo batch.
Un passaggio all'indietro (retropropagazione) per regolare i parametri del modello in base alla perdita e al tasso di apprendimento.

Per saperne di più, consulta la sezione Discesa del gradiente in Machine Learning Crash Course.

J

JAX

Una libreria di calcolo di array che riunisce XLA (Accelerated Linear Algebra) e la differenziazione automatica per il calcolo numerico ad alte prestazioni. JAX fornisce un'API semplice e potente per scrivere codice numerico accelerato con trasformazioni componibili. JAX fornisce funzionalità come:

grad (differenziazione automatica)
jit (compilazione just-in-time)
vmap (vettorializzazione automatica o batch)
pmap (parallelizzazione)

JAX è un linguaggio per esprimere e comporre trasformazioni di codice numerico, analogo, ma molto più ampio, alla libreria NumPy di Python. Infatti, la libreria .numpy in JAX è una versione funzionalmente equivalente, ma completamente riscritta della libreria Python NumPy.

JAX è particolarmente adatto ad accelerare molte attività di machine learning trasformando i modelli e i dati in una forma adatta al parallelismo tra GPU e chip di accelerazione TPU.

Flax, Optax, Pax e molte altre librerie sono basate sull'infrastruttura JAX.

K

Keras

Un'API Python per il machine learning molto diffusa. Keras viene eseguito su diversi framework di deep learning, tra cui TensorFlow, dove è disponibile come tf.keras.

Kernel Support Vector Machines (KSVM)

Un algoritmo di classificazione che cerca di massimizzare il margine tra classi positive e negative mappando i vettori di dati di input in uno spazio di dimensioni superiori. Ad esempio, considera un problema di classificazione in cui il set di dati di input ha cento caratteristiche. Per massimizzare il margine tra le classi positive e negative, un KSVM potrebbe mappare internamente queste funzionalità in uno spazio di un milione di dimensioni. KSVM utilizza una funzione di perdita chiamata hinge loss.

keypoint

Le coordinate di caratteristiche particolari in un'immagine. Ad esempio, per un modello di riconoscimento delle immagini che distingue le specie di fiori, i punti chiave potrebbero essere il centro di ogni petalo, lo stelo, lo stame e così via.

Convalida incrociata k-fold

Un algoritmo per prevedere la capacità di un modello di generalizzare in base a nuovi dati. La k nella convalida incrociata k-fold si riferisce al numero di gruppi uguali in cui dividi gli esempi di un set di dati, ovvero addestri e testi il modello k volte. Per ogni ciclo di addestramento e test, un gruppo diverso è il set di test e tutti i gruppi rimanenti diventano il set di addestramento. Dopo k cicli di addestramento e test, calcoli la media e la deviazione standard delle metriche di test scelte.

Ad esempio, supponiamo che il tuo set di dati sia composto da 120 esempi. Supponiamo inoltre di impostare k su 4. Pertanto, dopo aver mischiato gli esempi, dividi il set di dati in quattro gruppi uguali di 30 esempi ed esegui quattro round di addestramento e test:

Ad esempio, l'errore quadratico medio (MSE) potrebbe essere la metrica più significativa per un modello di regressione lineare. Pertanto, troverai la media e la deviazione standard dell'MSE in tutti e quattro i round.

K-means

#clustering

Un algoritmo di clustering popolare che raggruppa gli esempi nell'apprendimento non supervisionato. L'algoritmo k-means esegue le seguenti operazioni:

Determina in modo iterativo i migliori punti centrali k (noti come centroidi).
Assegna ogni esempio al centroide più vicino. Gli esempi più vicini allo stesso centroide appartengono allo stesso gruppo.

L'algoritmo k-means sceglie le posizioni dei centroidi per ridurre al minimo il quadrato cumulativo delle distanze di ogni esempio dal centroide più vicino.

Ad esempio, considera il seguente grafico dell'altezza rispetto alla larghezza dei cani:

Un grafico cartesiano con diverse decine di punti dati.

Se k=3, l'algoritmo k-means determinerà tre centroidi. Ogni esempio viene assegnato al centroide più vicino, generando tre gruppi:

Lo stesso grafico cartesiano dell'illustrazione precedente, tranne
che con tre centroidi aggiunti.
I punti dati precedenti sono raggruppati in tre gruppi distinti,
e ogni gruppo rappresenta i punti dati più vicini a un particolare
centroide.

Immagina che un produttore voglia determinare le taglie ideali per i maglioni per cani small, medium e large. I tre centroidi identificano l'altezza media e la larghezza media di ogni cane nel cluster. Pertanto, il produttore probabilmente dovrebbe basare le taglie dei maglioni su questi tre centroidi. Tieni presente che il centroide di un cluster in genere non è un esempio nel cluster.

Le illustrazioni precedenti mostrano l'algoritmo k-means per esempi con solo due caratteristiche (altezza e larghezza). Tieni presente che k-means può raggruppare gli esempi in base a molte funzionalità.

Per saperne di più, consulta la sezione Che cos'è il clustering K-means? nel corso Clustering.

k-mediana

#clustering

Un algoritmo di clustering strettamente correlato a K-means. La differenza pratica tra le due è la seguente:

Nell'algoritmo k-means, i centroidi vengono determinati riducendo al minimo la somma dei quadrati della distanza tra un candidato centroide e ciascuno dei suoi esempi.
In k-medie, i centroidi vengono determinati riducendo al minimo la somma della distanza tra un candidato centroide e ciascuno dei suoi esempi.

Tieni presente che anche le definizioni di distanza sono diverse:

L'algoritmo k-means si basa sulla distanza euclidea dal centroide a un esempio. In due dimensioni, la distanza euclidea significa utilizzare il teorema di Pitagora per calcolare l'ipotenusa. Ad esempio, la distanza k-means tra (2,2) e (5,-2) sarebbe:

$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$

k-medie si basa sulla distanza di Manhattan dal centroide a un esempio. Questa distanza è la somma dei delta assoluti in ogni dimensione. Ad esempio, la distanza k-mediana tra (2,2) e (5,-2) sarebbe:

$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

Regolarizzazione L₀

#fundamentals

Un tipo di regolarizzazione che penalizza il numero totale di pesi diversi da zero in un modello. Ad esempio, un modello con 11 pesi diversi da zero verrebbe penalizzato più di un modello simile con 10 pesi diversi da zero.

La regolarizzazione L₀ viene talvolta chiamata regolarizzazione della norma L0.

Fai clic sull'icona per ulteriori note.

La regolarizzazione L₀ è generalmente impraticabile nei modelli di grandi dimensioni perché la regolarizzazione L₀ trasforma l'addestramento in un problema di ottimizzazione convesso.

Perdita L₁

#fundamentals

#Metric

Una funzione di perdita che calcola il valore assoluto della differenza tra i valori effettivi dell'etichetta e i valori previsti da un modello. Ad esempio, ecco il calcolo della perdita L₁ per un batch di cinque esempi:

Valore effettivo dell'esempio	Valore previsto del modello	Valore assoluto del delta
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = Perdita L₁

La perdita L₁ è meno sensibile ai valori anomali rispetto alla perdita L₂.

L'errore assoluto medio è la perdita L₁ media per esempio.

Fai clic sull'icona per visualizzare la matematica formale.

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

dove:

$n$ è il numero di esempi.
$y$ è il valore effettivo dell'etichetta.
$\hat{y}$ è il valore che il modello prevede per $y$.

Per saperne di più, consulta Regressione lineare: perdita in Machine Learning Crash Course.

Regolarizzazione L₁

#fundamentals

Un tipo di regolarizzazione che penalizza i pesi in proporzione alla somma del valore assoluto dei pesi. La regolarizzazione L₁ contribuisce a portare i pesi delle caratteristiche irrilevanti o appena rilevanti a esattamente 0. Una caratteristica con un peso pari a 0 viene effettivamente rimossa dal modello.

Contrasto con la regolarizzazione _L2.

Perdita L₂

#fundamentals

#Metric

Una funzione di perdita che calcola il quadrato della differenza tra i valori effettivi dell'etichetta e i valori previsti da un modello. Ad esempio, ecco il calcolo della perdita L₂ per un batch di cinque esempi:

Valore effettivo dell'esempio	Valore previsto del modello	Quadrato del delta
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		16 = L₂ loss

A causa dell'elevazione al quadrato, la perdita L₂ amplifica l'influenza degli outlier. ovvero la perdita L₂ reagisce più fortemente alle previsioni errate rispetto alla perdita L₁. Ad esempio, la perdita L₁ per il batch precedente sarebbe 8 anziché 16. Nota che un singolo valore anomalo rappresenta 9 dei 16.

I modelli di regressione in genere utilizzano la perdita L₂ come funzione di perdita.

L'errore quadratico medio è la perdita L₂ media per esempio. Perdita quadratica è un altro nome per la perdita L₂.

Fai clic sull'icona per visualizzare la matematica formale.

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

dove:

$n$ è il numero di esempi.
$y$ è il valore effettivo dell'etichetta.
$\hat{y}$ è il valore che il modello prevede per $y$.

Per saperne di più, consulta Regressione logistica: perdita e regolarizzazione in Machine Learning Crash Course.

Regolarizzazione L₂

#fundamentals

Un tipo di regolarizzazione che penalizza i pesi in proporzione alla somma dei quadrati dei pesi. La regolarizzazione L₂ contribuisce a ridurre i pesi anomali (quelli con valori positivi elevati o negativi bassi) più vicini a 0, ma non esattamente a 0. Le caratteristiche con valori molto vicini a 0 rimangono nel modello, ma non influiscono molto sulla previsione del modello.

La regolarizzazione L₂ migliora sempre la generalizzazione nei modelli lineari.

Contrasta con la regolarizzazione _L1.

Per saperne di più, consulta Overfitting: regolarizzazione L2 in Machine Learning Crash Course.

etichetta

#fundamentals

Nell'apprendimento supervisionato, la parte "risposta" o "risultato" di un esempio.

Ogni esempio etichettato è costituito da una o più funzionalità e da un'etichetta. Ad esempio, in un set di dati per il rilevamento dello spam, l'etichetta sarebbe probabilmente "spam" o "non spam". In un set di dati sulle precipitazioni, l'etichetta potrebbe essere la quantità di pioggia caduta in un determinato periodo.

Per saperne di più, consulta Apprendimento supervisionato in Introduzione al machine learning.

esempio etichettato

#fundamentals

Un esempio che contiene una o più caratteristiche e un'etichetta. Ad esempio, la seguente tabella mostra tre esempi etichettati di un modello di valutazione di una casa, ognuno con tre funzionalità e un'etichetta:

Numero di camere	Numero di bagni	Età della casa	Prezzo della casa (etichetta)
3	2	15	$345.000
2	1	72	$179.000
4	2	34	$392.000

Nel machine learning supervisionato, i modelli vengono addestrati su esempi etichettati e fanno previsioni su esempi non etichettati.

Esempio con contrasto etichettato con esempi senza etichetta.

Per saperne di più, consulta Apprendimento supervisionato in Introduzione al machine learning.

perdita di etichette

Un difetto di progettazione del modello in cui una caratteristica è un proxy per l'etichetta. Ad esempio, considera un modello di classificazione binaria che prevede se un potenziale cliente acquisterà o meno un determinato prodotto. Supponiamo che una delle caratteristiche del modello sia un valore booleano denominato SpokeToCustomerAgent. Supponiamo inoltre che un agente del cliente venga assegnato solo dopo che il potenziale cliente ha effettivamente acquistato il prodotto. Durante l'addestramento, il modello apprenderà rapidamente l'associazione tra SpokeToCustomerAgent e l'etichetta.

Per saperne di più, consulta la sezione Monitoraggio delle pipeline in Machine Learning Crash Course.

lambda

#fundamentals

Sinonimo di tasso di regolarizzazione.

Lambda è un termine sovraccarico. Qui ci concentriamo sulla definizione del termine all'interno della regolarizzazione.

LaMDA (Language Model for Dialogue Applications)

Un modello linguistico di grandi dimensioni basato su Transformer sviluppato da Google e addestrato su un ampio set di dati di dialoghi in grado di generare risposte conversazionali realistiche.

LaMDA: our breakthrough conversation technology fornisce una panoramica.

punti di riferimento

Sinonimo di keypoints.

modello linguistico

Un modello che stima la probabilità che un token o una sequenza di token si verifichi in una sequenza di token più lunga.

Fai clic sull'icona per ulteriori note.

Sebbene controintuitivo, molti modelli che valutano il testo non sono modelli linguistici. Ad esempio, i modelli di classificazione del testo e di analisi del sentiment non sono modelli linguistici.

Per saperne di più, consulta Che cos'è un modello linguistico? in Machine Learning Crash Course.

modello linguistico di grandi dimensioni

#generativeAI

Come minimo, un modello linguistico con un numero molto elevato di parametri. In termini più informali, qualsiasi modello linguistico basato su Transformer, come Gemini o GPT.

Per saperne di più, consulta la sezione Modelli linguistici di grandi dimensioni (LLM) del corso intensivo su Machine Learning.

latenza

#generativeAI

Il tempo necessario a un modello per elaborare l'input e generare una risposta. Una risposta a latenza elevata richiede più tempo per essere generata rispetto a una risposta a latenza bassa.

I fattori che influenzano la latenza dei modelli linguistici di grandi dimensioni includono:

Lunghezze dei token di input e output
Complessità del modello
L'infrastruttura su cui viene eseguito il modello

L'ottimizzazione per la latenza è fondamentale per creare applicazioni reattive e facili da usare.

spazio latente

Sinonimo di spazio di embedding.

livello

#fundamentals

Un insieme di neuroni in una rete neurale. Tre tipi comuni di livelli sono i seguenti:

Il livello di input, che fornisce i valori per tutte le funzionalità.
Uno o più livelli nascosti, che trovano relazioni non lineari tra le caratteristiche e l'etichetta.
Il livello di output, che fornisce la previsione.

Ad esempio, la seguente illustrazione mostra una rete neurale con uno strato di input, due strati nascosti e uno strato di output:

Una rete neurale con uno strato di input, due strati nascosti e uno di output. Il livello di input è costituito da due caratteristiche. Il primo strato nascosto è composto da tre neuroni e il secondo da due. Lo strato di output è costituito da un singolo nodo.

In TensorFlow, i livelli sono anche funzioni Python che accettano tensori e opzioni di configurazione come input e producono altri tensori come output.

API Layers (tf.layers)

#TensorFlow

Un'API TensorFlow per costruire una rete neurale profonda come composizione di livelli. L'API Layers ti consente di creare diversi tipi di livelli, ad esempio:

tf.layers.Dense per un livello completamente connesso.
tf.layers.Conv2D per un livello convoluzionale.

L'API Layers segue le convenzioni dell'API Layers di Keras. Ciò significa che, a parte un prefisso diverso, tutte le funzioni dell'API Layers hanno gli stessi nomi e firme delle loro controparti nell'API Keras Layers.

foglia

#df

Qualsiasi endpoint in un albero decisionale. A differenza di una condizione, una foglia non esegue un test. Una foglia è una possibile previsione. Una foglia è anche il nodo terminale di un percorso di inferenza.

Ad esempio, il seguente albero decisionale contiene tre foglie:

Un albero decisionale con due condizioni che portano a tre foglie.

Per ulteriori informazioni, consulta la sezione Alberi decisionali del corso Decision Forests.

Learning Interpretability Tool (LIT)

Uno strumento visivo e interattivo per la comprensione dei modelli e la visualizzazione dei dati.

Puoi utilizzare LIT open source per interpretare i modelli o per visualizzare testo, immagini e dati tabulari.

tasso di apprendimento

#fundamentals

Un numero in virgola mobile che indica all'algoritmo di discesa del gradiente con quale intensità regolare i pesi e i bias in ogni iterazione. Ad esempio, un tasso di apprendimento di 0,3 modifica i pesi e i bias tre volte più intensamente di un tasso di apprendimento di 0,1.

Il tasso di apprendimento è un iperparametro fondamentale. Se imposti il tasso di apprendimento troppo basso, l'addestramento richiederà troppo tempo. Se imposti il tasso di apprendimento troppo alto, la discesa del gradiente spesso ha difficoltà a raggiungere la convergenza.

Fai clic sull'icona per una spiegazione più matematica.

Durante ogni iterazione, l'algoritmo di discesa del gradiente moltiplica il tasso di apprendimento per il gradiente. Il prodotto risultante è chiamato passo del gradiente.

Per saperne di più, consulta Regressione lineare: iperparametri in Machine Learning Crash Course.

regressione dei minimi quadrati

Un modello di regressione lineare addestrato minimizzando la perdita L₂.

Distanza di Levenshtein

#metric

Una metrica di distanza di modifica che calcola il numero minimo di operazioni di eliminazione, inserimento e sostituzione necessarie per modificare una parola in un'altra. Ad esempio, la distanza di Levenshtein tra le parole "heart" e "darts" è pari a tre perché le tre modifiche seguenti sono il numero minimo di cambiamenti per trasformare una parola nell'altra:

heart → deart (sostituisci "h" con "d")
deart → dart (elimina "e")
freccetta → freccette (inserisci "e")

Tieni presente che la sequenza precedente non è l'unico percorso di tre modifiche.

lineare

#fundamentals

Una relazione tra due o più variabili che può essere rappresentata esclusivamente tramite addizione e moltiplicazione.

Il grafico di una relazione lineare è una retta.

Contrasto con non lineare.

modello lineare

#fundamentals

Un modello che assegna un peso per caratteristica per fare previsioni. I modelli lineari incorporano anche un bias. Al contrario, la relazione tra le funzionalità e le previsioni nei modelli deep è generalmente non lineare.

I modelli lineari sono in genere più facili da addestrare e più interpretabili rispetto ai modelli profondi. Tuttavia, i modelli profondi possono apprendere relazioni complesse tra le caratteristiche.

La regressione lineare e la regressione logistica sono due tipi di modelli lineari.

Fai clic sull'icona per visualizzare i calcoli.

Un modello lineare segue questa formula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

dove:

y' è la previsione non elaborata. In alcuni tipi di modelli lineari, questa previsione grezza verrà ulteriormente modificata. Ad esempio, vedi regressione logistica.
b è il bias.
w è una ponderazione, quindi w₁ è la ponderazione della prima funzionalità, w₂ è la ponderazione della seconda funzionalità e così via.
x è una caratteristica, quindi x₁ è il valore della prima caratteristica, x₂ è il valore della seconda caratteristica e così via.

Ad esempio, supponiamo che un modello lineare per tre caratteristiche apprenda i seguenti bias e pesi:

b = 7
w₁ = -2,5
w₂ = -1,2
w₃ = 1,4

Pertanto, date tre caratteristiche (x₁, x₂ e x₃), il modello lineare utilizza la seguente equazione per generare ogni previsione:

y' = 7 + (-2.5)(x₁) + (-1.2)(x₂) + (1.4)(x₃)

Supponiamo che un particolare esempio contenga i seguenti valori:

x₁ = 4
x₂ = -10
x₃ = 5

Inserendo questi valori nella formula si ottiene una previsione per questo esempio:

y' = 7 + (-2.5)(4) + (-1.2)(-10) + (1.4)(5)
y' = 16

I modelli lineari includono non solo i modelli che utilizzano solo un'equazione lineare per fare previsioni, ma anche un insieme più ampio di modelli che utilizzano un'equazione lineare come unico componente della formula che fa previsioni. Ad esempio, la regressione logistica post-elabora la previsione grezza (y') per produrre un valore di previsione finale compreso tra 0 e 1, esclusivamente.

regressione lineare

#fundamentals

Un tipo di modello di machine learning in cui sono vere entrambe le seguenti affermazioni:

Il modello è un modello lineare.
La previsione è un valore in virgola mobile. (Questa è la parte di regressione della regressione lineare.)

Confronta la regressione lineare con la regressione logistica. Inoltre, metti a confronto la regressione con la classificazione.

Per saperne di più, consulta Regressione lineare in Machine Learning Crash Course.

LIT

Abbreviazione di Learning Interpretability Tool (LIT), precedentemente noto come Language Interpretability Tool.

LLM

#generativeAI

Abbreviazione di modello linguistico di grandi dimensioni.

Valutazioni LLM

#generativeAI

#Metric

Un insieme di metriche e benchmark per valutare le prestazioni dei modelli linguistici di grandi dimensioni (LLM). A livello generale, valutazioni LLM:

Aiutare i ricercatori a identificare le aree in cui i modelli LLM devono essere migliorati.
Sono utili per confrontare diversi LLM e identificare quello migliore per una determinata attività.
Contribuire a garantire che gli LLM siano sicuri ed etici da utilizzare.

Per saperne di più, consulta Modelli linguistici di grandi dimensioni (LLM) in Machine Learning Crash Course.

regressione logistica

#fundamentals

Un tipo di modello di regressione che prevede una probabilità. I modelli di regressione logistica hanno le seguenti caratteristiche:

L'etichetta è categorica. Il termine regressione logistica si riferisce in genere alla regressione logistica binaria, ovvero a un modello che calcola le probabilità per le etichette con due valori possibili. Una variante meno comune, la regressione logistica multinomiale, calcola le probabilità per le etichette con più di due valori possibili.
La funzione di perdita durante l'addestramento è Log Loss. È possibile inserire più unità Log Loss in parallelo per le etichette con più di due valori possibili.
Il modello ha un'architettura lineare, non una rete neurale profonda. Tuttavia, il resto di questa definizione si applica anche ai modelli di deep learning che prevedono probabilità per le etichette categoriche.

Ad esempio, considera un modello di regressione logistica che calcola la probabilità che un'email di input sia spam o meno. Durante l'inferenza, supponiamo che il modello preveda 0,72. Pertanto, il modello sta stimando:

Una probabilità del 72% che l'email sia spam.
Il 28% di probabilità che l'email non sia spam.

Un modello di regressione logistica utilizza la seguente architettura in due passaggi:

Il modello genera una previsione non elaborata (y') applicando una funzione lineare delle caratteristiche di input.
Il modello utilizza questa previsione non elaborata come input per una funzione sigmoide, che converte la previsione non elaborata in un valore compreso tra 0 e 1, esclusi.

Come qualsiasi modello di regressione, un modello di regressione logistica prevede un numero. Tuttavia, questo numero in genere diventa parte di un modello di classificazione binaria come segue:

Se il numero previsto è maggiore della soglia di classificazione, il modello di classificazione binaria prevede la classe positiva.
Se il numero previsto è inferiore alla soglia di classificazione, il modello di classificazione binaria prevede la classe negativa.

Per saperne di più, consulta Regressione logistica in Machine Learning Crash Course.

logit

Il vettore di previsioni non elaborate (non normalizzate) generate da un modello di classificazione, che di solito viene poi passato a una funzione di normalizzazione. Se il modello risolve un problema di classificazione multiclasse, i logit in genere diventano un input della funzione softmax. La funzione softmax genera quindi un vettore di probabilità (normalizzate) con un valore per ogni classe possibile.

Log Loss

#fundamentals

La funzione di perdita utilizzata nella regressione logistica binaria.

Fai clic sull'icona per visualizzare i calcoli.

La seguente formula calcola la perdita logaritmica:

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

dove:

$(x,y)\in D$ è il set di dati contenente molti esempi etichettati, che sono coppie $(x,y)$ .
$y$ è l'etichetta in un esempio etichettato. Poiché si tratta di una regressione logistica, ogni valore di $y$ deve essere 0 o 1.
$y'$ è il valore previsto (compreso tra 0 e 1, esclusi), dato l'insieme di funzionalità in $x$.

Per saperne di più, consulta Regressione logistica: perdita e regolarizzazione in Machine Learning Crash Course.

log-odds

#fundamentals

Il logaritmo delle probabilità di un evento.

Fai clic sull'icona per visualizzare i calcoli.

Se l'evento è una probabilità binaria, allora odds si riferisce al rapporto tra la probabilità di successo (p) e la probabilità di insuccesso (1-p). Ad esempio, supponiamo che un determinato evento abbia una probabilità di successo del 90% e una probabilità di errore del 10%. In questo caso, la probabilità viene calcolata come segue:

$$ {\text{odds}} = \frac{\text{p}} {\text{(1-p)}} = \frac{.9} {.1} = {\text{9}} $$

Il logit è semplicemente il logaritmo delle probabilità. Per convenzione, "logaritmo" si riferisce al logaritmo naturale, ma il logaritmo potrebbe essere qualsiasi base maggiore di 1. Attenendoci alla convenzione, il logit del nostro esempio è quindi:

$$ {\text{log-odds}} = ln(9) ~= 2.2 $$

La funzione log-odds è l'inverso della funzione sigmoidea.

Long Short-Term Memory (LSTM)

Un tipo di cella in una rete neurale ricorrente utilizzata per elaborare sequenze di dati in applicazioni come il riconoscimento della scrittura a mano, la traduzione automatica e la creazione di didascalie per le immagini. Le LSTM risolvono il problema del gradiente che svanisce che si verifica durante l'addestramento delle RNN a causa di lunghe sequenze di dati, mantenendo la cronologia in uno stato di memoria interno basato sul nuovo input e sul contesto delle celle precedenti della RNN.

LoRA

#generativeAI

Abbreviazione di adattabilità a basso ranking.

perdita

#fundamentals

#Metric

Durante l'addestramento di un modello supervisionato, una misura della distanza tra la previsione di un modello e la sua etichetta.

Una funzione di perdita calcola la perdita.

Per saperne di più, consulta Regressione lineare: perdita in Machine Learning Crash Course.

aggregatore di perdite

Un tipo di algoritmo di machine learning che migliora il rendimento di un modello combinando le previsioni di più modelli e utilizzando queste previsioni per fare una singola previsione. Di conseguenza, un aggregatore di perdite può ridurre la varianza delle previsioni e migliorarne l'accuratezza.

curva di perdita

#fundamentals

Un grafico della perdita in funzione del numero di iterazioni di addestramento. Il seguente grafico mostra una tipica curva di perdita:

Un grafico cartesiano della perdita rispetto alle iterazioni di addestramento, che mostra una
rapida diminuzione della perdita per le iterazioni iniziali, seguita da una
diminuzione graduale e poi da una pendenza piatta durante le iterazioni finali.

Le curve di perdita possono aiutarti a determinare quando il modello converge o quando si verifica l'overfitting.

Le curve di perdita possono tracciare tutti i seguenti tipi di perdita:

Perdita di addestramento
Perdita della convalida
test loss

Vedi anche la curva di generalizzazione.

Per saperne di più, consulta Overfitting: interpretare le curve di perdita in Machine Learning Crash Course.

funzione di perdita

#fundamentals

#Metric

Durante l'addestramento o il test, una funzione matematica che calcola la perdita su un batch di esempi. Una funzione di perdita restituisce una perdita inferiore per i modelli che fanno buone previsioni rispetto a quelli che fanno previsioni errate.

L'obiettivo dell'addestramento è in genere quello di ridurre al minimo la perdita restituita da una funzione di perdita.

Esistono molti tipi diversi di funzioni di perdita. Scegli la funzione di perdita appropriata per il tipo di modello che stai creando. Ad esempio:

La perdita L₂ (o errore quadratico medio) è la funzione di perdita per la regressione lineare.
Log Loss è la funzione di perdita per la regressione logistica.

superficie di perdita

Un grafico del peso o dei pesi rispetto alla perdita. La discesa del gradiente mira a trovare il peso o i pesi per cui la superficie di perdita si trova a un minimo locale.

Adattabilità a basso ranking (LoRA)

#generativeAI

Una tecnica efficiente in termini di parametri per l'ottimizzazione che"congela" i pesi preaddestrati del modello (in modo che non possano più essere modificati) e poi inserisce un piccolo insieme di pesi addestrabili nel modello. Questo insieme di pesi addestrabili (noto anche come "matrici di aggiornamento") è notevolmente più piccolo del modello di base ed è quindi molto più veloce da addestrare.

LoRA offre i seguenti vantaggi:

Migliora la qualità delle previsioni di un modello per il dominio in cui viene applicato il fine tuning.
L'ottimizzazione è più rapida rispetto alle tecniche che richiedono l'ottimizzazione di tutti i parametri di un modello.
Riduce il costo di calcolo dell'inferenza consentendo l'erogazione simultanea di più modelli specializzati che condividono lo stesso modello di base.

Fai clic sull'icona per scoprire di più sulle matrici di aggiornamento in LoRA.

Le matrici di aggiornamento utilizzate in LoRA sono costituite da matrici di decomposizione del rango, che vengono derivate dal modello base per filtrare il rumore e concentrare l'addestramento sulle caratteristiche più importanti del modello.

LSTM

Abbreviazione di Long Short-Term Memory.

M

machine learning

#fundamentals

Un programma o un sistema che addestra un modello a partire dai dati di input. Il modello addestrato può fare previsioni utili a partire da dati nuovi (mai visti prima) estratti dalla stessa distribuzione di quelli utilizzati per addestrare il modello.

Il machine learning si riferisce anche al campo di studio che si occupa di questi programmi o sistemi.

Per saperne di più, consulta il corso Introduzione al machine learning.

traduzione automatica

#generativeAI

Utilizzo di un software (in genere, un modello di machine learning) per convertire il testo da una lingua umana a un'altra, ad esempio dall'inglese al giapponese.

classe maggioritaria

#fundamentals

L'etichetta più comune in un insieme di dati con sbilanciamento di classe. Ad esempio, dato un set di dati contenente il 99% di etichette negative e l'1% di etichette positive, le etichette negative sono la classe di maggioranza.

Contrasto con la classe di minoranza.

Per saperne di più, consulta Set di dati: set di dati non bilanciati in Machine Learning Crash Course.

Processo decisionale di Markov (MDP)

Un grafico che rappresenta il modello decisionale in cui le decisioni (o azioni) vengono prese per navigare in una sequenza di stati presupponendo che la proprietà di Markov sia valida. Nell'apprendimento per rinforzo, queste transizioni tra stati restituiscono una ricompensa numerica.

Proprietà di Markov

Una proprietà di determinati ambienti, in cui le transizioni di stato sono interamente determinate dalle informazioni implicite nello stato attuale e dall'azione dell'agente.

modello linguistico mascherato

Un modello linguistico che prevede la probabilità che i token candidati riempiano gli spazi vuoti in una sequenza. Ad esempio, un modello linguistico mascherato può calcolare le probabilità che una o più parole candidate sostituiscano il trattino basso nella seguente frase:

Il ____ nel cappello è tornato.

La letteratura in genere utilizza la stringa "MASK" anziché un trattino basso. Ad esempio:

La scritta "MASK" sul cappello è tornata.

La maggior parte dei moderni modelli linguistici mascherati sono bidirezionali.

matplotlib

Una libreria di tracciamento 2D open source di Python. matplotlib ti aiuta a visualizzare diversi aspetti del machine learning.

fattorizzazione matriciale

In matematica, un meccanismo per trovare le matrici il cui prodotto scalare approssima una matrice di destinazione.

Nei sistemi di consigli, la matrice di destinazione spesso contiene le valutazioni degli utenti sugli elementi. Ad esempio, la matrice di destinazione per un sistema di consigli sui film potrebbe avere un aspetto simile al seguente, in cui i numeri interi positivi sono le valutazioni degli utenti e 0 significa che l'utente non ha valutato il film:

	Casablanca	The Philadelphia Story	Black Panther	Wonder Woman	Pulp Fiction
Utente 1	5,0	3,0	0.0	2.0	0.0
Utente 2	4.0	0.0	0.0	1,0	5,0
Utente 3	3,0	1,0	4.0	5,0	0.0

Il sistema di consigli sui film mira a prevedere le valutazioni degli utenti per i film senza valutazione. Ad esempio, all'Utente 1 piacerà Black Panther?

Un approccio per i sistemi di suggerimenti consiste nell'utilizzare la fattorizzazione matriciale per generare le seguenti due matrici:

Una matrice utente, modellata come il numero di utenti X il numero di dimensioni di incorporamento.
Una matrice degli elementi, con dimensioni pari al numero di dimensioni dell'incorporamento moltiplicato per il numero di elementi.

Ad esempio, l'utilizzo della fattorizzazione matriciale sui nostri tre utenti e cinque elementi potrebbe produrre la seguente matrice utente e matrice elemento:

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

Il prodotto scalare della matrice utente e della matrice elemento genera una matrice di suggerimenti che contiene non solo le valutazioni originali degli utenti, ma anche le previsioni per i film che ogni utente non ha visto. Ad esempio, considera la valutazione di Casablanca dell'utente 1, che è 5.0. Il prodotto corrispondente a quella cella nella matrice dei consigli dovrebbe essere intorno a 5,0, ed è:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

Ancora più importante, all'Utente 1 piacerà Black Panther? Il prodotto scalare corrispondente alla prima riga e alla terza colonna produce una valutazione prevista di 4,3:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

La fattorizzazione matriciale in genere produce una matrice utente e una matrice elemento che, insieme, sono molto più compatte della matrice target.

Errore assoluto medio (MAE)

#Metric

La perdita media per esempio quando viene utilizzata la perdita L₁. Calcola l'errore assoluto medio come segue:

Calcola la perdita L₁ per un batch.
Dividi la perdita L₁ per il numero di esempi nel batch.

Fai clic sull'icona per visualizzare la matematica formale.

$$\text{Mean Absolute Error} = \frac{1}{n}\sum_{i=0}^n | y_i - \hat{y}_i |$$

dove:

$n$ è il numero di esempi.
$y$ è il valore effettivo dell'etichetta.
$\hat{y}$ è il valore che il modello prevede per $y$.

Ad esempio, considera il calcolo della perdita L₁ sul seguente batch di cinque esempi:

Valore effettivo dell'esempio	Valore previsto del modello	Perdita (differenza tra valore effettivo e previsto)
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = Perdita L₁

Quindi, la perdita L₁ è 8 e il numero di esempi è 5. Pertanto, l'errore assoluto medio è:

Mean Absolute Error = L₁ loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

Confronta l'errore assoluto medio con l'errore quadratico medio e l'errore quadratico medio della radice.

precisione media a k (mAP@k)

#generativeAI

#Metric

La media statistica di tutti i punteggi di precisione media a k in un set di dati di convalida. Un utilizzo della precisione media media a k è quello di valutare la qualità dei suggerimenti generati da un sistema di suggerimenti.

Sebbene la frase "media aritmetica" sembri ridondante, il nome della metrica è appropriato. Dopo tutto, questa metrica trova la media di più valori di precisione media a k.

Fai clic sull'icona per visualizzare un esempio.

Supponiamo di creare un sistema di consigli che generi un elenco personalizzato di romanzi consigliati per ogni utente. In base al feedback degli utenti selezionati, calcoli i seguenti cinque punteggi di precisione media a k (un punteggio per utente):

0,73
0,77
0,67
0,82
0,76

La precisione media a K è quindi:

$$\text{mean } = \frac{\text{0.73 + 0.77 + 0.67 + 0.82 + 0.76}} {\text{5}} = \text{0.75}$$

Errore quadratico medio (MSE)

#Metric

La perdita media per esempio quando viene utilizzata la perdita L₂. Calcola l'errore quadratico medio come segue:

Calcola la perdita L₂ per un batch.
Dividi la perdita L₂ per il numero di esempi nel batch.

Fai clic sull'icona per visualizzare la matematica formale.

$$\text{Mean Squared Error} = \frac{1}{n}\sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$ where:

$n$ è il numero di esempi.
$y$ è il valore effettivo dell'etichetta.
$\hat{y}$ è la previsione del modello per $y$.

Ad esempio, considera la perdita nel seguente batch di cinque esempi:

Valore effettivo	Previsione del modello	Perdita	Errore quadratico
7	6	1	1
5	4	1	1
8	11	3	9
4	6	2	4
9	8	1	1
			16 = L₂ loss

Pertanto, l'errore quadratico medio è:

Mean Squared Error = L₂ loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

L'errore quadratico medio è un ottimizzatore di addestramento popolare, in particolare per la regressione lineare.

Confronta l'errore quadratico medio con l'errore assoluto medio e l'errore quadratico medio della radice.

TensorFlow Playground utilizza l'errore quadratico medio per calcolare i valori di perdita.

Fai clic sull'icona per visualizzare ulteriori dettagli sugli outlier.

Gli outlier influenzano notevolmente l'errore quadratico medio. Ad esempio, una perdita di 1 è una perdita al quadrato di 1, ma una perdita di 3 è una perdita al quadrato di 9. Nella tabella precedente, l'esempio con una perdita di 3 account rappresenta circa il 56% dell'errore quadratico medio, mentre ciascuno degli esempi con una perdita di 1 account rappresenta solo il 6% dell'errore quadratico medio.

Gli outlier non influenzano l'errore assoluto medio tanto quanto l'errore quadratico medio. Ad esempio, una perdita di 3 account corrisponde solo al 38% circa dell'errore assoluto medio.

Il clipping è un modo per impedire che gli outlier estremi danneggino la capacità predittiva del modello.

mesh

#TensorFlow

#GoogleCloud

Nella programmazione parallela ML, un termine associato all'assegnazione dei dati e del modello ai chip TPU e alla definizione di come questi valori verranno suddivisi o replicati.

Mesh è un termine sovraccarico che può significare una delle seguenti cose:

Un layout fisico dei chip TPU.
Un costrutto logico astratto per mappare i dati e il modello sui chip TPU.

In entrambi i casi, una mesh viene specificata come forma.

meta-learning

Un sottoinsieme del machine learning che scopre o migliora un algoritmo di apprendimento. Un sistema di meta-apprendimento può anche avere lo scopo di addestrare un modello ad apprendere rapidamente una nuova attività da una piccola quantità di dati o dall'esperienza acquisita in attività precedenti. Gli algoritmi di meta-apprendimento in genere cercano di ottenere quanto segue:

Migliorare o apprendere le funzionalità progettate manualmente (ad esempio un inizializzatore o un ottimizzatore).
Essere più efficienti in termini di dati e calcolo.
Migliorare la generalizzazione.

Il meta-learning è correlato all'apprendimento few-shot.

metrica

#TensorFlow

#Metric

Una statistica che ti interessa.

Un obiettivo è una metrica che un sistema di machine learning tenta di ottimizzare.

API Metrics (tf.metrics)

#Metric

Un'API TensorFlow per valutare i modelli. Ad esempio, tf.metrics.accuracy determina la frequenza con cui le previsioni di un modello corrispondono alle etichette.

mini-batch

#fundamentals

Un piccolo sottoinsieme selezionato casualmente di un batch elaborato in una iterazione. La dimensione del batch di un mini-batch è in genere compresa tra 10 e 1000 esempi.

Ad esempio, supponiamo che l'intero set di addestramento (l'intero batch) sia composto da 1000 esempi. Supponiamo inoltre di impostare la dimensione del batch di ogni mini-batch su 20. Pertanto, ogni iterazione determina la perdita su 20 esempi casuali su 1000 e poi modifica di conseguenza i pesi e i bias.

È molto più efficiente calcolare la perdita su un mini-batch rispetto alla perdita su tutti gli esempi nel batch completo.

Per saperne di più, consulta Regressione lineare: iperparametri in Machine Learning Crash Course.

discesa stocastica del gradiente in mini-batch

Un algoritmo di discesa del gradiente che utilizza mini-batch. In altre parole, la discesa del gradiente stocastico in mini batch stima il gradiente in base a un piccolo sottoinsieme dei dati di addestramento. La discesa stocastica del gradiente standard utilizza un mini-batch di dimensione 1.

Perdita minimax

#Metric

Una funzione di perdita per le reti generative avversariali, basata sull'entropia incrociata tra la distribuzione dei dati generati e dei dati reali.

La perdita minimax viene utilizzata nel primo articolo per descrivere le reti generative avversariali.

Per saperne di più, consulta la sezione Funzioni di perdita del corso Generative Adversarial Networks.

classe minoritaria

#fundamentals

L'etichetta meno comune in un insieme di dati con sbilanciamento di classe. Ad esempio, dato un set di dati contenente il 99% di etichette negative e l'1% di etichette positive, le etichette positive sono la classe di minoranza.

Contrasto con la classe maggioritaria.

Fai clic sull'icona per ulteriori note.

Un set di addestramento con un milione di esempi sembra impressionante. Tuttavia, se la classe minoritaria è scarsamente rappresentata, anche un set di addestramento molto grande potrebbe non essere sufficiente. Concentrati meno sul numero totale di esempi nel set di dati e più sul numero di esempi nella classe di minoranza.

Se il set di dati non contiene esempi sufficienti della classe minoritaria, valuta la possibilità di utilizzare il sottocampionamento (la definizione nel secondo punto elenco) per integrare la classe minoritaria.

Per saperne di più, consulta Set di dati: set di dati non bilanciati in Machine Learning Crash Course.

mix di esperti

#generativeAI

Un sistema per aumentare l'efficienza della rete neurale utilizzando solo un sottoinsieme dei suoi parametri (noto come esperto) per elaborare un determinato token o esempio di input. Una rete di gating indirizza ogni token o esempio di input all'esperto o agli esperti giusti.

Per maggiori dettagli, consulta uno dei seguenti documenti:

ML

Abbreviazione di machine learning.

MMIT

#generativeAI

Abbreviazione di multimodal instruction-tuned.

MNIST

Un set di dati di pubblico dominio compilato da LeCun, Cortes e Burges contenente 60.000 immagini, ognuna delle quali mostra come una persona ha scritto manualmente un particolare numero da 0 a 9. Ogni immagine viene memorizzata come una matrice di numeri interi 28x28, dove ogni numero intero è un valore in scala di grigi compreso tra 0 e 255 inclusi.

MNIST è un set di dati canonico per il machine learning, spesso utilizzato per testare nuovi approcci di machine learning. Per maggiori dettagli, consulta The MNIST Database of Handwritten Digits.

modalità

Una categoria di dati di primo livello. Ad esempio, numeri, testo, immagini, video e audio sono cinque modalità diverse.

modello

#fundamentals

In generale, qualsiasi costrutto matematico che elabora i dati di input e restituisce l'output. In altre parole, un modello è l'insieme di parametri e della struttura necessari a un sistema per fare previsioni. Nel machine learning supervisionato, un modello prende un esempio come input e deduce una previsione come output. Nell'ambito del machine learning supervisionato, i modelli differiscono leggermente. Ad esempio:

Un modello di regressione lineare è costituito da un insieme di pesi e da un bias.
Un modello di rete neurale è costituito da:
- Un insieme di strati nascosti, ognuno contenente uno o più neuroni.
- I pesi e il bias associati a ogni neurone.
Un modello ad albero decisionale è costituito da:
- La forma dell'albero, ovvero il pattern in cui sono collegate le condizioni e le foglie.
- Le condizioni e i permessi.

Puoi salvare, ripristinare o creare copie di un modello.

L'apprendimento automatico non supervisionato genera anche modelli, in genere una funzione che può mappare un esempio di input al cluster più appropriato.

Fai clic sull'icona per confrontare le funzioni algebriche e di programmazione con i modelli ML.

Una funzione algebrica come la seguente è un modello:

  f(x, y) = 3x -5xy + y² + 17

La funzione precedente mappa i valori di input (x e y) all'output.

Allo stesso modo, anche una funzione di programmazione come la seguente è un modello:

def half_of_greater(x, y):
  if (x > y):
    return(x / 2)
  else
    return(y / 2)

Un chiamante passa argomenti alla funzione Python precedente e la funzione Python genera l'output (tramite l'istruzione return).

Sebbene una rete neurale profonda abbia una struttura matematica molto diversa da una funzione algebrica o di programmazione, una rete neurale profonda accetta comunque un input (un esempio) e restituisce un output (una previsione).

Un programmatore umano codifica manualmente una funzione di programmazione. Al contrario, un modello di machine learning apprende gradualmente i parametri ottimali durante l'addestramento automatizzato.

capacità del modello

#Metric

La complessità dei problemi che un modello può apprendere. Più complessi sono i problemi che un modello può apprendere, maggiore è la sua capacità. La capacità di un modello aumenta in genere con il numero di parametri del modello. Per una definizione formale della capacità del modello di classificazione, vedi Dimensione VC.

cascata di modelli

#generativeAI

Un sistema che sceglie il modello ideale per una query di inferenza specifica.

Immagina un gruppo di modelli, che vanno da molto grandi (molti parametri) a molto più piccoli (molti meno parametri). I modelli molto grandi consumano più risorse di calcolo in fase di inferenza rispetto ai modelli più piccoli. Tuttavia, i modelli molto grandi possono in genere dedurre richieste più complesse rispetto ai modelli più piccoli. La concatenazione dei modelli determina la complessità della query di inferenza e poi sceglie il modello appropriato per eseguire l'inferenza. La motivazione principale per la creazione di modelli in cascata è ridurre i costi di inferenza selezionando in genere modelli più piccoli e selezionando un modello più grande solo per query più complesse.

Immagina che un modello piccolo venga eseguito su uno smartphone e una versione più grande dello stesso modello venga eseguita su un server remoto. Una buona concatenazione di modelli riduce i costi e la latenza consentendo al modello più piccolo di gestire le richieste semplici e chiamando il modello remoto solo per gestire le richieste complesse.

Vedi anche router modello.

parallelismo del modello

Un modo per scalare l'addestramento o l'inferenza che inserisce diverse parti di un modello su diversi dispositivi. Il parallelismo del modello consente di utilizzare modelli troppo grandi per essere contenuti in un singolo dispositivo.

Per implementare il parallelismo del modello, un sistema in genere esegue le seguenti operazioni:

Suddivide il modello in parti più piccole.
Distribuisce l'addestramento di queste parti più piccole su più processori. Ogni processore addestra la propria parte del modello.
Combina i risultati per creare un unico modello.

Il parallelismo dei modelli rallenta l'addestramento.

#fundamentals

Nell'apprendimento supervisionato, un problema di classificazione in cui il set di dati contiene più di due classi di etichette. Ad esempio, le etichette nel set di dati Iris devono appartenere a una delle seguenti tre classi:

Iris setosa
Iris virginica
Iris versicolor

Un modello addestrato sul set di dati Iris che prevede il tipo di Iris su nuovi esempi esegue la classificazione multi-classe.

Al contrario, i problemi di classificazione che distinguono esattamente due classi sono modelli di classificazione binaria. Ad esempio, un modello di email che prevede spam o non spam è un modello di classificazione binaria.

Nei problemi di clustering, la classificazione multiclasse si riferisce a più di due cluster.

Per saperne di più, consulta la sezione Reti neurali: classificazione multiclasse di Machine Learning Crash Course.

regressione logistica multiclasse

Utilizzo della regressione logistica nei problemi di classificazione multiclasse.

self-attention multi-head

Un'estensione dell'auto-attenzione che applica il meccanismo di auto-attenzione più volte per ogni posizione nella sequenza di input.

Transformers ha introdotto l'auto-attenzione multi-testa.

multimodal instruction-tuned

Un modello ottimizzato per le istruzioni in grado di elaborare input oltre al testo, come immagini, video e audio.

modello multimodale

Un modello i cui input, output o entrambi includono più di una modalità. Ad esempio, considera un modello che prende come caratteristiche sia un'immagine sia una didascalia di testo (due modalità) e restituisce un punteggio che indica l'idoneità della didascalia di testo per l'immagine. Pertanto, gli input di questo modello sono multimodali e l'output è unimodale.

classificazione multinomiale

Sinonimo di classificazione multiclasse.

regressione multinomiale

Sinonimo di regressione logistica multiclasse.

multitasking

Una tecnica di machine learning in cui un singolo modello viene addestrato per eseguire più attività.

I modelli multi-task vengono creati eseguendo l'addestramento su dati appropriati per ciascuna delle diverse attività. In questo modo, il modello può imparare a condividere le informazioni tra le attività, il che lo aiuta a imparare in modo più efficace.

Un modello addestrato per più attività spesso ha capacità di generalizzazione migliorate e può essere più efficace nella gestione di diversi tipi di dati.

No

Nano

#generativeAI

Un modello Gemini relativamente piccolo progettato per l'utilizzo sul dispositivo. Per maggiori dettagli, vedi Gemini Nano.

Vedi anche Pro e Ultra.

Trappola NaN

Quando un numero nel modello diventa NaN durante l'addestramento, molti o tutti gli altri numeri nel modello alla fine diventano NaN.

NaN è l'abbreviazione di Not a Number.

elaborazione del linguaggio naturale

Il campo dell'insegnamento ai computer di elaborare ciò che un utente ha detto o digitato utilizzando regole linguistiche. Quasi tutta l'elaborazione del linguaggio naturale moderna si basa sul machine learning.

comprensione del linguaggio naturale

Un sottoinsieme dell'elaborazione del linguaggio naturale che determina le intenzioni di ciò che viene detto o digitato. La comprensione del linguaggio naturale può andare oltre l'elaborazione del linguaggio naturale per considerare aspetti complessi del linguaggio come contesto, sarcasmo e sentiment.

classe negativa

#fundamentals

#Metric

Nella classificazione binaria, una classe è definita positiva e l'altra è definita negativa. La classe positiva è l'elemento o l'evento che il modello sta testando, mentre la classe negativa è l'altra possibilità. Ad esempio:

La classe negativa in un test medico potrebbe essere "non tumore".
La classe negativa in un modello di classificazione di email potrebbe essere "non spam".

Contrasto con la classe positiva.

campionamento negativo

Sinonimo di campionamento dei candidati.

Neural Architecture Search (NAS)

Una tecnica per progettare automaticamente l'architettura di una rete neurale. Gli algoritmi NAS possono ridurre la quantità di tempo e risorse necessarie per addestrare una rete neurale.

In genere, il NAS utilizza:

Uno spazio di ricerca, ovvero un insieme di possibili architetture.
Una funzione di idoneità, che è una misura del rendimento di una particolare architettura in una determinata attività.

Gli algoritmi NAS spesso iniziano con un piccolo insieme di architetture possibili e ampliano gradualmente lo spazio di ricerca man mano che l'algoritmo apprende di più su quali architetture sono efficaci. La funzione di idoneità si basa in genere sulle prestazioni dell'architettura su un set di addestramento e l'algoritmo viene in genere addestrato utilizzando una tecnica di apprendimento per rinforzo.

Gli algoritmi NAS si sono dimostrati efficaci nell'individuazione di architetture ad alte prestazioni per una serie di attività, tra cui la classificazione delle immagini, la classificazione del testo e la traduzione automatica.

feed-forward

#fundamentals

Un modello contenente almeno un livello nascosto. Una rete neurale profonda è un tipo di rete neurale che contiene più di uno strato nascosto. Ad esempio, il seguente diagramma mostra una rete neurale profonda contenente due livelli nascosti.

Una rete neurale con uno strato di input, due strati nascosti e uno di output.

Ogni neurone di una rete neurale si connette a tutti i nodi del livello successivo. Ad esempio, nel diagramma precedente, nota che ciascuno dei tre neuroni nel primo strato nascosto si connette separatamente a entrambi i neuroni nel secondo strato nascosto.

Le reti neurali implementate sui computer sono a volte chiamate reti neurali artificiali per distinguerle dalle reti neurali presenti nel cervello e in altri sistemi nervosi.

Alcune reti neurali possono imitare relazioni non lineari estremamente complesse tra le diverse caratteristiche e l'etichetta.

Vedi anche rete neurale convoluzionale e rete neurale ricorrente.

Per saperne di più, consulta la sezione Reti neurali di Machine Learning Crash Course.

neurone

#fundamentals

Nel machine learning, un'unità distinta all'interno di un livello nascosto di una rete neurale. Ogni neurone esegue la seguente azione in due passaggi:

Calcola la somma ponderata dei valori di input moltiplicati per i pesi corrispondenti.
Passa la somma ponderata come input a una funzione di attivazione.

Un neurone del primo strato nascosto accetta gli input dai valori delle caratteristiche nel strato di input. Un neurone in qualsiasi strato nascosto oltre il primo accetta input dai neuroni dello strato nascosto precedente. Ad esempio, un neurone del secondo strato nascosto accetta input dai neuroni del primo strato nascosto.

La seguente illustrazione mette in evidenza due neuroni e i relativi input.

Un neurone in una rete neurale imita il comportamento dei neuroni nel cervello e in altre parti del sistema nervoso.

N-gramma

Una sequenza ordinata di N parole. Ad esempio, truly madly è un 2-gramma. Poiché l'ordine è importante, madly truly è un 2-gramma diverso da truly madly.

No	Nome o nomi per questo tipo di N-gramma	Esempi
2	bigramma o 2-grammi	to go, go to, eat lunch, eat dinner
3	trigramma	mangiò troppo, vissero felici e contenti, la campana suona
4	4 grammi	walk in the park, dust in the wind, the boy ate lentils

Molti modelli di comprensione del linguaggio naturale si basano sugli N-grammi per prevedere la parola successiva che l'utente digiterà o pronuncerà. Ad esempio, supponiamo che un utente abbia digitato e vissero felici e. Un modello NLU basato su trigrammi probabilmente prevede che l'utente digiterà la parola dopo.

Contrasta gli N-grammi con il bag of words, che sono insiemi di parole non ordinate.

Per saperne di più, consulta Modelli linguistici di grandi dimensioni in Machine Learning Crash Course.

NLP

Abbreviazione di elaborazione del linguaggio naturale.

NLU

Abbreviazione di comprensione del linguaggio naturale.

nodo (albero decisionale)

#df

In un albero decisionale, qualsiasi condizione o foglia.

Un albero decisionale con due condizioni e tre foglie.

Per ulteriori informazioni, consulta la sezione Alberi decisionali del corso Decision Forests.

nodo (rete neurale)

#fundamentals

Un neurone in un livello nascosto.

Per ulteriori informazioni, consulta la sezione Reti neurali di Machine Learning Crash Course.

nodo (grafico TensorFlow)

#TensorFlow

Un'operazione in un grafico TensorFlow.

rumore

In termini generali, qualsiasi elemento che offusca il segnale in un set di dati. Il rumore può essere introdotto nei dati in vari modi. Ad esempio:

I valutatori umani commettono errori di etichettatura.
Le persone e gli strumenti registrano o omettono erroneamente i valori delle caratteristiche.

condizione non binaria

#df

Una condizione contenente più di due risultati possibili. Ad esempio, la seguente condizione non binaria contiene tre possibili risultati:

Una condizione (number_of_legs = ?) che porta a tre possibili
risultati. Un risultato (number_of_legs = 8) porta a una foglia
denominata spider. Un secondo risultato (number_of_legs = 4) porta a
una foglia denominata dog. Un terzo risultato (number_of_legs = 2) porta a
una foglia denominata penguin.

Per ulteriori informazioni, consulta la sezione Tipi di condizioni del corso Decision Forests.

non lineare

#fundamentals

Una relazione tra due o più variabili che non può essere rappresentata solo tramite addizione e moltiplicazione. Una relazione lineare può essere rappresentata come una linea, mentre una relazione non lineare non può essere rappresentata come una linea. Ad esempio, considera due modelli che mettono in relazione una singola caratteristica a una singola etichetta. Il modello a sinistra è lineare e quello a destra è non lineare:

Due trame. Un grafico è una linea, quindi si tratta di una relazione lineare.
L'altro grafico è una curva, quindi si tratta di una relazione non lineare.

Consulta la sezione Reti neurali: nodi e livelli nascosti del corso intensivo di machine learning per sperimentare diversi tipi di funzioni non lineari.

bias di non risposta

#responsible

Consulta la sezione Bias di selezione.

non stazionarietà

#fundamentals

Una funzionalità i cui valori cambiano in una o più dimensioni, in genere il tempo. Ad esempio, considera i seguenti esempi di non stazionarietà:

Il numero di costumi da bagno venduti in un determinato negozio varia in base alla stagione.
La quantità di un determinato frutto raccolto in una regione specifica è pari a zero per gran parte dell'anno, ma elevata per un breve periodo.
A causa dei cambiamenti climatici, le temperature medie annue stanno cambiando.

Contrasto con la stazionarietà.

nessuna risposta corretta (NORA)

#generativeAI

Un prompt con più risposte corrette. Ad esempio, il seguente prompt non ha una risposta corretta:

Raccontami una barzelletta divertente sugli elefanti.

Valutare le risposte ai prompt senza una risposta corretta è in genere molto più soggettivo che valutare i prompt con una risposta corretta. Ad esempio, la valutazione di una barzelletta sugli elefanti richiede un modo sistematico per determinare quanto sia divertente.

NORA

#generativeAI

Abbreviazione di nessuna risposta corretta.

normalizzazione

#fundamentals

In generale, il processo di conversione dell'intervallo effettivo di valori di una variabile in un intervallo standard di valori, ad esempio:

Da -1 a +1
Da 0 a 1
Punteggi z (approssimativamente da -3 a +3)

Ad esempio, supponiamo che l'intervallo effettivo di valori di una determinata caratteristica sia da 800 a 2400. Nell'ambito dell'ingegneria delle funzionalità, puoi normalizzare i valori effettivi in un intervallo standard, ad esempio da -1 a +1.

La normalizzazione è un'attività comune nell'ingegneria delle funzionalità. I modelli di solito vengono addestrati più velocemente (e producono previsioni migliori) quando ogni caratteristica numerica nel vettore delle caratteristiche ha all'incirca lo stesso intervallo.

Vedi anche Normalizzazione del punteggio Z.

Per saperne di più, consulta Dati numerici: normalizzazione in Machine Learning Crash Course.

NotebookLM

#generativeAI

Uno strumento basato su Gemini che consente agli utenti di caricare documenti e poi utilizzare i prompt per porre domande, riassumere o organizzare i documenti. Ad esempio, un autore potrebbe caricare diversi racconti e chiedere a NotebookLM di trovare i temi comuni o di identificare quale potrebbe essere il miglior film.

rilevamento di novità

Il processo di determinazione se un nuovo esempio proviene dalla stessa distribuzione del set di addestramento. In altre parole, dopo l'addestramento sul set di addestramento, il rilevamento di novità determina se un esempio nuovo (durante l'inferenza o l'addestramento aggiuntivo) è un valore anomalo.

Contrasto con il rilevamento outlier.

dati numerici

#fundamentals

Caratteristiche rappresentate come numeri interi o con valori reali. Ad esempio, un modello di valutazione di una casa rappresenterebbe probabilmente le dimensioni di una casa (in metri quadrati o piedi quadrati) come dati numerici. La rappresentazione di una caratteristica come dati numerici indica che i valori della caratteristica hanno una relazione matematica con l'etichetta. ovvero il numero di metri quadrati di una casa probabilmente ha una relazione matematica con il valore della casa.

Non tutti i dati interi devono essere rappresentati come dati numerici. Ad esempio, i codici postali in alcune parti del mondo sono numeri interi; tuttavia, i codici postali interi non devono essere rappresentati come dati numerici nei modelli. Questo perché un codice postale di 20000 non è due volte (o la metà) più efficace di un codice postale di 10000. Inoltre, anche se codici postali diversi corrispondono a valori immobiliari diversi, non possiamo presumere che i valori immobiliari del codice postale 20000 siano il doppio di quelli del codice postale 10000. I codici postali devono essere rappresentati come dati categorici.

Le caratteristiche numeriche sono a volte chiamate caratteristiche continue.

Per saperne di più, consulta la sezione Utilizzo dei dati numerici di Machine Learning Crash Course.

NumPy

Una libreria matematica open source che fornisce operazioni efficienti sugli array in Python. pandas è basato su NumPy.

O

scopo

#Metric

Una metrica che l'algoritmo sta cercando di ottimizzare.

funzione obiettivo

#Metric

La formula matematica o la metrica che un modello mira a ottimizzare. Ad esempio, la funzione obiettivo per la regressione lineare è in genere la perdita quadratica media. Pertanto, quando si addestra un modello di regressione lineare, l'addestramento mira a minimizzare la perdita quadratica media.

In alcuni casi, l'obiettivo è massimizzare la funzione obiettivo. Ad esempio, se la funzione obiettivo è l'accuratezza, l'obiettivo è massimizzare l'accuratezza.

Vedi anche perdita.

oblique condition

#df

In un albero decisionale, una condizione che coinvolge più di una caratteristica. Ad esempio, se altezza e larghezza sono entrambe caratteristiche, la seguente è una condizione obliqua:

  height > width

Contrasto con la condizione allineata all'asse.

Per ulteriori informazioni, consulta la sezione Tipi di condizioni del corso Decision Forests.

offline

#fundamentals

Sinonimo di static.

inferenza offline

#fundamentals

Il processo di generazione di un batch di previsioni da parte di un modello e il successivo salvataggio nella cache. Le app possono quindi accedere alla previsione inferita dalla cache anziché eseguire nuovamente il modello.

Ad esempio, considera un modello che genera previsioni meteo locali (previsioni) una volta ogni quattro ore. Dopo ogni esecuzione del modello, il sistema memorizza nella cache tutte le previsioni meteo locali. Le app meteo recuperano le previsioni dalla cache.

L'inferenza offline è anche chiamata inferenza statica.

Contrasto con l'inferenza online. Per saperne di più, consulta la sezione Sistemi ML di produzione: inferenza statica e dinamica in Machine Learning Crash Course.

codifica one-hot

#fundamentals

Rappresentazione dei dati categorici come un vettore in cui:

Un elemento è impostato su 1.
Tutti gli altri elementi sono impostati su 0.

La codifica one-hot viene comunemente utilizzata per rappresentare stringhe o identificatori che hanno un insieme finito di valori possibili. Ad esempio, supponiamo che una determinata caratteristica categorica denominata Scandinavia abbia cinque valori possibili:

"Denmark"
"Svezia"
"Norvegia"
"Finlandia"
"Islanda"

La codifica one-hot potrebbe rappresentare ciascuno dei cinque valori nel seguente modo:

Paese	Vettoriale
"Denmark"	1	0	0	0	0
"Svezia"	0	1	0	0	0
"Norvegia"	0	0	1	0	0
"Finlandia"	0	0	0	1	0
"Islanda"	0	0	0	0	1

Grazie alla codifica one-hot, un modello può apprendere connessioni diverse in base a ciascuno dei cinque paesi.

La rappresentazione di una caratteristica come dati numerici è un'alternativa alla codifica one-hot. Purtroppo, rappresentare i paesi scandinavi numericamente non è una buona scelta. Ad esempio, considera la seguente rappresentazione numerica:

"Danimarca" è 0
"Svezia" è 1
"Norvegia" è 2
"Finlandia" è 3
"Iceland" è 4

Con la codifica numerica, un modello interpreterebbe i numeri grezzi matematicamente e tenterebbe di addestrarsi su questi numeri. Tuttavia, l'Islanda non è il doppio (o la metà) di qualcosa rispetto alla Norvegia, quindi il modello arriverebbe a conclusioni strane.

Per saperne di più, consulta Dati categorici: vocabolario e codifica one-hot in Machine Learning Crash Course.

una risposta corretta (ORA)

#generativeAI

Un prompt con una singola risposta corretta. Ad esempio, considera il seguente prompt:

Vero o falso: Saturno è più grande di Marte.

L'unica risposta corretta è Vero.

Contrasto con nessuna risposta corretta.

apprendimento one-shot

Un approccio di machine learning, spesso utilizzato per la classificazione degli oggetti, progettato per apprendere un modello di classificazione efficace da un singolo esempio di addestramento.

Vedi anche apprendimento few-shot e apprendimento zero-shot.

prompting one-shot

#generativeAI

Un prompt che contiene un esempio che mostra come deve rispondere il modello linguistico di grandi dimensioni. Ad esempio, il seguente prompt contiene un esempio che mostra a un modello linguistico di grandi dimensioni come deve rispondere a una query.

Parti di un prompt	Note
`Qual è la valuta ufficiale del paese specificato?`	La domanda a cui vuoi che l'LLM risponda.
`Francia: EUR`	Un esempio.
`India:`	La query effettiva.

Confronta e contrapponi il prompt one-shot con i seguenti termini:

Prompting zero-shot
prompting few-shot

one-vs.-all

#fundamentals

Dato un problema di classificazione con N classi, una soluzione costituita da N modelli di classificazione binaria separati, un modello di classificazione binaria per ogni possibile risultato. Ad esempio, dato un modello che classifica gli esempi come animale, vegetale o minerale, una soluzione uno contro tutti fornirebbe i seguenti tre modelli di classificazione binaria separati:

animale o non animale
verdura o non verdura
minerale o non minerale

online

#fundamentals

Sinonimo di dinamico.

inferenza online

#fundamentals

Generazione di previsioni on demand. Ad esempio, supponiamo che un'app passi l'input a un modello ed emetta una richiesta di previsione. Un sistema che utilizza l'inferenza online risponde alla richiesta eseguendo il modello (e restituendo la previsione all'app).

Contrasto con l'inferenza offline.

Per saperne di più, consulta la sezione Sistemi ML di produzione: inferenza statica e dinamica in Machine Learning Crash Course.

operazione (op)

#TensorFlow

In TensorFlow, qualsiasi procedura che crea, manipola o distrugge un Tensor. Ad esempio, una moltiplicazione matriciale è un'operazione che accetta due tensori come input e genera un tensore come output.

Optax

Una libreria di elaborazione e ottimizzazione dei gradienti per JAX. Optax facilita la ricerca fornendo blocchi di costruzione che possono essere ricombinati in modi personalizzati per ottimizzare modelli parametrici come le reti neurali profonde. Altri obiettivi includono:

Fornire implementazioni leggibili, ben testate ed efficienti dei componenti principali.
Migliorare la produttività consentendo di combinare ingredienti di basso livello in ottimizzatori personalizzati (o altri componenti di elaborazione del gradiente).
Accelerare l'adozione di nuove idee semplificando il contributo di chiunque.

ottimizzatore

Un'implementazione specifica dell'algoritmo di discesa del gradiente. Gli ottimizzatori più utilizzati includono:

AdaGrad, acronimo di ADAptive GRADient descent (discesa del gradiente adattiva).
Adam, che sta per ADAptive with Momentum.

ORA

#generativeAI

Abbreviazione di una risposta corretta.

bias di omogeneità del gruppo esterno

#responsible

La tendenza a considerare i membri del gruppo esterno più simili tra loro rispetto a quelli del gruppo interno quando si confrontano atteggiamenti, valori, tratti della personalità e altre caratteristiche. In-group si riferisce alle persone con cui interagisci regolarmente; out-group si riferisce alle persone con cui non interagisci regolarmente. Se crei un set di dati chiedendo alle persone di fornire attributi relativi a outgroup, questi attributi potrebbero essere meno sfumati e più stereotipati rispetto a quelli che i partecipanti elencano per le persone del loro ingroup.

Ad esempio, i lillipuziani potrebbero descrivere le case di altri lillipuziani in modo molto dettagliato, citando piccole differenze negli stili architettonici, nelle finestre, nelle porte e nelle dimensioni. Tuttavia, gli stessi Lillipuziani potrebbero semplicemente dichiarare che tutti i Brobdingnagiani vivono in case identiche.

Il bias di omogeneità del gruppo esterno è una forma di bias di attribuzione di gruppo.

Vedi anche bias di affinità.

Rilevamento outlier

Il processo di identificazione dei valori anomali in un set di addestramento.

Contrasto con il rilevamento della novità.

le anomalie

Valori distanti dalla maggior parte degli altri valori. Nel machine learning, sono outlier tutti i seguenti valori:

Inserisci dati i cui valori sono superiori a circa 3 deviazioni standard dalla media.
Pesi con valori assoluti elevati.
Valori previsti relativamente lontani dai valori effettivi.

Ad esempio, supponiamo che widget-price sia una funzionalità di un determinato modello. Supponiamo che la media widget-price sia di 7 euro con una deviazione standard di 1 euro. Gli esempi contenenti un widget-price di 12 euro o 2 euro sarebbero quindi considerati valori anomali perché ciascuno di questi prezzi si discosta di cinque deviazioni standard dalla media.

Gli outlier sono spesso causati da errori di battitura o altri errori di inserimento. In altri casi, i valori anomali non sono errori; dopo tutto, i valori a cinque deviazioni standard dalla media sono rari ma non impossibili.

Gli outlier spesso causano problemi nell'addestramento del modello. Il clipping è un modo per gestire i valori anomali.

Per saperne di più, consulta la sezione Utilizzo dei dati numerici di Machine Learning Crash Course.

valutazione out-of-bag (valutazione OOB)

#df

Un meccanismo per valutare la qualità di una foresta decisionale testando ogni albero decisionale rispetto agli esempi non utilizzati durante l'addestramento di quell'albero decisionale. Ad esempio, nel diagramma seguente, nota che il sistema addestra ogni albero decisionale su circa due terzi degli esempi e poi lo valuta in base al terzo rimanente degli esempi.

La valutazione out-of-bag è un'approssimazione efficiente dal punto di vista computazionale e conservativa del meccanismo di cross-validation. Nella convalida incrociata, viene addestrato un modello per ogni round di convalida incrociata (ad esempio, vengono addestrati 10 modelli in una convalida incrociata a 10 fold). Con la valutazione OOB, viene addestrato un singolo modello. Poiché il bagging esclude alcuni dati da ogni albero durante l'addestramento, la valutazione OOB può utilizzare questi dati per approssimare la convalida incrociata.

Per ulteriori informazioni, consulta Valutazione out-of-bag nel corso Decision Forests.

strato di output

#fundamentals

Il livello "finale" di una rete neurale. Lo strato di output contiene la previsione.

La seguente illustrazione mostra una piccola rete neurale profonda con uno strato di input, due strati nascosti e uno strato di output:

overfitting

#fundamentals

Creazione di un modello che corrisponde ai dati di addestramento in modo così preciso che il modello non riesce a fare previsioni corrette su nuovi dati.

La regolarizzazione può ridurre l'overfitting. L'addestramento su un set di addestramento ampio e diversificato può anche ridurre l'overfitting.

Fai clic sull'icona per ulteriori note.

L'overfitting è come seguire rigorosamente i consigli solo del tuo insegnante preferito. Probabilmente avrai successo nella classe di quell'insegnante, ma potresti "adattarti" troppo alle sue idee e non avere successo in altre classi. Seguire i consigli di diversi insegnanti ti consentirà di adattarti meglio alle nuove situazioni.

Per saperne di più, consulta la sezione Overfitting di Machine Learning Crash Course.

sovrasampling

Riutilizzare gli esempi di una classe minoritaria in un set di dati con sbilanciamento di classe per creare un set di addestramento più bilanciato.

Ad esempio, considera un problema di classificazione binaria in cui il rapporto tra la classe maggioritaria e la classe minoritaria è 5000:1. Se il set di dati contiene un milione di esempi, allora contiene solo circa 200 esempi della classe minoritaria, che potrebbero essere troppo pochi per un addestramento efficace. Per superare questa carenza, potresti eseguire l'oversampling (riutilizzare) di questi 200 esempi più volte, ottenendo così esempi sufficienti per un addestramento utile.

Devi fare attenzione all'overfitting quando esegui l'oversampling.

Contrasto con il sottocampionamento.

P

dati compressi

Un approccio per archiviare i dati in modo più efficiente.

I data store compressi memorizzano i dati utilizzando un formato compresso o in un altro modo che ne consenta l'accesso in modo più efficiente. I dati compressi riducono al minimo la quantità di memoria e calcoli necessari per accedervi, il che comporta un addestramento più rapido e un'inferenza del modello più efficiente.

I dati compressi vengono spesso utilizzati con altre tecniche, come l'aumento dei dati e la regolarizzazione, migliorando ulteriormente le prestazioni dei modelli.

PaLM

Abbreviazione di Pathways Language Model.

panda

#fundamentals

Un'API per l'analisi dei dati orientata alle colonne basata su numpy. Molti framework di machine learning, tra cui TensorFlow, supportano le strutture di dati pandas come input. Per informazioni dettagliate, consulta la documentazione di pandas.

parametro

#fundamentals

Le ponderazioni e i bias che un modello apprende durante l'addestramento. Ad esempio, in un modello di regressione lineare, i parametri sono costituiti dal bias (b) e da tutti i pesi (w₁, w₂ e così via) nella seguente formula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Al contrario, gli iperparametri sono i valori che tu (o un servizio di ottimizzazione degli iperparametri) fornisci al modello. Ad esempio, il tasso di apprendimento è un iperparametro.

ottimizzazione efficiente dei parametri

#generativeAI

Un insieme di tecniche per ottimizzare un modello linguistico di grandi dimensioni preaddestrato (PLM) in modo più efficiente rispetto all'ottimizzazione completa. L'ottimizzazione efficiente dei parametri in genere ottimizza un numero molto inferiore di parametri rispetto all'ottimizzazione completa, ma in genere produce un modello linguistico di grandi dimensioni che ha un rendimento pari (o quasi pari) a quello di un modello linguistico di grandi dimensioni creato con l'ottimizzazione completa.

Confronta e contrapponi l'ottimizzazione efficiente dei parametri con:

Ottimizzazione delle istruzioni
Ottimizzazione dei prompt

L'ottimizzazione efficiente dei parametri è nota anche come ottimizzazione efficiente.

Server dei parametri (PS)

#TensorFlow

Un job che tiene traccia dei parametri di un modello in un'impostazione distribuita.

aggiornamento dei parametri

L'operazione di aggiustamento dei parametri di un modello durante l'addestramento, in genere all'interno di una singola iterazione della discesa del gradiente.

derivata parziale

Una derivata in cui tutte le variabili tranne una sono considerate costanti. Ad esempio, la derivata parziale di f(x, y) rispetto a x è la derivata di f considerata come funzione solo di x (ovvero mantenendo y costante). La derivata parziale di f rispetto a x si concentra solo su come cambia x e ignora tutte le altre variabili nell'equazione.

bias di partecipazione

#responsible

Sinonimo di bias di non risposta. Consulta la sezione Bias di selezione.

strategia di partizionamento

L'algoritmo in base al quale le variabili vengono suddivise tra i server dei parametri.

pass at k (pass@k)

#Metric

Una metrica per determinare la qualità del codice (ad esempio Python) che genera un modello linguistico di grandi dimensioni. Più nello specifico, il valore di superamento a k indica la probabilità che almeno uno dei k blocchi di codice generati superi tutti i test delle unità.

I modelli linguistici di grandi dimensioni spesso faticano a generare codice valido per problemi di programmazione complessi. Gli ingegneri del software si adattano a questo problema chiedendo al modello linguistico di grandi dimensioni di generare più (k) soluzioni per lo stesso problema. Successivamente, gli ingegneri software testano ciascuna delle soluzioni rispetto ai test delle unità. Il calcolo di pass at k dipende dal risultato dei test unitari:

Se una o più di queste soluzioni superano il test unitario, il modello LLM supera la sfida di generazione del codice.
Se nessuna delle soluzioni supera il test unitario, il modello LLM non supera la sfida di generazione di codice.

La formula per il passaggio a k è la seguente:

\[\text{pass at k} = \frac{\text{total number of passes}} {\text{total number of challenges}}\]

In generale, valori più elevati di k producono punteggi pass at k più elevati; tuttavia, valori più elevati di k richiedono più risorse per i test di unità e i modelli linguistici di grandi dimensioni.

Fai clic sull'icona per un esempio.

Supponiamo che un ingegnere del software chieda a un modello linguistico di grandi dimensioni di generare k=10 soluzioni per n=50 problemi di programmazione difficili. Ecco i risultati:

30 pass
20 errori

Il punteggio di superamento a 10 è quindi:

$$\text{pass at 10} = \frac{\text{30}} {\text{50}} = 0.6$$

Pathways Language Model (PaLM)

Un modello precedente e predecessore dei modelli Gemini.

Pax

#generativeAI

Un framework di programmazione progettato per l'addestramento di modelli di rete neurale su larga scala così grandi da estendersi su più slice o pod di chip di accelerazione TPU.

Pax è basato su Flax, che a sua volta è basato su JAX.

Diagramma che indica la posizione di Pax nello stack software.
Pax si basa su JAX. Pax è composto da tre
livelli. Il livello inferiore contiene TensorStore e Flax.
Lo strato intermedio contiene Optax e Flaxformer. Il livello
superiore contiene la libreria di modelli Praxis. Fiddle è basato
su Pax.

percettrone

Un sistema (hardware o software) che accetta uno o più valori di input, esegue una funzione sulla somma ponderata degli input e calcola un singolo valore di output. Nel machine learning, la funzione è in genere non lineare, ad esempio ReLU, sigmoidea o tanh. Ad esempio, il seguente percettrone si basa sulla funzione sigmoide per elaborare tre valori di input:

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

Nell'illustrazione seguente, il percettrone accetta tre input, ognuno dei quali viene modificato da un peso prima di entrare nel percettrone:

Un perceptron che riceve 3 input, ognuno moltiplicato per pesi separati. Il perceptron restituisce un singolo valore.

I percettroni sono i neuroni nelle reti neurali.

prestazioni

#Metric

Termine sovraccarico con i seguenti significati:

Il significato standard nell'ingegneria del software. ovvero: quanto velocemente (o in modo efficiente) viene eseguito questo software?
Il significato nel machine learning. In questo caso, il rendimento risponde alla seguente domanda: quanto è corretto questo modello? ovvero quanto sono accurate le previsioni del modello.

importanza delle variabili di permutazione

#df

#Metric

Un tipo di importanza delle variabili che valuta l'aumento dell'errore di previsione di un modello dopo la permutazione dei valori della caratteristica. L'importanza delle variabili di permutazione è una metrica indipendente dal modello.

perplessità

#Metric

Una misura dell'efficacia di un modello nello svolgimento della sua attività. Ad esempio, supponiamo che il tuo compito sia leggere le prime lettere di una parola che un utente sta digitando sulla tastiera di uno smartphone e offrire un elenco di possibili parole di completamento. La perplessità, P, per questa attività è approssimativamente il numero di ipotesi che devi offrire affinché il tuo elenco contenga la parola effettiva che l'utente sta cercando di digitare.

La perplessità è correlata all'entropia incrociata come segue:

$$P= 2^{-\text{cross entropy}}$$

pipeline

L'infrastruttura che circonda un algoritmo di machine learning. Una pipeline include la raccolta dei dati, l'inserimento dei dati nei file di dati di addestramento, l'addestramento di uno o più modelli e l'esportazione dei modelli in produzione.

Per saperne di più, consulta la sezione Pipeline ML del corso Gestione dei progetti ML.

pipelining

Una forma di parallelismo del modello in cui l'elaborazione di un modello è suddivisa in fasi consecutive e ogni fase viene eseguita su un dispositivo diverso. Mentre una fase elabora un batch, la fase precedente può lavorare sul batch successivo.

Vedi anche l'addestramento scaglionato.

pjit

Una funzione JAX che suddivide il codice da eseguire su più chip di accelerazione. L'utente passa una funzione a pjit, che restituisce una funzione con la stessa semantica, ma compilata in un calcolo XLA che viene eseguito su più dispositivi (come GPU o core TPU).

pjit consente agli utenti di partizionare i calcoli senza riscriverli utilizzando il partizionatore SPMD.

A partire da marzo 2023, pjit è stato unito a jit. Per ulteriori dettagli, consulta Array distribuiti e parallelizzazione automatica.

PLM

#generativeAI

Abbreviazione di modello linguistico preaddestrato.

pmap

Una funzione JAX che esegue copie di una funzione di input su più dispositivi hardware sottostanti (CPU, GPU o TPU), con valori di input diversi. pmap si basa su SPMD.

policy

Nell'apprendimento per rinforzo, la mappatura probabilistica di un agente dagli stati alle azioni.

pooling

Riduzione di una o più matrici create da un precedente livello convoluzionale a una matrice più piccola. Il raggruppamento di solito comporta l'utilizzo del valore massimo o medio nell'area raggruppata. Ad esempio, supponiamo di avere la seguente matrice 3x3:

La matrice 3x3 [[5,3,1], [8,2,5], [9,4,3]].

Un'operazione di pooling, proprio come un'operazione convoluzionale, divide la matrice in sezioni e poi fa scorrere l'operazione convoluzionale di passi. Ad esempio, supponiamo che l'operazione di pooling divida la matrice convoluzionale in sezioni 2x2 con un passo 1x1. Come illustrato nel seguente diagramma, vengono eseguite quattro operazioni di pooling. Immagina che ogni operazione di pooling scelga il valore massimo dei quattro in quella sezione:

Il pooling contribuisce a imporre l'invarianza traslazionale nella matrice di input.

Il pooling per le applicazioni di visione è noto più formalmente come pooling spaziale. Le applicazioni di serie temporali di solito si riferiscono al pooling come pooling temporale. In termini meno formali, il pooling viene spesso chiamato sottocampionamento o riduzione del campionamento.

Consulta la sezione Introduzione alle reti neurali convoluzionali del corso ML Practicum: classificazione delle immagini.

codifica posizionale

Una tecnica per aggiungere informazioni sulla posizione di un token in una sequenza all'incorporamento del token. I modelli Transformer utilizzano la codifica posizionale per comprendere meglio la relazione tra le diverse parti della sequenza.

Un'implementazione comune della codifica posizionale utilizza una funzione sinusoidale. Nello specifico, la frequenza e l'ampiezza della funzione sinusoidale sono determinate dalla posizione del token nella sequenza. Questa tecnica consente a un modello Transformer di imparare a prestare attenzione a diverse parti della sequenza in base alla loro posizione.

classe positiva

#fundamentals

#Metric

Il corso per cui stai eseguendo il test.

Ad esempio, la classe positiva in un modello per il cancro potrebbe essere "tumore". La classe positiva in un modello di classificazione delle email potrebbe essere "spam".

Contrasta con la classe negativa.

Fai clic sull'icona per ulteriori note.

Il termine classe positiva può essere fuorviante perché il risultato "positivo" di molti test è spesso un risultato indesiderabile. Ad esempio, la classe positiva in molti test medici corrisponde a tumori o malattie. In generale, vorresti che un medico ti dicesse: "Congratulazioni! I risultati del test sono stati negativi". In ogni caso, la classe positiva è l'evento che il test cerca di trovare.

A dire il vero, stai testando contemporaneamente le classi positive e negative.

post-elaborazione

#responsible

#fundamentals

Modifica dell'output di un modello dopo l'esecuzione. Il post-processing può essere utilizzato per applicare vincoli di equità senza modificare i modelli stessi.

Ad esempio, è possibile applicare il post-processing a un modello di classificazione binaria impostando una soglia di classificazione in modo che l'uguaglianza delle opportunità venga mantenuta per un determinato attributo verificando che il tasso di veri positivi sia lo stesso per tutti i valori di quell'attributo.

modello postaddestrato

#generativeAI

Termine definito in modo generico che in genere si riferisce a un modello preaddestrato che è stato sottoposto a un'elaborazione successiva, ad esempio una o più delle seguenti:

Distillazione
Perfezionamento
Ottimizzazione delle istruzioni

AUC PR (area sotto la curva PR)

#Metric

Area sotto la curva di precisione-richiamo interpolata, ottenuta tracciando i punti (richiamo, precisione) per diversi valori della soglia di classificazione.

Praxis

Una libreria ML di base ad alte prestazioni di Pax. Praxis viene spesso chiamata "Libreria dei livelli".

Praxis contiene non solo le definizioni per la classe Layer, ma anche la maggior parte dei suoi componenti di supporto, tra cui:

input di dati
librerie di configurazione (HParam e Fiddle)
Ottimizzatori

Praxis fornisce le definizioni per la classe Model.

precisione

#fundamentals

#Metric

Una metrica per i modelli di classificazione che risponde alla seguente domanda:

Quando il modello ha previsto la classe positiva, qual è stata la percentuale di previsioni corrette?

Ecco la formula:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

dove:

vero positivo significa che il modello ha previsto correttamente la classe positiva.
Un falso positivo significa che il modello ha previsto erroneamente la classe positiva.

Ad esempio, supponiamo che un modello abbia effettuato 200 previsioni positive. Delle 200 previsioni positive:

150 erano veri positivi.
50 erano falsi positivi.

In questo caso:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

Contrasta con accuratezza e richiamo.

Per saperne di più, consulta Classificazione: accuratezza, richiamo, precisione e metriche correlate in Machine Learning Crash Course.

precisione a k (precision@k)

#Metric

Una metrica per valutare un elenco classificato (ordinato) di elementi. La precisione a k identifica la frazione dei primi k elementi dell'elenco che sono "pertinenti". Ossia:

\[\text{precision at k} = \frac{\text{relevant items in first k items of the list}} {\text{k}}\]

Il valore di k deve essere minore o uguale alla lunghezza dell'elenco restituito. Tieni presente che la lunghezza dell'elenco restituito non fa parte del calcolo.

La pertinenza è spesso soggettiva; anche gli evaluatori umani esperti spesso non sono d'accordo su quali elementi siano pertinenti.

Confronta con:

Precisione media a k
Precisione media a k

Fai clic sull'icona per visualizzare un esempio.

Supponiamo che a un modello linguistico di grandi dimensioni venga fornita la seguente query:

List the 6 funniest movies of all time in order.

Il modello linguistico di grandi dimensioni restituisce l'elenco mostrato nelle prime due colonne della tabella seguente:

Posizione	Film	Pertinente?
1	The General	Sì
2	Mean Girls	Sì
3	Platoon	No
4	Le amiche della sposa	Sì
5	Quarto potere	No
6	This is Spinal Tap	Sì

Due dei primi tre film sono pertinenti, quindi la precisione a 3 è:

$$\text{precision at 3} = \frac{\text{2}} {\text{3}} = 0.67$$

Tre dei primi cinque film sono molto divertenti, quindi la precisione a 5 è:

$$\text{precision at 5} = \frac{\text{3}} {\text{5}} = 0.6$$

curva di precisione-richiamo

#Metric

Una curva di precisione rispetto al richiamo in corrispondenza di diverse soglie di classificazione.

previsione

#fundamentals

L'output di un modello. Ad esempio:

La previsione di un modello di classificazione binaria è la classe positiva o la classe negativa.
La previsione di un modello di classificazione multi-classe è una classe.
La previsione di un modello di regressione lineare è un numero.

bias di previsione

#Metric

Un valore che indica la distanza tra la media delle previsioni e la media delle etichette nel set di dati.

Da non confondere con il termine bias nei modelli di machine learning o con il bias in etica ed equità.

ML predittivo

Qualsiasi sistema di machine learning standard ("classico").

Il termine ML predittivo non ha una definizione formale. Il termine distingue una categoria di sistemi ML non basata sull'AI generativa.

parità predittiva

#responsible

#Metric

Una metrica di equità che controlla se, per un dato modello di classificazione, i tassi di precisione sono equivalenti per i sottogruppi in esame.

Ad esempio, un modello che prevede l'ammissione all'università soddisferebbe la parità predittiva per nazionalità se il suo tasso di precisione è lo stesso per i lillipuziani e i brobdingnagiani.

La parità predittiva è talvolta chiamata anche parità predittiva delle tariffe.

Consulta la sezione "Spiegazione delle definizioni di equità" (sezione 3.2.1) per una discussione più dettagliata della parità predittiva.

parità tariffaria predittiva

#responsible

#Metric

Un altro nome per la parità predittiva.

pre-elaborazione

#responsible

Elaborazione dei dati prima che vengano utilizzati per addestrare un modello. Il pre-elaborazione potrebbe essere semplice come rimuovere le parole da un corpus di testo in inglese che non sono presenti nel dizionario inglese oppure complessa come rielaborare i punti dati in modo da eliminare il maggior numero possibile di attributi correlati ad attributi sensibili. Il pre-elaborazione può contribuire a soddisfare i vincoli di equità.

modello preaddestrato

#generativeAI

Sebbene questo termine possa riferirsi a qualsiasi modello o vettore di incorporamento addestrato, ora il modello preaddestrato in genere si riferisce a un modello linguistico di grandi dimensioni o a un'altra forma di modello di AI generativa addestrato.

Vedi anche modello di base e foundation model.

pre-training

#generativeAI

L'addestramento iniziale di un modello su un grande set di dati. Alcuni modelli pre-addestrati sono giganti goffi e in genere devono essere perfezionati tramite un addestramento aggiuntivo. Ad esempio, gli esperti di ML potrebbero pre-addestrare un modello linguistico di grandi dimensioni su un vasto set di dati di testo, come tutte le pagine in inglese di Wikipedia. Dopo il pre-addestramento, il modello risultante può essere ulteriormente perfezionato mediante una delle seguenti tecniche:

distillation
ottimizzazione
Ottimizzazione delle istruzioni
Ottimizzazione efficiente dei parametri
prompt-tuning

credenza a priori

Ciò che pensi dei dati prima di iniziare l'addestramento. Ad esempio, la regolarizzazione _L2 si basa su una convinzione a priori che i pesi debbano essere piccoli e distribuiti normalmente intorno allo zero.

Pro

#generativeAI

Un modello Gemini con meno parametri di Ultra, ma più parametri di Nano. Per maggiori dettagli, consulta la pagina Gemini Pro.

modello di regressione probabilistico

Un modello di regressione che utilizza non solo i pesi per ogni caratteristica, ma anche l'incertezza di questi pesi. Un modello di regressione probabilistico genera una previsione e l'incertezza di questa previsione. Ad esempio, un modello di regressione probabilistica potrebbe produrre una previsione di 325 con una deviazione standard di 12. Per ulteriori informazioni sui modelli di regressione probabilistica, consulta questo Colab su tensorflow.org.

funzione di densità di probabilità

#Metric

Una funzione che identifica la frequenza dei campioni di dati che hanno esattamente un valore specifico. Quando i valori di un set di dati sono numeri in virgola mobile continui, raramente si verificano corrispondenze esatte. Tuttavia, l'integrazione di una funzione di densità di probabilità dal valore x al valore y produce la frequenza prevista dei campioni di dati compresi tra x e y.

Ad esempio, considera una distribuzione normale con una media di 200 e una deviazione standard di 30. Per determinare la frequenza prevista dei campioni di dati che rientrano nell'intervallo da 211,4 a 218,7, puoi integrare la funzione di densità di probabilità per una distribuzione normale da 211,4 a 218,7.

richiesta

#generativeAI

Qualsiasi testo inserito come input in un modello linguistico di grandi dimensioni per condizionare il modello a comportarsi in un determinato modo. I prompt possono essere brevi come una frase o arbitrariamente lunghi (ad esempio, l'intero testo di un romanzo). I prompt rientrano in più categorie, tra cui quelle mostrate nella tabella seguente:

Categoria di prompt	Esempio	Note
Domanda	`A che velocità può volare un piccione?`
Istruzione	`Scrivi una poesia divertente sull'arbitraggio.`	Un prompt che chiede al modello linguistico di grandi dimensioni (LLM) di fare qualcosa.
Esempio	`Traduci il codice Markdown in HTML. Ad esempio: Markdown: * list item HTML: <ul> <li>list item</li> </ul>`	La prima frase di questo prompt di esempio è un'istruzione. Il resto del prompt è l'esempio.
Ruolo	`Spiega perché la discesa del gradiente viene utilizzata nell'addestramento del machine learning a un dottorato in fisica.`	La prima parte della frase è un'istruzione; la frase "to a PhD in Physics" è la parte relativa al ruolo.
Input parziale da completare per il modello	`Il Primo Ministro del Regno Unito vive a`	Un prompt di input parziale può terminare bruscamente (come in questo esempio) o con un trattino basso.

Un modello di AI generativa può rispondere a un prompt con testo, codice, immagini, incorporamenti, video… quasi qualsiasi cosa.

apprendimento basato su prompt

#generativeAI

Una funzionalità di alcuni modelli che consente loro di adattare il proprio comportamento in risposta a input di testo arbitrari (prompt). In un tipico paradigma di apprendimento basato sui prompt, un modello linguistico di grandi dimensioni risponde a un prompt generando testo. Ad esempio, supponiamo che un utente inserisca il seguente prompt:

Riassumi il terzo principio della dinamica di Newton.

Un modello in grado di apprendere in base ai prompt non è addestrato in modo specifico per rispondere al prompt precedente. Il modello "conosce" molti fatti sulla fisica, molte regole linguistiche generali e molti elementi che costituiscono risposte generalmente utili. Queste informazioni sono sufficienti per fornire una risposta (si spera) utile. Ulteriori feedback umani ("Questa risposta era troppo complicata" o "Che cos'è una reazione?") consentono ad alcuni sistemi di apprendimento basati su prompt di migliorare gradualmente l'utilità delle loro risposte.

progettazione dei prompt

#generativeAI

Sinonimo di prompt engineering.

ingegneria del prompt

#generativeAI

L'arte di creare prompt che generano le risposte desiderate da un modello linguistico di grandi dimensioni. Gli esseri umani eseguono l'ingegneria dei prompt. Scrivere prompt ben strutturati è una parte essenziale per garantire risposte utili da un modello linguistico di grandi dimensioni. L'ingegneria dei prompt dipende da molti fattori, tra cui:

Il set di dati utilizzato per il preaddestramento e, possibilmente, l'ottimizzazione del modello linguistico di grandi dimensioni.
La temperatura e altri parametri di decodifica che il modello utilizza per generare risposte.

Progettazione dei prompt è un sinonimo di prompt engineering.

Per saperne di più su come scrivere prompt utili, consulta Introduzione alla progettazione dei prompt.

set di prompt

#generativeAI

Un gruppo di prompt per valutare un modello linguistico di grandi dimensioni. Ad esempio, la seguente illustrazione mostra un insieme di prompt composto da tre prompt:

Tre prompt a un LLM producono tre risposte. I tre prompt
sono il set di prompt. Le tre risposte costituiscono il set di risposte.

I buoni set di prompt sono costituiti da una raccolta di prompt sufficientemente "ampia" per valutare a fondo la sicurezza e l'utilità di un modello linguistico di grandi dimensioni.

Vedi anche insieme di risposte.

ottimizzazione dei prompt

#generativeAI

Un meccanismo di ottimizzazione efficiente dei parametri che apprende un "prefisso" che il sistema antepone al prompt effettivo.

Una variante della messa a punto del prompt, a volte chiamata messa a punto del prefisso, consiste nell'anteporre il prefisso a ogni livello. Al contrario, la maggior parte della messa a punto dei prompt aggiunge solo un prefisso al livello di input.

Fai clic sull'icona per scoprire di più sui prefissi.

Per la messa a punto dei prompt, il "prefisso" (noto anche come "soft prompt") è un insieme di vettori appresi e specifici per l'attività anteposti agli incorporamenti dei token di testo del prompt effettivo. Il sistema apprende il soft prompt congelando tutti gli altri parametri del modello e ottimizzando un'attività specifica.

proxy (attributi sensibili)

#responsible

Un attributo utilizzato come sostituto di un attributo sensibile. Ad esempio, il codice postale di una persona potrebbe essere utilizzato come proxy per il suo reddito, la sua razza o la sua etnia.

proxy labels

#fundamentals

Dati utilizzati per approssimare le etichette non direttamente disponibili in un set di dati.

Ad esempio, supponiamo di dover addestrare un modello per prevedere il livello di stress dei dipendenti. Il tuo set di dati contiene molte funzionalità predittive, ma non contiene un'etichetta denominata livello di stress. Senza scoraggiarti, scegli "incidenti sul lavoro" come etichetta proxy per il livello di stress. Dopo tutto, i dipendenti sotto forte stress sono coinvolti in più incidenti rispetto a quelli tranquilli. O no? Forse gli incidenti sul lavoro aumentano e diminuiscono per diversi motivi.

Come secondo esempio, supponiamo che tu voglia che sta piovendo? sia un'etichetta booleana per il tuo set di dati, ma il tuo set di dati non contiene dati sulle precipitazioni. Se sono disponibili fotografie, potresti stabilire immagini di persone che portano ombrelli come etichetta proxy per sta piovendo? È un'etichetta proxy valida? Probabilmente, ma le persone di alcune culture potrebbero portare con sé l'ombrello più per proteggersi dal sole che dalla pioggia.

Le etichette proxy spesso non sono perfette. Se possibile, scegli etichette reali anziché etichette proxy. Detto questo, quando un'etichetta effettiva è assente, scegli l'etichetta proxy con molta attenzione, selezionando il candidato meno orribile.

Per saperne di più, consulta Set di dati: etichette in Machine Learning Crash Course.

funzione pura

Una funzione i cui output si basano solo sui suoi input e che non ha effetti collaterali. Nello specifico, una funzione pura non utilizza né modifica alcuno stato globale, come il contenuto di un file o il valore di una variabile al di fuori della funzione.

Le funzioni pure possono essere utilizzate per creare codice thread-safe, il che è utile quando si esegue lo sharding del codice del modello su più chip di accelerazione.

I metodi di trasformazione delle funzioni di JAX richiedono che le funzioni di input siano pure.

Q

Funzione Q

Nell'apprendimento per rinforzo, la funzione che prevede il rendimento previsto dall'esecuzione di un'azione in uno stato e dal rispetto di una determinata norma.

La funzione Q è nota anche come funzione di valore stato-azione.

Q-learning

Nel reinforcement learning, un algoritmo che consente a un agente di apprendere la funzione Q ottimale di un processo decisionale di Markov applicando l'equazione di Bellman. Il processo decisionale di Markov modella un ambiente.

quantile

Ogni bucket nel raggruppamento per quantili.

bucketing quantile

Distribuzione dei valori di una caratteristica in bucket in modo che ogni bucket contenga lo stesso numero (o quasi) di esempi. Ad esempio, la figura seguente divide 44 punti in 4 bucket, ognuno dei quali contiene 11 punti. Affinché ogni bucket della figura contenga lo stesso numero di punti, alcuni bucket coprono una larghezza diversa di valori x.

44 punti dati suddivisi in 4 bucket da 11 punti ciascuno.
Sebbene ogni bucket contenga lo stesso numero di punti dati,
alcuni bucket contengono una gamma più ampia di valori delle funzionalità rispetto ad altri
bucket.

Per saperne di più, consulta la sezione Dati numerici: binning di Machine Learning Crash Course.

quantizzazione

Termine sovraccarico che può essere utilizzato in uno dei seguenti modi:

Implementazione del raggruppamento per quantili su una determinata funzionalità.
Trasformare i dati in zeri e uno per archiviarli, addestrarli e dedurli più rapidamente. Poiché i dati booleani sono più resistenti al rumore e agli errori rispetto ad altri formati, la quantizzazione può migliorare la correttezza del modello. Le tecniche di quantizzazione includono arrotondamento, troncamento e binning.
Riduzione del numero di bit utilizzati per memorizzare i parametri di un modello. Ad esempio, supponiamo che i parametri di un modello siano memorizzati come numeri in virgola mobile a 32 bit. La quantizzazione converte questi parametri da 32 bit a 4, 8 o 16 bit. La quantizzazione riduce quanto segue:
- Utilizzo di calcolo, memoria, disco e rete
- Tempo per dedurre una previsione
- Consumo energetico
Tuttavia, a volte la quantizzazione riduce la correttezza delle previsioni di un modello.

coda

#TensorFlow

Un'operazione TensorFlow che implementa una struttura di dati di coda. Utilizzato in genere in I/O.

R

RAG

#fundamentals

Abbreviazione di retrieval-augmented generation.

foresta casuale

#df

Un ensemble di alberi decisionali in cui ogni albero decisionale viene addestrato con un rumore casuale specifico, ad esempio il bagging.

Le foreste casuali sono un tipo di foresta decisionale.

Per ulteriori informazioni, consulta la sezione Random Forest del corso Decision Forests.

norma casuale

Nell'apprendimento per rinforzo, una policy che sceglie un'azione in modo casuale.

rank (ordinality)

La posizione ordinale di una classe in un problema di machine learning che categorizza le classi dalla più alta alla più bassa. Ad esempio, un sistema di classificazione del comportamento potrebbe classificare le ricompense di un cane dalla più alta (una bistecca) alla più bassa (cavolo nero appassito).

rank (tensore)

#TensorFlow

Il numero di dimensioni in un Tensor. Ad esempio, uno scalare ha rango 0, un vettore ha rango 1 e una matrice ha rango 2.

Da non confondere con il ranking (ordinalità).

ranking

Un tipo di apprendimento supervisionato il cui obiettivo è ordinare un elenco di elementi.

valutatore

#fundamentals

Una persona che fornisce etichette per gli esempi. "Annotatore" è un altro nome per valutatore.

Per saperne di più, consulta Dati categorici: problemi comuni in Machine Learning Crash Course.

richiamo

#fundamentals

#Metric

Una metrica per i modelli di classificazione che risponde alla seguente domanda:

Quando la verità di riferimento era la classe positiva, quale percentuale di previsioni il modello ha identificato correttamente come classe positiva?

Ecco la formula:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

dove:

vero positivo significa che il modello ha previsto correttamente la classe positiva.
Un falso negativo significa che il modello ha previsto erroneamente la classe negativa.

Ad esempio, supponiamo che il modello abbia effettuato 200 previsioni su esempi per i quali i dati empirici reali erano la classe positiva. Di queste 200 previsioni:

180 erano veri positivi.
20 erano falsi negativi.

In questo caso:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

Fai clic sull'icona per visualizzare le note sui set di dati con classi sbilanciate.

Il richiamo è particolarmente utile per determinare il potere predittivo dei modelli di classificazione in cui la classe positiva è rara. Ad esempio, considera un set di dati con sbilanciamento di classe in cui la classe positiva per una determinata malattia si verifica solo in 10 pazienti su un milione. Supponiamo che il tuo modello faccia 5 milioni di previsioni che producono i seguenti risultati:

30 veri positivi
20 falsi negativi
4.999.000 veri negativi
950 falsi positivi

Il richiamo di questo modello è quindi:

recall = TP / (TP + FN)
recall = 30 / (30 + 20) = 0.6 = 60%

Al contrario, l'accuratezza di questo modello è:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

Questo valore elevato di accuratezza sembra impressionante, ma è essenzialmente privo di significato. Il richiamo è una metrica molto più utile per i set di dati con classi sbilanciate rispetto all'accuratezza.

Per saperne di più, consulta Classificazione: accuratezza, richiamo, precisione e metriche correlate.

richiamo a k (recall@k)

#Metric

Una metrica per valutare i sistemi che restituiscono un elenco classificato (ordinato) di elementi. Il richiamo a k identifica la frazione di elementi pertinenti nei primi k elementi di questo elenco rispetto al numero totale di elementi pertinenti restituiti.

\[\text{recall at k} = \frac{\text{relevant items in first k items of the list}} {\text{total number of relevant items in the list}}\]

Contrasto con la precisione a k.

Fai clic sull'icona per visualizzare un esempio.

Supponiamo che a un modello linguistico di grandi dimensioni venga fornita la seguente query:

List the 10 funniest movies of all time in order.

Il modello linguistico di grandi dimensioni restituisce l'elenco mostrato nelle prime due colonne:

Posizione	Film	Pertinente?
1	The General	Sì
2	Mean Girls	Sì
3	Platoon	No
4	Le amiche della sposa	Sì
5	This is Spinal Tap	Sì
6	Aereo!	Sì
7	Groundhog Day	Sì
8	Monty Python e il Santo Graal	Sì
9	Oppenheimer	No
10	Ragazze a Beverly Hills	Sì

Otto dei film nell'elenco precedente sono molto divertenti, quindi sono "elementi pertinenti nell'elenco". Pertanto, 8 sarà il denominatore in tutti i calcoli del richiamo a k. E il numeratore? Beh, 3 dei primi 4 elementi sono pertinenti, quindi il richiamo a 4 è:

$$\text{recall at 4} = \frac{\text{3}} {\text{8}} = 0.375$$

7 degli 8 film sono molto divertenti, quindi il richiamo all'8° film è:

$$\text{recall at 8} = \frac{\text{7}} {\text{8}} = 0.875$$

sistema di suggerimenti

Un sistema che seleziona per ogni utente un insieme relativamente piccolo di elementi desiderabili da un corpus di grandi dimensioni. Ad esempio, un sistema di consigli sui video potrebbe consigliare due video da un corpus di 100.000 video, selezionando Casablanca e The Philadelphia Story per un utente e Wonder Woman e Black Panther per un altro. Un sistema di consigli sui video potrebbe basare i suoi consigli su fattori quali:

Film che utenti simili hanno valutato o guardato.
Genere, registi, attori, gruppo demografico target…

Per saperne di più, consulta il corso sui sistemi di raccomandazione.

Unità lineare rettificata (ReLU)

#fundamentals

Una funzione di attivazione con il seguente comportamento:

Se l'input è negativo o zero, l'output è 0.
Se l'input è positivo, l'output è uguale all'input.

Ad esempio:

Se l'input è -3, l'output è 0.
Se l'input è +3, l'output è 3.0.

Ecco un grafico della ReLU:

ReLU è una funzione di attivazione molto popolare. Nonostante il suo comportamento semplice, ReLU consente comunque a una rete neurale di apprendere relazioni non lineari tra le funzionalità e l'etichetta.

rete neurale ricorrente

Una rete neurale che viene eseguita intenzionalmente più volte, in cui parti di ogni esecuzione vengono inserite nell'esecuzione successiva. Nello specifico, i livelli nascosti dell'esecuzione precedente forniscono parte dell'input allo stesso livello nascosto nell'esecuzione successiva. Le reti neurali ricorrenti sono particolarmente utili per valutare le sequenze, in modo che gli strati nascosti possano apprendere dalle esecuzioni precedenti della rete neurale sulle parti precedenti della sequenza.

Ad esempio, la figura seguente mostra una rete neurale ricorrente che viene eseguita quattro volte. Tieni presente che i valori appresi nei livelli nascosti della prima esecuzione diventano parte dell'input degli stessi livelli nascosti nella seconda esecuzione. Allo stesso modo, i valori appresi nel livello nascosto della seconda esecuzione diventano parte dell'input dello stesso livello nascosto nella terza esecuzione. In questo modo, la rete neurale ricorrente si addestra gradualmente e prevede il significato dell'intera sequenza anziché solo il significato delle singole parole.

Una RNN che viene eseguita quattro volte per elaborare quattro parole di input.

testo di riferimento

#generativeAI

La risposta di un esperto a un prompt. Ad esempio, dato il seguente prompt:

Traduci la domanda "Come ti chiami?" dall'inglese al francese.

La risposta di un esperto potrebbe essere:

Comment vous appelez-vous?

Varie metriche (come ROUGE) misurano il grado di corrispondenza tra il testo di riferimento e il testo generato di un modello ML.

introspezione

#generativeAI

Strategia per migliorare la qualità di un flusso di lavoro autonomo esaminando (riflettendo su) l'output di un passaggio prima di passarlo al passaggio successivo.

L'esaminatore è spesso lo stesso LLM che ha generato la risposta (anche se potrebbe essere un LLM diverso). In che modo lo stesso LLM che ha generato una risposta può essere un giudice imparziale della propria risposta? Il "trucco" è mettere l'LLM in una mentalità critica (riflessiva). Questo processo è analogo a quello di uno scrittore che utilizza una mentalità creativa per scrivere una prima bozza e poi passa a una mentalità critica per modificarla.

Ad esempio, immagina un flusso di lavoro agentico il cui primo passaggio è creare testo per le tazze da caffè. Il prompt per questo passaggio potrebbe essere:

Sei un creativo. Genera un testo umoristico e originale di meno di 50 caratteri adatto a una tazza da caffè.

Ora immagina il seguente prompt riflessivo:

Sei un bevitore di caffè. Trovi divertente la risposta precedente?

Il flusso di lavoro potrebbe quindi passare alla fase successiva solo il testo che riceve un punteggio di riflessione elevato.

modello di regressione

#fundamentals

Informalmente, un modello che genera una previsione numerica. Al contrario, un modello di classificazione genera una previsione di classe. Ad esempio, i seguenti sono tutti modelli di regressione:

Un modello che prevede il valore di una determinata casa in euro, ad esempio 423.000.
Un modello che prevede l'aspettativa di vita di un determinato albero in anni, ad esempio 23,2.
Un modello che prevede la quantità di pioggia in centimetri che cadrà in una determinata città nelle sei ore successive, ad esempio 0,18.

Due tipi comuni di modelli di regressione sono:

Regressione lineare, che trova la linea che meglio si adatta ai valori delle etichette alle caratteristiche.
Regressione logistica, che genera una probabilità compresa tra 0.0 e 1.0 che un sistema in genere mappa a una previsione di classe.

Non tutti i modelli che restituiscono previsioni numeriche sono modelli di regressione. In alcuni casi, una previsione numerica è in realtà solo un modello di classificazione che ha nomi di classe numerici. Ad esempio, un modello che prevede un codice postale numerico è un modello di classificazione, non un modello di regressione.

regolarizzazione

#fundamentals

Qualsiasi meccanismo che riduce l'overfitting. I tipi più comuni di regolarizzazione includono:

Regolarizzazione L₁
Regolarizzazione _L2
Regolarizzazione dropout
Interruzione anticipata (non è un metodo di regolarizzazione formale, ma può limitare efficacemente l'overfitting)

La regolarizzazione può anche essere definita come la penalità per la complessità di un modello.

Fai clic sull'icona per ulteriori note.

La regolarizzazione è controintuitiva. L'aumento della regolarizzazione di solito aumenta la perdita di addestramento, il che è strano perché, beh, l'obiettivo non è minimizzare la perdita di addestramento?

In realtà no. L'obiettivo non è minimizzare la perdita di addestramento. L'obiettivo è fare previsioni eccellenti su esempi reali. È interessante notare che, anche se l'aumento della regolarizzazione incrementa la perdita di addestramento, di solito aiuta i modelli a fare previsioni migliori su esempi reali.

Per saperne di più, consulta Overfitting: complessità del modello in Machine Learning Crash Course.

tasso di regolarizzazione

#fundamentals

Un numero che specifica l'importanza relativa della regolarizzazione durante l'addestramento. L'aumento del tasso di regolarizzazione riduce l'overfitting, ma potrebbe ridurre il potere predittivo del modello. Al contrario, la riduzione o l'omissione del tasso di regolarizzazione aumenta l'overfitting.

Fai clic sull'icona per visualizzare i calcoli.

Il tasso di regolarizzazione è in genere rappresentato dalla lettera greca lambda. La seguente equazione semplificata della perdita mostra l'influenza di lambda:

$$\text{minimize(loss function + }\lambda\text{(regularization))}$$

dove regolarizzazione è qualsiasi meccanismo di regolarizzazione, tra cui:

Regolarizzazione L₁
Regolarizzazione _L2

Per saperne di più, consulta Overfitting: regolarizzazione L2 in Machine Learning Crash Course.

reinforcement learning (RL)

Una famiglia di algoritmi che apprendono una policy ottimale, il cui obiettivo è massimizzare il rendimento quando interagisce con un ambiente. Ad esempio, la ricompensa finale della maggior parte dei giochi è la vittoria. I sistemi di apprendimento per rinforzo possono diventare esperti nel giocare a giochi complessi valutando sequenze di mosse precedenti che hanno portato a vittorie e sequenze che hanno portato a sconfitte.

Apprendimento per rinforzo con feedback umano (RLHF)

#generativeAI

Utilizzo del feedback dei valutatori umani per migliorare la qualità delle risposte di un modello. Ad esempio, un meccanismo RLHF può chiedere agli utenti di valutare la qualità della risposta di un modello con un'emoji 👍 o 👎. Il sistema può quindi adeguare le risposte future in base a questo feedback.

ReLU

#fundamentals

Abbreviazione di Rectified Linear Unit.

replay buffer

Negli algoritmi simili a DQN, la memoria utilizzata dall'agente per memorizzare le transizioni di stato da utilizzare nella replay dell'esperienza.

Cloud SQL

Una copia (o parte di) di un set di addestramento o di un modello, in genere archiviata su un'altra macchina. Ad esempio, un sistema potrebbe utilizzare la seguente strategia per implementare il parallelismo dei dati:

Posiziona le repliche di un modello esistente su più macchine.
Invia diversi sottoinsiemi del set di addestramento a ogni replica.
Aggrega gli aggiornamenti dei parametri.

Una replica può anche fare riferimento a un'altra copia di un server di inferenza. L'aumento del numero di repliche aumenta il numero di richieste che il sistema può gestire simultaneamente, ma anche i costi di pubblicazione.

bias di segnalazione

#responsible

Il fatto che la frequenza con cui le persone scrivono di azioni, risultati o proprietà non riflette la loro frequenza nel mondo reale o il grado in cui una proprietà è caratteristica di una classe di individui. Il bias di segnalazione può influenzare la composizione dei dati da cui apprendono i sistemi di machine learning.

Ad esempio, nei libri la parola rise è più frequente di breathed. Un modello di machine learning che stima la frequenza relativa di risate e respirazione da un corpus di libri probabilmente determinerebbe che le risate sono più comuni della respirazione.

Per saperne di più, consulta Equità: tipi di bias in Machine Learning Crash Course.

vettoriale prima che arrivassero

Il processo di mappatura dei dati in funzionalità utili.

riposizionamento

La fase finale di un sistema di consigli, durante la quale gli elementi con punteggio possono essere riclassificati in base a un altro algoritmo (in genere non ML). Il ranking valuta l'elenco degli elementi generati dalla fase di assegnazione del punteggio, intraprendendo azioni quali:

Eliminando gli articoli che l'utente ha già acquistato.
Aumenta il punteggio degli elementi più recenti.

Per saperne di più, consulta la sezione Riorganizzazione del corso sui sistemi di raccomandazione.

risposta

#generativeAI

Il testo, le immagini, l'audio o il video che un modello di AI generativa inferisce. In altre parole, un prompt è l'input di un modello di AI generativa e la risposta è l'output.

set di risposte

#generativeAI

L'insieme di risposte che un modello linguistico di grandi dimensioni restituisce a un insieme di prompt.

Retrieval-Augmented Generation (RAG)

#fundamentals

Una tecnica per migliorare la qualità dell'output di un modello linguistico di grandi dimensioni (LLM) basandolo su fonti di conoscenza recuperate dopo l'addestramento del modello. La RAG migliora l'accuratezza delle risposte dell'LLM fornendo all'LLM addestrato l'accesso alle informazioni recuperate da knowledge base o documenti attendibili.

I motivi più comuni per utilizzare la generazione aumentata dal recupero includono:

Aumentare l'accuratezza oggettiva delle risposte generate da un modello.
Consentire al modello di accedere a conoscenze su cui non è stato addestrato.
Modifica delle conoscenze utilizzate dal modello.
Consentire al modello di citare le fonti.

Ad esempio, supponiamo che un'app di chimica utilizzi l'API PaLM per generare riepiloghi relativi alle query degli utenti. Quando il backend dell'app riceve una query, esegue le seguenti operazioni:

Cerca ("recupera") i dati pertinenti alla query dell'utente.
Aggiunge ("aumenta") i dati chimici pertinenti alla query dell'utente.
Indica al modello LLM di creare un riepilogo in base ai dati aggiunti.

invio

Nell'apprendimento per rinforzo, data una determinata norma e un determinato stato, il rendimento è la somma di tutte le ricompense che l'agente prevede di ricevere seguendo la norma dallo stato alla fine dell'episodio. L'agente tiene conto della natura ritardata dei premi previsti scontando i premi in base alle transizioni di stato necessarie per ottenere il premio.

Pertanto, se il fattore di sconto è $\gamma$e $r_0, \ldots, r_{N}$ indica i premi fino alla fine dell'episodio, il calcolo del rendimento è il seguente:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

premio

Nell'apprendimento per rinforzo, il risultato numerico dell'esecuzione di un'azione in uno stato, come definito dall'ambiente.

regolarizzazione ridge

Sinonimo di regolarizzazione L₂. Il termine regolarizzazione ridge viene utilizzato più spesso in contesti di statistica pura, mentre regolarizzazione L₂ viene utilizzato più spesso nel machine learning.

RNN

Abbreviazione di reti neurali ricorrenti.

Curva ROC (caratteristica operativa del ricevitore)

#fundamentals

#Metric

Un grafico della percentuale di veri positivi rispetto alla percentuale di falsi positivi per diverse soglie di classificazione nella classificazione binaria.

La forma di una curva ROC suggerisce la capacità di un modello di classificazione binaria di separare le classi positive da quelle negative. Supponiamo, ad esempio, che un modello di classificazione binaria separi perfettamente tutte le classi negative da tutte le classi positive:

Una retta numerica con 8 esempi positivi sul lato destro e
7 esempi negativi sul lato sinistro.

La curva ROC per il modello precedente ha il seguente aspetto:

Una curva ROC. L'asse x è la percentuale di falsi positivi e l'asse y
è la percentuale di veri positivi. La curva ha una forma a L invertita. La curva
inizia da (0.0,0.0) e sale direttamente fino a (0.0,1.0). Poi la curva
va da (0.0,1.0) a (1.0,1.0).

Al contrario, il grafico dell'illustrazione seguente mostra i valori di regressione logistica grezzi per un modello pessimo che non riesce a separare le classi negative da quelle positive:

Una retta numerica con esempi positivi e classi negative
completamente mescolati.

La curva ROC per questo modello ha il seguente aspetto:

Una curva ROC, che in realtà è una linea retta da (0.0,0.0)
a (1.0,1.0).

Nel frattempo, nel mondo reale, la maggior parte dei modelli di classificazione binaria separa le classi positive e negative in una certa misura, ma di solito non in modo perfetto. Pertanto, una curva ROC tipica si trova a metà tra i due estremi:

Una curva ROC. L'asse x è la percentuale di falsi positivi e l'asse y
è la percentuale di veri positivi. La curva ROC approssima un arco instabile
che attraversa i punti cardinali da ovest a nord.

Il punto su una curva ROC più vicino a (0.0,1.0) identifica teoricamente la soglia di classificazione ideale. Tuttavia, diversi altri problemi del mondo reale influenzano la selezione della soglia di classificazione ideale. Ad esempio, forse i falsi negativi causano molto più dolore dei falsi positivi.

Una metrica numerica chiamata AUC riassume la curva ROC in un singolo valore in virgola mobile.

richiesta di ruolo

#generativeAI

Un prompt, che in genere inizia con il pronome tu, che dice a un modello di IA generativa di fingere di essere una determinata persona o un determinato ruolo quando genera la risposta. I prompt di ruolo possono aiutare un modello di AI generativa a entrare nel giusto "stato mentale" per generare una risposta più utile. Ad esempio, a seconda del tipo di risposta che cerchi, potrebbe essere appropriato uno dei seguenti prompt per i ruoli:

Hai un dottorato in informatica.

Sei un ingegnere software che ama fornire spiegazioni dettagliate su Python ai nuovi studenti di programmazione.

Sei un eroe d'azione con un insieme molto particolare di competenze di programmazione. Assicurami che troverai un determinato elemento in un elenco Python.

root

#df

Il nodo iniziale (la prima condizione) in un albero decisionale. Per convenzione, i diagrammi posizionano la radice nella parte superiore dell'albero decisionale. Ad esempio:

Un albero decisionale con due condizioni e tre foglie. La
condizione iniziale (x > 2) è la radice.

directory root

#TensorFlow

La directory che specifichi per ospitare le sottodirectory dei file di checkpoint ed eventi TensorFlow di più modelli.

Errore quadratico medio (RMSE)

#fundamentals

#Metric

La radice quadrata dell'errore quadratico medio.

invarianza rotazionale

In un problema di classificazione delle immagini, la capacità di un algoritmo di classificare correttamente le immagini anche quando l'orientamento dell'immagine cambia. Ad esempio, l'algoritmo può comunque identificare una racchetta da tennis sia che sia rivolta verso l'alto, di lato o verso il basso. Tieni presente che l'invarianza rotazionale non è sempre auspicabile; ad esempio, un 9 capovolto non deve essere classificato come 9.

Vedi anche invarianza traslazionale e invarianza di scala.

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

#Metric

Una famiglia di metriche che valutano i modelli di riepilogo automatico e di traduzione automatica. Le metriche ROUGE determinano il grado di sovrapposizione di un testo di riferimento con il testo generato di un modello di ML. Ogni membro della famiglia ROUGE misura la sovrapposizione in modo diverso. Punteggi ROUGE più elevati indicano una maggiore somiglianza tra il testo di riferimento e il testo generato rispetto a punteggi ROUGE più bassi.

Ogni membro della famiglia ROUGE genera in genere le seguenti metriche:

Precisione
Richiamo
F₁

Per dettagli ed esempi, vedi:

ROUGE-L
ROUGE-N
ROUGE-S

ROUGE-L

#Metric

Un membro della famiglia ROUGE incentrato sulla lunghezza della sottosequenza comune più lunga nel testo di riferimento e nel testo generato. Le seguenti formule calcolano il richiamo e la precisione per ROUGE-L:

$$\text{ROUGE-L recall} = \frac{\text{longest common sequence}} {\text{number of words in the reference text} }$$

$$\text{ROUGE-L precision} = \frac{\text{longest common sequence}} {\text{number of words in the generated text} }$$

Puoi quindi utilizzare F₁ per riepilogare il richiamo ROUGE-L e la precisione ROUGE-L in un'unica metrica:

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{ROUGE-L recall} * \text{ROUGE-L precision}} {\text{ROUGE-L recall} + \text{ROUGE-L precision} }$$

Fai clic sull'icona per un esempio di calcolo di ROUGE-L.

Prendi in esame il seguente testo di riferimento e il testo generato.

Categoria	Chi ha prodotto?	Testo
Testo di riferimento	Traduttore umano	Voglio capire una vasta gamma di cose.
Testo generato	Modello ML	Voglio imparare tante cose.

Pertanto:

La sottosequenza comune più lunga è 5 (I want to of things)
Il numero di parole nel testo di riferimento è 9.
Il numero di parole nel testo generato è 7.

Di conseguenza:

$$\text{ROUGE-L recall} = \frac{\text{5}} {\text{9} } = 0.56$$

$$\text{ROUGE-L precision} = \frac{\text{5}} {\text{7} } = 0.71$$

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{0.56} * \text{0.71}} {\text{0.56} + \text{0.71} } = 0.63$$

ROUGE-L ignora i nuovi caratteri di fine riga nel testo di riferimento e nel testo generato, quindi la sottosequenza comune più lunga può attraversare più frasi. Quando il testo di riferimento e il testo generato coinvolgono più frasi, una variante di ROUGE-L chiamata ROUGE-Lsum è generalmente una metrica migliore. ROUGE-Lsum determina la sottosequenza comune più lunga per ogni frase in un passaggio e poi calcola la media di queste sottosequenze comuni più lunghe.

Fai clic sull'icona per un esempio di calcolo di ROUGE-Lsum.

Prendi in esame il seguente testo di riferimento e il testo generato.

Categoria	Chi ha prodotto?	Testo
Testo di riferimento	Traduttore umano	La superficie di Marte è arida. Quasi tutta l'acqua si trova in profondità nel sottosuolo.
Testo generato	Modello ML	Marte ha una superficie asciutta. Tuttavia, la stragrande maggioranza dell'acqua si trova sottoterra.

Pertanto:

	Prima frase	Seconda frase
Sequenza comune più lunga	2 (Marte secco)	3 (l'acqua è sottoterra)
Lunghezza della frase del testo di riferimento	6	7
Lunghezza delle frasi del testo generato	5	8

Di conseguenza:

$$\text{recall of first sentence} = \frac{\text{2}} {\text{6}} = 0.33 $$

$$\text{recall of second sentence} = \frac{\text{3}} {\text{7}} = 0.43 $$

$$\text{ROUGE-Lsum recall} = \frac{\text{0.33} + \text{0.43}} {\text{2}} = 0.38 $$

$$\text{precision of first sentence} = \frac{\text{2}} {\text{5}} = 0.4 $$

$$\text{precision of second sentence} = \frac{\text{3}} {\text{8}} = 0.38 $$

$$\text{ROUGE-Lsum precision} = \frac{\text{0.4} + \text{0.38}} {\text{2}} = 0.39 $$

$$\text{ROUGE-Lsum F}{_1} = \frac{\text{2} * \text{0.38} * \text{0.39}} {\text{0.38} + \text{0.39}} = 0.38 $$

ROUGE-N

#Metric

Un insieme di metriche della famiglia ROUGE che confronta gli N-grammi condivisi di una determinata dimensione nel testo di riferimento e nel testo generato. Ad esempio:

ROUGE-1 misura il numero di token condivisi nel testo di riferimento e nel testo generato.
ROUGE-2 misura il numero di bigrammi (2-grammi) nel testo di riferimento e nel testo generato.
ROUGE-3 misura il numero di trigrammi (3-grammi) nel testo di riferimento e nel testo generato.

Puoi utilizzare le seguenti formule per calcolare il richiamo ROUGE-N e la precisione ROUGE-N per qualsiasi membro della famiglia ROUGE-N:

$$\text{ROUGE-N recall} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the reference text} }$$

$$\text{ROUGE-N precision} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the generated text} }$$

Puoi quindi utilizzare F₁ per riepilogare il richiamo ROUGE-N e la precisione ROUGE-N in un'unica metrica:

$$\text{ROUGE-N F}{_1} = \frac{\text{2} * \text{ROUGE-N recall} * \text{ROUGE-N precision}} {\text{ROUGE-N recall} + \text{ROUGE-N precision} }$$

Fai clic sull'icona per un esempio.

Supponiamo che tu decida di utilizzare ROUGE-2 per misurare l'efficacia della traduzione di un modello ML rispetto a quella di un traduttore umano.

Categoria	Chi ha prodotto?	Testo	Bigrammi
Testo di riferimento	Traduttore umano	Voglio capire una vasta gamma di cose.	I want, want to, to understand, understand a, a wide, wide variety, variety of, of things
Testo generato	Modello ML	Voglio imparare tante cose.	I want, want to, to learn, learn plenty, plenty of, of things

Pertanto:

Il numero di 2-grammi corrispondenti è 3 (I want, want to e of things).
Il numero di 2-grammi nel testo di riferimento è 8.
Il numero di 2-grammi nel testo generato è 6.

Di conseguenza:

$$\text{ROUGE-2 recall} = \frac{\text{3}} {\text{8} } = 0.375$$

$$\text{ROUGE-2 precision} = \frac{\text{3}} {\text{6} } = 0.5$$

$$\text{ROUGE-2 F}{_1} = \frac{\text{2} * \text{0.375} * \text{0.5}} {\text{0.375} + \text{0.5} } = 0.43$$

ROUGE-S

#Metric

Una forma di ROUGE-N che consente la corrispondenza di skip-gram. ovvero ROUGE-N conta solo gli n-grammi che corrispondono esattamente, mentre ROUGE-S conta anche gli n-grammi separati da una o più parole. Ad esempio, prendi in considerazione quanto indicato di seguito.

reference text: White clouds
Testo generato: White billowing clouds

Quando viene calcolato ROUGE-N, il 2-gramma White clouds non corrisponde a White billowing clouds. Tuttavia, quando si calcola ROUGE-S, Nuvole bianche corrisponde a Nuvole bianche e gonfie.

R al quadrato

#Metric

Una metrica di regressione che indica la variazione di un'etichetta dovuta a una singola caratteristica o a un insieme di caratteristiche. R al quadrato è un valore compreso tra 0 e 1, che puoi interpretare nel seguente modo:

Un valore R quadrato pari a 0 indica che nessuna variazione di un'etichetta è dovuta al set di funzionalità.
Un valore R quadrato pari a 1 indica che tutta la variazione di un'etichetta è dovuta al set di funzionalità.
Un valore R quadrato compreso tra 0 e 1 indica la misura in cui la variazione dell'etichetta può essere prevista da una determinata caratteristica o dal set di caratteristiche. Ad esempio, un valore R quadrato di 0,10 significa che il 10% della varianza nell'etichetta è dovuto al set di funzionalità, un valore R quadrato di 0,20 significa che il 20% è dovuto al set di funzionalità e così via.

R al quadrato è il quadrato del coefficiente di correlazione Pearson tra i valori previsti da un modello e i dati empirici reali.

S

bias di campionamento

#responsible

Consulta la sezione Bias di selezione.

campionamento con reinserimento

#df

Un metodo di selezione di elementi da un insieme di elementi candidati in cui lo stesso elemento può essere selezionato più volte. La frase "con reintegro" significa che dopo ogni selezione, l'elemento selezionato viene restituito al pool di elementi candidati. Il metodo inverso, campionamento senza reinserimento, significa che un elemento candidato può essere scelto solo una volta.

Ad esempio, considera il seguente insieme di frutti:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Supponiamo che il sistema scelga casualmente fig come primo elemento. Se utilizzi il campionamento con reinserimento, il sistema sceglie il secondo elemento dal seguente insieme:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Sì, è lo stesso set di prima, quindi il sistema potrebbe potenzialmente scegliere di nuovo fig.

Se utilizzi il campionamento senza sostituzione, una volta scelto, un campione non può essere scelto di nuovo. Ad esempio, se il sistema sceglie in modo casuale fig come primo campione, fig non può essere scelto di nuovo. Pertanto, il sistema sceglie il secondo campione dal seguente insieme (ridotto):

fruit = {kiwi, apple, pear, cherry, lime, mango}

Fai clic sull'icona per ulteriori note.

La parola sostituzione in campionamento con reintegro confonde molte persone. In inglese, replacement significa "sostituzione". Tuttavia, il campionamento con reintegro utilizza la definizione francese di reintegro, che significa "rimettere qualcosa".

La parola inglese replacement viene tradotta con la parola francese remplacement.

SavedModel

#TensorFlow

Il formato consigliato per salvare e recuperare i modelli TensorFlow. SavedModel è un formato di serializzazione recuperabile e indipendente dal linguaggio, che consente a sistemi e strumenti di livello superiore di produrre, utilizzare e trasformare i modelli TensorFlow.

Per tutti i dettagli, consulta la sezione Salvataggio e ripristino della Guida per i programmatori di TensorFlow.

Economico

#TensorFlow

Un oggetto TensorFlow responsabile del salvataggio dei checkpoint del modello.

scalare

Un singolo numero o una singola stringa che può essere rappresentata come un tensore di rango 0. Ad esempio, le seguenti righe di codice creano ciascuna uno scalare in TensorFlow:

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

scalabilità

Qualsiasi trasformazione o tecnica matematica che sposta l'intervallo di un'etichetta, un valore di funzionalità o entrambi. Alcune forme di scalabilità sono molto utili per trasformazioni come la normalizzazione.

Le forme comuni di scalabilità utili nel machine learning includono:

il ridimensionamento lineare, che in genere utilizza una combinazione di sottrazione e divisione per sostituire il valore originale con un numero compreso tra -1 e +1 o tra 0 e 1.
scala logaritmica, che sostituisce il valore originale con il suo logaritmo.
Normalizzazione Z-score, che sostituisce il valore originale con un valore in virgola mobile che rappresenta il numero di deviazioni standard dalla media di quella caratteristica.

scikit-learn

Una piattaforma di machine learning open source molto diffusa. Visita scikit-learn.org.

calcolo punteggio

#Metric

La parte di un sistema di consigli che fornisce un valore o una classificazione per ogni elemento prodotto dalla fase di generazione dei candidati.

bias di selezione

#responsible

Errori nelle conclusioni tratte dai dati campionati a causa di un processo di selezione che genera differenze sistematiche tra i campioni osservati nei dati e quelli non osservati. Esistono i seguenti tipi di bias di selezione:

Bias di copertura: la popolazione rappresentata nel set di dati non corrisponde alla popolazione su cui il modello di machine learning sta facendo previsioni.
Bias di campionamento: i dati non vengono raccolti in modo casuale dal gruppo target.
Bias di mancata risposta (chiamato anche bias di partecipazione): gli utenti di determinati gruppi non partecipano ai sondaggi a tassi diversi rispetto agli utenti di altri gruppi.

Ad esempio, supponiamo di creare un modello di machine learning che preveda il gradimento di un film da parte delle persone. Per raccogliere i dati di addestramento, distribuisci un sondaggio a tutte le persone sedute nella prima fila di un cinema in cui viene proiettato il film. A prima vista, questo potrebbe sembrare un modo ragionevole per raccogliere un set di dati; tuttavia, questa forma di raccolta dei dati potrebbe introdurre le seguenti forme di bias di selezione:

bias di copertura: campionando una popolazione che ha scelto di vedere il film, le previsioni del modello potrebbero non essere generalizzabili alle persone che non hanno già espresso quel livello di interesse per il film.
distorsione del campionamento: anziché campionare in modo casuale dalla popolazione prevista (tutte le persone al cinema), hai campionato solo le persone in prima fila. È possibile che le persone sedute in prima fila fossero più interessate al film rispetto a quelle sedute in altre file.
Bias di mancata risposta: in generale, le persone con opinioni forti tendono a rispondere ai sondaggi facoltativi più spesso rispetto alle persone con opinioni moderate. Poiché il sondaggio sui film è facoltativo, le risposte hanno maggiori probabilità di formare una distribuzione bimodale rispetto a una distribuzione normale (a campana).

auto-attenzione (chiamato anche livello di auto-attenzione)

Un livello di rete neurale che trasforma una sequenza di embedding (ad esempio, embedding di token) in un'altra sequenza di embedding. Ogni incorporamento nella sequenza di output viene costruito integrando le informazioni degli elementi della sequenza di input tramite un meccanismo di attenzione.

La parte self di self-attention si riferisce alla sequenza che si occupa di se stessa piuttosto che di un altro contesto. L'auto-attenzione è uno dei principali elementi costitutivi dei Transformer e utilizza la terminologia di ricerca nel dizionario, come "query", "chiave" e "valore".

Un livello di auto-attenzione inizia con una sequenza di rappresentazioni di input, una per ogni parola. La rappresentazione di input per una parola può essere un semplice incorporamento. Per ogni parola in una sequenza di input, la rete valuta la pertinenza della parola rispetto a ogni elemento dell'intera sequenza di parole. I punteggi di pertinenza determinano in che misura la rappresentazione finale della parola incorpora le rappresentazioni di altre parole.

Ad esempio, considera la seguente frase:

L'animale non ha attraversato la strada perché era troppo stanco.

La seguente illustrazione (tratta da Transformer: A Novel Neural Network Architecture for Language Understanding) mostra il pattern di attenzione di un livello di auto-attenzione per il pronome it, con l'intensità di ogni linea che indica il contributo di ogni parola alla rappresentazione:

La seguente frase compare due volte: L'animale non ha attraversato la
strada perché era troppo stanco. Le linee collegano il pronome it in
una frase a cinque token (The, animal, street, it e
il punto) nell'altra frase. Il confine tra il pronome it
e la parola animal è più netto.

Il livello di auto-attenzione evidenzia le parole pertinenti a "it". In questo caso, il livello di attenzione ha imparato a evidenziare le parole a cui si potrebbe riferire, assegnando il peso più alto alla parola animale.

Per una sequenza di n token, l'auto-attenzione trasforma una sequenza di embedding n volte separate, una volta in ogni posizione della sequenza.

Consulta anche attenzione e auto-attenzione multi-testa.

apprendimento auto-supervisionato

Una famiglia di tecniche per convertire un problema di machine learning non supervisionato in un problema di machine learning supervisionato creando etichette surrogate da esempi non etichettati.

Alcuni modelli basati su Transformer, come BERT, utilizzano l'apprendimento auto-supervisionato.

L'addestramento auto-supervisionato è un approccio di apprendimento semi-supervisionato.

autoformazione

Una variante dell'apprendimento auto-supervisionato particolarmente utile quando si verificano tutte le seguenti condizioni:

Il rapporto tra esempi senza etichetta ed esempi con etichetta nel set di dati è elevato.
Si tratta di un problema di classificazione.

L'autoaddestramento funziona ripetendo i due passaggi seguenti finché il modello non smette di migliorare:

Utilizza l'apprendimento supervisionato per addestrare un modello sugli esempi etichettati.
Utilizza il modello creato nel passaggio 1 per generare previsioni (etichette) sugli esempi senza etichetta, spostando quelli con un'alta affidabilità negli esempi con etichetta con l'etichetta prevista.

Tieni presente che ogni iterazione del passaggio 2 aggiunge altri esempi etichettati per il passaggio 1 per l'addestramento.

apprendimento semi-supervisionato

Addestramento di un modello su dati in cui alcuni esempi di addestramento hanno etichette, ma altri no. Una tecnica per l'apprendimento semi-supervisionato consiste nell'inferire le etichette per gli esempi non etichettati e poi addestrare il modello con le etichette inferite per creare un nuovo modello. L'apprendimento semi-supervisionato può essere utile se le etichette sono costose da ottenere, ma gli esempi non etichettati sono abbondanti.

L'autoapprendimento è una tecnica di apprendimento semi-supervisionato.

attributo sensibile

#responsible

Un attributo umano a cui può essere data una considerazione speciale per motivi legali, etici, sociali o personali.

analisi del sentiment

Utilizzo di algoritmi statistici o di machine learning per determinare l'atteggiamento generale di un gruppo, positivo o negativo, nei confronti di un servizio, un prodotto, un'organizzazione o un argomento. Ad esempio, utilizzando la comprensione del linguaggio naturale, un algoritmo potrebbe eseguire l'analisi del sentiment sul feedback testuale di un corso universitario per determinare il grado di gradimento o meno degli studenti nei confronti del corso.

Per ulteriori informazioni, consulta la guida alla classificazione del testo.

sequence model

Un modello i cui input hanno una dipendenza sequenziale. Ad esempio, prevedere il prossimo video guardato da una sequenza di video guardati in precedenza.

attività da sequenza a sequenza

Un'attività che converte una sequenza di input di token in una sequenza di output di token. Ad esempio, due tipi comuni di attività di sequenza-sequenza sono:

Traduttori:
- Sequenza di input di esempio: "Ti voglio bene".
- Sequenza di output di esempio: "Je t'aime."
Question answering:
- Sequenza di input di esempio: "Mi servirà l'auto a New York City?"
- Sequenza di output di esempio: "No. Tieni l'auto a casa."

del modello.

Il processo di rendere disponibile un modello addestrato per fornire previsioni tramite inferenza online o inferenza offline.

shape (tensore)

Il numero di elementi in ogni dimensione di un tensore. La forma è rappresentata come un elenco di numeri interi. Ad esempio, il seguente tensore bidimensionale ha una forma di [3,4]:

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

TensorFlow utilizza il formato row-major (stile C) per rappresentare l'ordine delle dimensioni, motivo per cui la forma in TensorFlow è [3,4] anziché [4,3]. In altre parole, in un tensore TensorFlow bidimensionale, la forma è [numero di righe, numero di colonne].

Una forma statica è una forma del tensore nota al momento della compilazione.

Una forma dinamica è sconosciuta al momento della compilazione ed è quindi dipende dai dati di runtime. Questo tensore potrebbe essere rappresentato con una dimensione segnaposto in TensorFlow, come in [3, ?].

shard

#TensorFlow

#GoogleCloud

Una divisione logica del set di addestramento o del modello. In genere, un processo crea gli shard dividendo gli esempi o i parametri in blocchi (di solito) di dimensioni uguali. Ogni shard viene quindi assegnato a una macchina diversa.

Lo sharding di un modello è chiamato parallelismo dei modelli; lo sharding dei dati è chiamato parallelismo dei dati.

restringimento

#df

Un iperparametro nel gradient boosting che controlla l'overfitting. La contrazione nel boosting del gradiente è analoga al tasso di apprendimento nella discesa del gradiente. Il restringimento è un valore decimale compreso tra 0,0 e 1,0. Un valore di contrazione più basso riduce l'overfitting più di un valore di contrazione più alto.

valutazione affiancata

Confrontare la qualità di due modelli giudicando le loro risposte allo stesso prompt. Ad esempio, supponiamo che il seguente prompt venga fornito a due modelli diversi:

Crea un'immagine di un simpatico cane che fa giocoleria con tre palline.

In una valutazione affiancata, un valutatore sceglie l'immagine "migliore" (più accurata? Più bello? Più carino?).

funzione sigmoidea

#fundamentals

Una funzione matematica che "comprime" un valore di input in un intervallo vincolato, in genere da 0 a 1 o da -1 a +1. ovvero puoi passare qualsiasi numero (2, un milione, un miliardo negativo, quello che vuoi) a una sigmoide e l'output sarà comunque nell'intervallo vincolato. Un grafico della funzione di attivazione sigmoidea è il seguente:

La funzione sigmoide ha diversi utilizzi nel machine learning, tra cui:

Conversione dell'output non elaborato di un modello di regressione logistica o di regressione multinomiale in una probabilità.
che funge da funzione di attivazione in alcune reti neurali.

Fai clic sull'icona per visualizzare i calcoli.

La funzione sigmoidea su un numero di input x ha la seguente formula:

$$ sigmoid(x) = \frac{1}{1 + e^{-\text{x}}} $$

Nel machine learning, x è generalmente una somma ponderata.

misura di similarità

#clustering

#Metric

Negli algoritmi di clustering, la metrica utilizzata per determinare quanto sono simili due esempi.

singolo programma / più dati (SPMD)

Una tecnica di parallelismo in cui lo stesso calcolo viene eseguito su dati di input diversi in parallelo su dispositivi diversi. Lo scopo di SPMD è ottenere risultati più rapidamente. È lo stile più comune di programmazione parallela.

invarianza di scala

In un problema di classificazione delle immagini, la capacità di un algoritmo di classificare correttamente le immagini anche quando le dimensioni dell'immagine cambiano. Ad esempio, l'algoritmo può comunque identificare un gatto indipendentemente dal fatto che consumi 2 milioni di pixel o 200.000 pixel. Tieni presente che anche i migliori algoritmi di classificazione delle immagini hanno ancora limiti pratici di invarianza delle dimensioni. Ad esempio, è improbabile che un algoritmo (o un essere umano) classifichi correttamente un'immagine di un gatto che occupa solo 20 pixel.

Vedi anche invarianza traslazionale e invarianza rotazionale.

Per saperne di più, consulta il corso sul clustering.

schizzi

#clustering

Nell'apprendimento non supervisionato, una categoria di algoritmi che eseguono un'analisi preliminare della somiglianza sugli esempi. Gli algoritmi di sketching utilizzano una funzione hash sensibile alla località per identificare i punti che potrebbero essere simili e poi raggrupparli in bucket.

Lo schizzo riduce la quantità di calcoli necessari per i calcoli di similarità su set di dati di grandi dimensioni. Invece di calcolare la somiglianza per ogni singola coppia di esempi nel set di dati, la calcoliamo solo per ogni coppia di punti all'interno di ogni bucket.

skip-gram

Un n-gramma che può omettere (o "saltare") parole dal contesto originale, il che significa che le N parole potrebbero non essere state originariamente adiacenti. Più precisamente, un "k-skip-n-gramma" è un n-gramma per il quale è possibile saltare fino a k parole.

Ad esempio, "la rapida volpe marrone" ha i seguenti possibili bigrammi:

"the quick"
"quick brown"
"brown fox"

Un "1-skip-2-gram" è una coppia di parole tra cui è presente al massimo una parola. Pertanto, "la rapida volpe marrone" ha i seguenti 2-grammi con 1 skip:

"the brown"
"quick fox"

Inoltre, tutti i 2-grammi sono anche 1-skip-2-grammi, poiché è possibile saltare meno di una parola.

Gli skip-grammi sono utili per comprendere meglio il contesto circostante di una parola. Nell'esempio, "fox" è stato associato direttamente a "quick" nel set di 1-skip-2-grammi, ma non nel set di 2-grammi.

Gli skip-grammi aiutano ad addestrare i modelli di word embedding.

softmax

#fundamentals

Una funzione che determina le probabilità per ogni classe possibile in un modello di classificazione multiclasse. La somma delle probabilità è esattamente 1.0. Ad esempio, la tabella seguente mostra come la funzione softmax distribuisce varie probabilità:

L'immagine è un/una…	Probabilità
cane	0,85
gatto	,13
cavallo	0,02

Softmax è anche chiamata softmax completa.

Contrasta con il campionamento dei candidati.

Fai clic sull'icona per visualizzare i calcoli.

L'equazione softmax è la seguente:

$$\sigma_i = \frac{e^{\text{z}_i}} {\sum_{j=1}^{j=K} {e^{\text{z}_j}}} $$

dove:

$\sigma_i$ è il vettore di output. Ogni elemento del vettore di output specifica la probabilità di questo elemento. La somma di tutti gli elementi nel vettore di output è 1,0. Il vettore di output contiene lo stesso numero di elementi del vettore di input, $z$.
$z$ è il vettore di input. Ogni elemento del vettore di input contiene un valore in virgola mobile.
$K$ è il numero di elementi nel vettore di input (e nel vettore di output).

Ad esempio, supponiamo che il vettore di input sia:

[1.2, 2.5, 1.8]

Pertanto, softmax calcola il denominatore nel seguente modo:

$$\text{denominator} = e^{1.2} + e^{2.5} + e^{1.8} = 21.552$$

La probabilità softmax di ogni elemento è quindi:

$$\sigma_1 = \frac{e^{1.2}}{21.552} = 0.154 $$ $$\sigma_2 = \frac{e^{2.5}}{21.552} = 0.565 $$ $$\sigma_1 = \frac{e^{1.8}}{21.552} = 0.281 $$

Quindi, il vettore di output è:

$$\sigma = [0.154, 0.565, 0.281]$$

La somma dei tre elementi in $\sigma$ è 1.0. Finalmente.

Per saperne di più, consulta la sezione Reti neurali: classificazione multiclasse di Machine Learning Crash Course.

ottimizzazione dei prompt soft

#generativeAI

Una tecnica per ottimizzare un modello linguistico di grandi dimensioni per un'attività specifica, senza un'ottimizzazione che richieda molte risorse. Anziché riaddestrare tutti i pesi nel modello, la messa a punto del prompt soft regola automaticamente un prompt per raggiungere lo stesso obiettivo.

Dato un prompt testuale, l'ottimizzazione del soft prompt in genere aggiunge incorporamenti di token aggiuntivi al prompt e utilizza la retropropagazione per ottimizzare l'input.

Un prompt "hard" contiene token effettivi anziché incorporamenti di token.

caratteristica sparsa

#fundamentals

Una caratteristica i cui valori sono prevalentemente zero o vuoti. Ad esempio, una caratteristica contenente un singolo valore 1 e un milione di valori 0 è scarsa. Al contrario, una caratteristica densa ha valori che non sono prevalentemente zero o vuoti.

Nel machine learning, un numero sorprendente di caratteristiche sono caratteristiche sparse. Le caratteristiche categoriche sono in genere caratteristiche sparse. Ad esempio, delle 300 specie di alberi possibili in una foresta, un singolo esempio potrebbe identificare solo un acero. Oppure, tra i milioni di video possibili in una raccolta video, un singolo esempio potrebbe identificare solo "Casablanca".

In un modello, in genere le caratteristiche sparse vengono rappresentate con la codifica one-hot. Se la codifica one-hot è grande, potresti inserire un livello di incorporamento sopra la codifica one-hot per una maggiore efficienza.

rappresentazione sparsa

#fundamentals

Memorizzazione solo delle posizioni degli elementi diversi da zero in una funzionalità sparsa.

Ad esempio, supponiamo che una funzionalità categorica denominata species identifichi le 36 specie di alberi in una determinata foresta. Supponiamo inoltre che ogni esempio identifichi una sola specie.

Potresti utilizzare un vettore one-hot per rappresentare le specie di alberi in ogni esempio. Un vettore one-hot conterrebbe un singolo 1 (per rappresentare la particolare specie di albero nell'esempio) e 35 0 (per rappresentare le 35 specie di alberi non presenti nell'esempio). Pertanto, la rappresentazione one-hot di maple potrebbe avere un aspetto simile al seguente:

Un vettore in cui le posizioni da 0 a 23 contengono il valore 0, la posizione
24 contiene il valore 1 e le posizioni da 25 a 35 contengono il valore 0.

In alternativa, la rappresentazione sparsa identificherebbe semplicemente la posizione della specie in questione. Se maple si trova nella posizione 24, la rappresentazione sparsa di maple sarà semplicemente:

Tieni presente che la rappresentazione sparsa è molto più compatta di quella one-hot.

Fai clic sull'icona per un esempio leggermente più complesso.

Supponiamo che ogni esempio nel tuo modello debba rappresentare le parole, ma non l'ordine di queste parole, in una frase in inglese. L'inglese è composto da circa 170.000 parole, quindi è una funzionalità categorica con circa 170.000 elementi. La maggior parte delle frasi in inglese utilizza una frazione estremamente piccola di queste 170.000 parole, quindi l'insieme di parole in un singolo esempio sarà quasi certamente un insieme di dati sparsi.

Considera la seguente frase:

My dog is a great dog

Potresti utilizzare una variante del vettore one-hot per rappresentare le parole in questa frase. In questa variante, più celle del vettore possono contenere un valore diverso da zero. Inoltre, in questa variante, una cella può contenere un numero intero diverso da uno. Sebbene le parole "il mio", "è", "un" e "grande" compaiano solo una volta nella frase, la parola "cane" compare due volte. L'utilizzo di questa variante di vettori one-hot per rappresentare le parole in questa frase produce il seguente vettore di 170.000 elementi:

Una rappresentazione sparsa della stessa frase sarebbe semplicemente:

Fai clic sull'icona se hai dubbi.

Il termine "rappresentazione sparsa" confonde molte persone perché la rappresentazione sparsa non è un vettore sparso. La rappresentazione sparsa è in realtà una rappresentazione densa di un vettore sparso. La rappresentazione dell'indice del sinonimo è un po' più chiara di "rappresentazione sparsa".

Per saperne di più, consulta la sezione Lavorare con dati categorici in Machine Learning Crash Course.

vettore sparso

#fundamentals

Un vettore i cui valori sono per lo più zeri. Vedi anche funzionalità sparse e sparsità.

sparsità

#Metric

Il numero di elementi impostati su zero (o null) in un vettore o una matrice diviso per il numero totale di voci nel vettore o nella matrice. Ad esempio, considera una matrice di 100 elementi in cui 98 celle contengono zero. Il calcolo della sparsità è il seguente:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

La sparsità delle caratteristiche si riferisce alla sparsità di un vettore delle caratteristiche; la sparsità del modello si riferisce alla sparsità dei pesi del modello.

pooling spaziale

Consulta la sezione raggruppamento.

specificational coding

#generativeAI

Il processo di scrittura e manutenzione di un file in un linguaggio umano (ad esempio, l'inglese) che descrive il software. Puoi quindi chiedere a un modello di AI generativa o a un altro ingegnere software di creare il software che soddisfi questa descrizione.

Il codice generato automaticamente in genere richiede iterazioni. Nella codifica specificazionale, si itera sul file di descrizione. Al contrario, nella programmazione conversazionale, esegui iterazioni all'interno della casella del prompt. In pratica, la generazione automatica di codice a volte comporta una combinazione di codifica basata su specifiche e codifica conversazionale.

Spalato

#df

In un albero decisionale, un altro nome per una condizione.

splitter

#df

Durante l'addestramento di un albero decisionale, la routine (e l'algoritmo) responsabile della ricerca della migliore condizione in ogni nodo.

SPMD

Abbreviazione di programma singolo / dati multipli.

errore quadratico medio della cerniera

#Metric

Il quadrato della perdita hinge. La perdita hinge al quadrato penalizza i valori anomali in modo più severo rispetto alla perdita hinge normale.

perdita quadratica

#fundamentals

#Metric

Sinonimo di perdita _L2.

addestramento graduale

Una tattica di addestramento di un modello in una sequenza di fasi discrete. L'obiettivo può essere accelerare il processo di addestramento o ottenere una migliore qualità del modello.

Di seguito è riportata un'illustrazione dell'approccio di stacking progressivo:

La fase 1 contiene 3 livelli nascosti, la fase 2 ne contiene 6 e la fase 3 ne contiene 12.
La fase 2 inizia l'addestramento con i pesi appresi nei tre livelli nascosti della fase 1. La fase 3 inizia l'addestramento con i pesi appresi nei 6 livelli nascosti della fase 2.

Tre fasi, etichettate come Fase 1, Fase 2 e Fase 3.
Ogni fase contiene un numero diverso di livelli: la fase 1 contiene
3 livelli, la fase 2 ne contiene 6 e la fase 3 ne contiene 12.
I tre livelli della fase 1 diventano i primi tre livelli della fase 2.
Allo stesso modo, i 6 livelli della fase 2 diventano i primi 6 livelli della
fase 3.

Vedi anche il pipelining.

stato

Contrasto con la non stazionarietà.

a terra

Un passaggio in avanti e uno indietro di un batch.

Per saperne di più sulla propagazione in avanti e all'indietro, consulta la sezione Backpropagation.

dimensione passo

Sinonimo di tasso di apprendimento.

discesa stocastica del gradiente (SGD)

#fundamentals

Un algoritmo di discesa del gradiente in cui la dimensione del batch è pari a uno. In altre parole, SGD esegue l'addestramento su un singolo esempio scelto in modo uniforme e casuale da un set di addestramento.

Per saperne di più, consulta Regressione lineare: iperparametri in Machine Learning Crash Course.

stride

In un'operazione di convoluzione o pooling, il delta in ogni dimensione della successiva serie di sezioni di input. Ad esempio, l'animazione seguente mostra un passo (1,1) durante un'operazione convoluzionale. Pertanto, la successiva sezione di input inizia una posizione a destra della precedente. Quando l'operazione raggiunge il bordo destro, la fetta successiva si trova completamente a sinistra, ma una posizione più in basso.

L'esempio precedente mostra un passo bidimensionale. Se la matrice di input è tridimensionale, anche lo stride sarà tridimensionale.

riduzione al minimo del rischio strutturale (SRM)

Un algoritmo che bilancia due obiettivi:

La necessità di creare il modello più predittivo (ad esempio, con la perdita più bassa).
La necessità di mantenere il modello il più semplice possibile (ad esempio, una forte regolarizzazione).

Ad esempio, una funzione che minimizza la perdita e la regolarizzazione sul set di addestramento è un algoritmo di minimizzazione del rischio strutturale.

Contrasto con la minimizzazione empirica del rischio.

sottocampionamento

Consulta la sezione raggruppamento.

token di sottoparola

Nei modelli linguistici, un token è una sottostringa di una parola, che può essere l'intera parola.

Ad esempio, una parola come "dettagliare" potrebbe essere suddivisa in "dettaglio" (una parola radice) e "are" (un suffisso), ognuno dei quali è rappresentato dal proprio token. La suddivisione di parole non comuni in parti, chiamate subword, consente ai modelli linguistici di operare sulle parti costitutive più comuni della parola, come prefissi e suffissi.

Al contrario, parole comuni come "andando" potrebbero non essere suddivise e potrebbero essere rappresentate da un singolo token.

riepilogo

#TensorFlow

In TensorFlow, un valore o un insieme di valori calcolati in un determinato passaggio, in genere utilizzato per monitorare le metriche del modello durante l'addestramento.

machine learning supervisionato

#fundamentals

Addestramento di un modello a partire dalle caratteristiche e dalle relative etichette. L'apprendimento supervisionato nel machine learning è analogo all'apprendimento di una materia studiando una serie di domande e le risposte corrispondenti. Dopo aver acquisito la mappatura tra domande e risposte, uno studente può fornire risposte a nuove domande (mai viste prima) sullo stesso argomento.

Confronta con il machine learning non supervisionato.

Per saperne di più, consulta la sezione Apprendimento supervisionato del corso Introduzione al machine learning.

funzionalità sintetica

#fundamentals

Una caratteristica non presente tra le caratteristiche di input, ma assemblata a partire da una o più di queste. I metodi per creare funzionalità sintetiche includono quanto segue:

Suddivisione in bucket di una caratteristica continua in bin di intervallo.
Creazione di un incrocio di caratteristiche.
Moltiplicando (o dividendo) un valore di una caratteristica per altri valori di caratteristiche o per se stesso. Ad esempio, se a e b sono caratteristiche di input, di seguito sono riportati alcuni esempi di caratteristiche sintetiche:
- ab
- a²
Applicazione di una funzione trascendentale a un valore della funzionalità. Ad esempio, se c è una caratteristica di input, di seguito sono riportati alcuni esempi di caratteristiche sintetiche:
- sin(c)
- ln(c)

Le caratteristiche create solo mediante normalizzazione o scalabilità non sono considerate caratteristiche sintetiche.

T

T5

Un modello transfer learning da testo a testo introdotto da Google AI nel 2020. T5 è un modello encoder-decoder basato sull'architettura Transformer, addestrato su un set di dati estremamente ampio. È efficace in una serie di attività di elaborazione del linguaggio naturale, come la generazione di testo, la traduzione di lingue e la risposta a domande in modo colloquiale.

T5 prende il nome dalle cinque T della frase "Text-to-Text Transfer Transformer".

T5X

Un framework di machine learning open source progettato per creare e addestrare modelli di elaborazione del linguaggio naturale (NLP) su larga scala. T5 è implementato nel codebase T5X (che è basato su JAX e Flax).

Q-learning tabellare

Nell'apprendimento per rinforzo, l'implementazione dell'apprendimento Q utilizzando una tabella per memorizzare le funzioni Q per ogni combinazione di stato e azione.

target

Sinonimo di etichetta.

rete target

Nel Deep Q-learning, una rete neurale che è un'approssimazione stabile della rete neurale principale, in cui la rete neurale principale implementa una funzione Q o un criterio. Dopodiché, puoi addestrare la rete principale sui valori Q previsti dalla rete target. In questo modo, eviti il ciclo di feedback che si verifica quando la rete principale si addestra sui valori Q previsti da se stessa. Evitando questo feedback, la stabilità dell'allenamento aumenta.

attività

Un problema che può essere risolto utilizzando tecniche di machine learning, ad esempio:

classificazione
regressione
clustering
Rilevamento di anomalie

temperatura

#generativeAI

Un iperparametro che controlla il grado di casualità dell'output di un modello. Temperature più alte generano un output più casuale, mentre temperature più basse generano un output meno casuale.

#TensorFlow

Il numero totale di scalari contenuti in un Tensor. Ad esempio, un tensore [5, 10] ha una dimensione di 50.

TensorStore

Una libreria per leggere e scrivere in modo efficiente array multidimensionali di grandi dimensioni.

condizione di terminazione

Nell'apprendimento per rinforzo, le condizioni che determinano la fine di un episodio, ad esempio quando l'agente raggiunge un determinato stato o supera una soglia di transizioni di stato. Ad esempio, nel gioco del tris, un episodio termina quando un giocatore segna tre spazi consecutivi o quando tutti gli spazi sono contrassegnati.

test

#df

In un albero decisionale, un altro nome per una condizione.

test loss

#fundamentals

#Metric

Una metrica che rappresenta la perdita di un modello rispetto al set di test. Quando crei un modello, in genere cerchi di ridurre al minimo la perdita del test. Questo perché una perdita dei dati di test bassa è un indicatore di qualità più forte rispetto a una perdita di addestramento bassa o una perdita di convalida bassa.

Un ampio divario tra la perdita di test e la perdita di addestramento o di convalida a volte suggerisce di aumentare il tasso di regolarizzazione.

test set

Un sottoinsieme del set di dati riservato per testare un modello addestrato.

Tradizionalmente, gli esempi nel set di dati vengono suddivisi nei seguenti tre sottoinsiemi distinti:

un set di addestramento
un set di convalida
un set di test

Ogni esempio in un set di dati deve appartenere a uno solo dei sottoinsiemi precedenti. Ad esempio, un singolo esempio non deve appartenere sia al set di addestramento sia al set di test.

Il set di addestramento e il set di convalida sono entrambi strettamente correlati all'addestramento di un modello. Poiché il set di test è associato solo indirettamente all'addestramento, la perdita dei dati di test è una metrica di qualità superiore e meno distorta rispetto alla perdita dei dati di addestramento o alla perdita dei dati di convalida.

Per saperne di più, consulta la sezione Set di dati: divisione del set di dati originale in Machine Learning Crash Course.

intervallo di testo

L'intervallo di indici dell'array associato a una sezione specifica di una stringa di testo. Ad esempio, la parola good nella stringa Python s="Be good now" occupa l'intervallo di testo da 3 a 6.

tf.Example

#TensorFlow

Un protocol buffer standard per descrivere i dati di input per l'addestramento o l'inferenza di modelli di machine learning.

tf.keras

#TensorFlow

Un'implementazione di Keras integrata in TensorFlow.

soglia (per gli alberi decisionali)

#df

In una condizione allineata all'asse, il valore con cui viene confrontata una caratteristica. Ad esempio, 75 è il valore soglia nella seguente condizione:

grade >= 75

Per saperne di più, consulta Splitter esatto per la classificazione binaria con funzionalità numeriche nel corso Decision Forests.

analisi delle serie temporali

#clustering

Un sottocampo del machine learning e della statistica che analizza i dati temporali. Molti tipi di problemi di machine learning richiedono l'analisi delle serie temporali, tra cui classificazione, clustering, previsione e rilevamento di anomalie. Ad esempio, potresti utilizzare l'analisi delle serie temporali per prevedere le vendite future di cappotti invernali per mese in base ai dati storici di vendita.

timestep

Una cella "srotolata" all'interno di una rete neurale ricorrente. Ad esempio, la figura seguente mostra tre intervalli di tempo (contrassegnati con gli indici t-1, t e t+1):

Tre intervalli di tempo in una rete neurale ricorrente. L'output del
primo timestep diventa l'input del secondo timestep. L'output
del secondo timestep diventa l'input del terzo timestep.

token

In un modello linguistico, l'unità atomica su cui il modello viene addestrato e su cui fa previsioni. Un token è in genere uno dei seguenti:

una parola, ad esempio la frase "i cani amano i gatti" è composta da tre token di parole: "i cani", "amano" e "i gatti".
un carattere, ad esempio la frase "pesce in bicicletta" è composta da nove token di caratteri. Tieni presente che lo spazio vuoto viene conteggiato come uno dei token.
sottoparole, in cui una singola parola può essere un singolo token o più token. Una parola secondaria è costituita da una parola radice, un prefisso o un suffisso. Ad esempio, un modello linguistico che utilizza le subword come token potrebbe visualizzare la parola "cani" come due token (la parola radice "cane" e il suffisso plurale "i"). Lo stesso modello linguistico potrebbe considerare la singola parola "più alto" come due sottoparole (la parola radice "alto" e il suffisso "er").

Nei domini al di fuori dei modelli linguistici, i token possono rappresentare altri tipi di unità atomiche. Ad esempio, nella computer vision, un token potrebbe essere un sottoinsieme di un'immagine.

Per saperne di più, consulta Modelli linguistici di grandi dimensioni in Machine Learning Crash Course.

tokenizzatore

Un sistema o un algoritmo che traduce una sequenza di dati di input in token.

La maggior parte dei modelli di base moderni sono multimodali. Un tokenizer per un sistema multimodale deve tradurre ogni tipo di input nel formato appropriato. Ad esempio, dati di input costituiti da testo e grafica, il tokenizer potrebbe tradurre il testo di input in sottoparole e le immagini di input in piccole patch. Il tokenizer deve quindi convertire tutti i token in un unico spazio di incorporamento unificato, che consente al modello di "comprendere" un flusso di input multimodali.

accuratezza top-k

#Metric

La percentuale di volte in cui un'etichetta target viene visualizzata nelle prime k posizioni degli elenchi generati. Gli elenchi potrebbero essere consigli personalizzati o un elenco di elementi ordinati in base alla funzione softmax.

L'accuratezza top-k è anche nota come accuratezza a k.

Fai clic sull'icona per un esempio.

Considera un sistema di machine learning che utilizza la funzione softmax per identificare le probabilità degli alberi in base a una foto delle foglie. La tabella seguente mostra gli elenchi di output generati da cinque immagini di alberi di input. Ogni riga contiene un'etichetta di destinazione e i cinque alberi più probabili. Ad esempio, quando l'etichetta di destinazione era acero, il modello di machine learning ha identificato olmo come l'albero più probabile, quercia come il secondo albero più probabile e così via.

Etichetta di destinazione	1	2	3	4	5
aceri	elm	rovere	acero	faggi	pioppi
cornioli	rovere	dogwood	pioppi	Hickory	aceri
rovere	oak	tiglio	locusta	ontano	Linden
Linden	aceri	paw-paw	rovere	tiglio	pioppi
rovere	locusta	Linden	oak	aceri	paw-paw

L'etichetta di destinazione viene visualizzata nella prima posizione una sola volta, quindi l'accuratezza top-1 è:

$$\text{top-1 accuracy} = \frac{\text{1}} {\text{5}} = 0.2$$

L'etichetta di destinazione viene visualizzata quattro volte in una delle prime tre posizioni, quindi l'accuratezza delle prime tre posizioni è:

$$\text{top-1 accuracy} = \frac{\text{4}} {\text{5}} = 0.8$$

torre

Un componente di una rete neurale profonda che è a sua volta una rete neurale profonda. In alcuni casi, ogni torre legge da un'origine dati indipendente e queste torri rimangono indipendenti finché il loro output non viene combinato in un livello finale. In altri casi, ad esempio nella torre encoder e decoder di molti Transformer, le torri hanno interconnessioni tra loro.

#fundamentals

Il processo di determinazione dei parametri (pesi e bias) ideali che compongono un modello. Durante l'addestramento, un sistema legge esempi e regola gradualmente i parametri. L'addestramento utilizza ogni esempio da poche volte a miliardi di volte.

Per saperne di più, consulta la sezione Apprendimento supervisionato del corso Introduzione al machine learning.

perdita di addestramento

#fundamentals

#Metric

Una metrica che rappresenta la perdita di un modello durante una particolare iterazione di addestramento. Ad esempio, supponiamo che la funzione di perdita sia l'errore quadratico medio. Forse la perdita di addestramento (l'errore quadratico medio) per la decima iterazione è 2,2 e la perdita di addestramento per la centesima iterazione è 1,9.

Una curva di perdita traccia la perdita di addestramento rispetto al numero di iterazioni. Una curva di perdita fornisce i seguenti suggerimenti sull'addestramento:

Una pendenza verso il basso implica che il modello sta migliorando.
Una pendenza verso l'alto implica che il modello sta peggiorando.
Una pendenza piatta implica che il modello ha raggiunto la convergenza.

Ad esempio, la seguente curva di perdita un po' idealizzata mostra:

Una pendenza ripida verso il basso durante le iterazioni iniziali, il che implica un rapido miglioramento del modello.
Una pendenza che si appiattisce gradualmente (ma sempre verso il basso) fino quasi alla fine dell'addestramento, il che implica un miglioramento continuo del modello a un ritmo un po' più lento rispetto alle iterazioni iniziali.
Una pendenza piatta verso la fine dell'addestramento, che suggerisce la convergenza.

Il grafico della perdita di addestramento rispetto alle iterazioni. Questa curva di perdita inizia
con una pendenza ripida verso il basso. La pendenza si appiattisce gradualmente finché non diventa zero.

Sebbene la perdita di addestramento sia importante, consulta anche la generalizzazione.

disallineamento addestramento/produzione

#fundamentals

La differenza tra il rendimento di un modello durante l'addestramento e quello dello stesso modello durante la produzione.

training set

#fundamentals

Il sottoinsieme del set di dati utilizzato per addestrare un modello.

Tradizionalmente, gli esempi nel set di dati sono suddivisi nei seguenti tre sottoinsiemi distinti:

un training set
un set di convalida
un set di test

Idealmente, ogni esempio nel set di dati dovrebbe appartenere a uno solo dei sottoinsiemi precedenti. Ad esempio, un singolo esempio non deve appartenere sia al set di addestramento sia al set di convalida.

Per saperne di più, consulta la sezione Set di dati: divisione del set di dati originale in Machine Learning Crash Course.

traiettoria

Nell'apprendimento per rinforzo, una sequenza di tuple che rappresentano una sequenza di transizioni di stato dell'agente, dove ogni tupla corrisponde allo stato, all'azione, alla ricompensa e allo stato successivo per una determinata transizione di stato.

transfer learning

Trasferimento di informazioni da un'attività di machine learning a un'altra. Ad esempio, nell'apprendimento multi-task, un singolo modello risolve più attività, come un modello profondo che ha nodi di output diversi per attività diverse. Il Transfer Learning può comportare il trasferimento di conoscenze dalla soluzione di un'attività più semplice a una più complessa oppure il trasferimento di conoscenze da un'attività in cui sono disponibili più dati a una in cui sono disponibili meno dati.

La maggior parte dei sistemi di machine learning risolve una singola attività. Il transfer learning è un piccolo passo verso l'intelligenza artificiale in cui un singolo programma può risolvere più attività.

Transformer

Un'architettura di rete neurale sviluppata da Google che si basa su meccanismi di auto-attenzione per trasformare una sequenza di incorporamenti di input in una sequenza di incorporamenti di output senza fare affidamento su convoluzioni o reti neurali ricorrenti. Un Transformer può essere visto come uno stack di livelli di auto-attenzione.

Un Transformer può includere uno dei seguenti elementi:

un codificatore
un decoder
sia un encoder che un decoder

Un encoder trasforma una sequenza di embedding in una nuova sequenza della stessa lunghezza. Un codificatore include N livelli identici, ognuno dei quali contiene due livelli secondari. Questi due sottolivelli vengono applicati a ogni posizione della sequenza di embedding di input, trasformando ogni elemento della sequenza in un nuovo embedding. Il primo sottolivello dell'encoder aggrega le informazioni dell'intera sequenza di input. Il secondo sottolivello del codificatore trasforma le informazioni aggregate in un embedding di output.

Un decoder trasforma una sequenza di incorporamenti di input in una sequenza di incorporamenti di output, possibilmente di lunghezza diversa. Un decoder include anche N livelli identici con tre sottolivelli, due dei quali sono simili ai sottolivelli dell'encoder. Il terzo livello secondario del decoder prende l'output dell'encoder e applica il meccanismo di auto-attenzione per raccogliere informazioni.

Il post del blog Transformer: A Novel Neural Network Architecture for Language Understanding fornisce una buona introduzione ai Transformer.

Per saperne di più, consulta LLM: che cos'è un modello linguistico di grandi dimensioni? in Machine Learning Crash Course.

invarianza traslazionale

In un problema di classificazione delle immagini, la capacità di un algoritmo di classificare correttamente le immagini anche quando la posizione degli oggetti all'interno dell'immagine cambia. Ad esempio, l'algoritmo può comunque identificare un cane, sia che si trovi al centro dell'inquadratura sia all'estremità sinistra dell'inquadratura.

Vedi anche invarianza di scala e invarianza rotazionale.

trigramma

Un n-gramma in cui N=3.

vero negativo (VN)

#fundamentals

#Metric

Un esempio in cui il modello prevede correttamente la classe negativa. Ad esempio, il modello deduce che un determinato messaggio email non è spam e in effetti non lo è.

vero positivo (VP)

#fundamentals

#Metric

Un esempio in cui il modello prevede correttamente la classe positiva. Ad esempio, il modello deduce che un determinato messaggio email è spam e questo messaggio email è effettivamente spam.

tasso di veri positivi (TVP)

#fundamentals

#Metric

Sinonimo di richiamo. Ossia:

$$\text{true positive rate} = \frac {\text{true positives}} {\text{true positives} + \text{false negatives}}$$

La percentuale di veri positivi è l'asse Y di una curva ROC.

TTL

Abbreviazione di durata.

U

Ultra

#generativeAI

Il modello Gemini con il maggior numero di parametri. Per maggiori dettagli, vedi Gemini Ultra.

Vedi anche Pro e Nano.

inconsapevolezza (rispetto a un attributo sensibile)

#responsible

Una situazione in cui sono presenti attributi sensibili, ma non inclusi nei dati di addestramento. Poiché gli attributi sensibili sono spesso correlati ad altri attributi dei dati, un modello addestrato senza consapevolezza di un attributo sensibile potrebbe comunque avere impatto sproporzionato rispetto a quell'attributo o violare altri vincoli di equità.

underfitting

#fundamentals

Produzione di un modello con scarsa capacità predittiva perché il modello non ha acquisito completamente la complessità dei dati di addestramento. Molti problemi possono causare un adattamento insufficiente, tra cui:

Addestramento sul set errato di funzionalità.
Addestramento per un numero troppo basso di epoche o a un tasso di apprendimento troppo basso.
Addestramento con un tasso di regolarizzazione troppo elevato.
Fornire un numero troppo basso di strati nascosti in una rete neurale profonda.

Per saperne di più, consulta la sezione Overfitting di Machine Learning Crash Course.

sottocampionamento

Rimozione di esempi dalla classe maggioritaria in un set di dati con sbilanciamento di classe per creare un set di addestramento più bilanciato.

Ad esempio, considera un set di dati in cui il rapporto tra la classe maggioritaria e la classe minoritaria è 20:1. Per superare questo squilibrio di classe, potresti creare un set di addestramento composto da tutti gli esempi della classe di minoranza, ma solo da un decimo degli esempi della classe di maggioranza, il che creerebbe un rapporto tra le classi del set di addestramento di 2:1. Grazie al sottocampionamento, questo set di addestramento più bilanciato potrebbe produrre un modello migliore. In alternativa, questo set di addestramento più bilanciato potrebbe contenere esempi insufficienti per addestrare un modello efficace.

Contrasto con l'oversampling.

unidirezionale

Un sistema che valuta solo il testo che precede una sezione di testo di destinazione. Al contrario, un sistema bidirezionale valuta sia il testo che precede sia quello che segue una sezione di testo di destinazione. Per maggiori dettagli, consulta la sezione bidirezionale.

modello linguistico unidirezionale

Un modello linguistico che basa le sue probabilità solo sui token che compaiono prima, non dopo, i token di destinazione. Contrasto con il modello linguistico bidirezionale.

esempio senza etichetta

#fundamentals

Un esempio che contiene funzionalità, ma nessuna etichetta. Ad esempio, la tabella seguente mostra tre esempi senza etichetta di un modello di valutazione di una casa, ognuno con tre caratteristiche ma senza valore della casa:

Numero di camere	Numero di bagni	Età della casa
3	2	15
2	1	72
4	2	34

Nel machine learning supervisionato, i modelli vengono addestrati su esempi etichettati e fanno previsioni su esempi non etichettati.

Nell'apprendimento semi-supervisionato e non supervisionato, vengono utilizzati esempi non etichettati durante l'addestramento.

Confronta l'esempio senza etichetta con l'esempio con etichetta.

machine learning non supervisionato

#clustering

#fundamentals

Addestramento di un modello per trovare pattern in un set di dati, in genere un set di dati senza etichette.

L'utilizzo più comune del machine learning non supervisionato è quello di raggruppare i dati in gruppi di esempi simili. Ad esempio, un algoritmo di machine learning non supervisionato può raggruppare i brani in base a varie proprietà della musica. I cluster risultanti possono diventare un input per altri algoritmi di machine learning (ad esempio, per un servizio di consigli musicali). Il clustering può essere utile quando le etichette utili sono scarse o assenti. Ad esempio, in domini come la prevenzione di abusi e frodi, i cluster possono aiutare le persone a comprendere meglio i dati.

Contrasto con il machine learning supervisionato.

Fai clic sull'icona per ulteriori note.

Un altro esempio di machine learning non supervisionato è l'analisi delle componenti principali (PCA). Ad esempio, l'applicazione dell'analisi delle componenti principali a un set di dati contenente i contenuti di milioni di carrelli degli acquisti potrebbe rivelare che i carrelli degli acquisti contenenti limoni spesso contengono anche antiacidi.

Per saperne di più, consulta Che cos'è il machine learning? nel corso Introduction to ML.

modellazione dell'impatto

Una tecnica di modellazione, comunemente utilizzata nel marketing, che modella l'"effetto causale" (noto anche come "impatto incrementale") di un "trattamento" su un "individuo". Di seguito sono riportati due esempi:

I medici potrebbero utilizzare la modellazione dell'uplift per prevedere la diminuzione della mortalità (effetto causale) di una procedura medica (trattamento) a seconda dell'età e dell'anamnesi di un paziente (individuo).
I professionisti del marketing potrebbero utilizzare la modellazione dell'impatto incrementale per prevedere l'aumento della probabilità di un acquisto (effetto causale) dovuto a una pubblicità (trattamento) su una persona (individuo).

La modellazione dell'uplift è diversa dalla classificazione o dalla regressione in quanto alcune etichette (ad esempio, la metà delle etichette nei trattamenti binari) sono sempre mancanti nella modellazione dell'uplift. Ad esempio, un paziente può ricevere o non ricevere un trattamento; pertanto, possiamo osservare se il paziente guarirà o non guarirà solo in una di queste due situazioni (ma mai in entrambe). Il vantaggio principale di un modello di impatto è che può generare previsioni per la situazione non osservata (il controfattuale) e utilizzarle per calcolare l'effetto causale.

ponderazione verso l'alto

Applicare un peso alla classe sottocampionata pari al fattore di sottocampionamento.

matrice degli utenti

Il sottoinsieme del set di dati che esegue la valutazione iniziale rispetto a un modello addestrato. In genere, valuti il modello addestrato rispetto al set di convalida più volte prima di valutare il modello rispetto al set di test.

Tradizionalmente, gli esempi nel set di dati vengono suddivisi nei seguenti tre sottoinsiemi distinti:

un set di addestramento
un set di convalida
un set di test

Per saperne di più, consulta la sezione Set di dati: divisione del set di dati originale in Machine Learning Crash Course.

imputazione dei valori

Il processo di sostituzione di un valore mancante con un sostituto accettabile. Quando manca un valore, puoi scartare l'intero esempio o utilizzare l'imputazione dei valori per recuperarlo.

Ad esempio, considera un set di dati contenente una caratteristica temperature che deve essere registrata ogni ora. Tuttavia, la lettura della temperatura non era disponibile per un'ora specifica. Ecco una sezione del set di dati:

Timestamp	Temperatura
1680561000	10
1680564600	12
1680568200	mancante
1680571800	20
1680575400	21
1680579000	21

Un sistema potrebbe eliminare l'esempio mancante o imputare la temperatura mancante come 12, 16, 18 o 20, a seconda dell'algoritmo di imputazione.

problema di scomparsa del gradiente

La tendenza dei gradienti dei primi livelli nascosti di alcune reti neurali profonde a diventare sorprendentemente piatti (bassi). Gradienti sempre più bassi comportano modifiche sempre più piccole ai pesi dei nodi in una rete neurale profonda, con conseguente apprendimento scarso o nullo. I modelli che soffrono del problema di scomparsa del gradiente diventano difficili o impossibili da addestrare. Le celle Long Short-Term Memory risolvono questo problema.

Confrontalo con il problema del gradiente esplosivo.

importanza delle variabili

#df

#Metric

Un insieme di punteggi che indica l'importanza relativa di ciascuna caratteristica per il modello.

Ad esempio, considera un albero decisionale che stima i prezzi delle case. Supponiamo che questo albero decisionale utilizzi tre caratteristiche: taglia, età e stile. Se un insieme di importanze delle variabili per le tre caratteristiche viene calcolato come {size=5.8, age=2.5, style=4.7}, la taglia è più importante per l'albero decisionale rispetto all'età o allo stile.

Esistono diverse metriche di importanza delle variabili, che possono fornire agli esperti di ML informazioni su diversi aspetti dei modelli.

autoencoder variazionale (VAE)

Un tipo di autoencoder che sfrutta la discrepanza tra input e output per generare versioni modificate degli input. Gli encoder automatici variazionali sono utili per l'AI generativa.

I VAE si basano sull'inferenza variazionale, una tecnica per stimare i parametri di un modello probabilistico.

vettore

Termine molto sovraccarico il cui significato varia a seconda dei diversi campi matematici e scientifici. Nel machine learning, un vettore ha due proprietà:

Tipo di dati: i vettori nel machine learning in genere contengono numeri in virgola mobile.
Numero di elementi: la lunghezza del vettore o la sua dimensione.

Ad esempio, considera un vettore delle caratteristiche che contiene otto numeri in virgola mobile. Questo vettore di caratteristiche ha una lunghezza o una dimensione di otto. Tieni presente che i vettori di machine learning spesso hanno un numero elevatissimo di dimensioni.

Puoi rappresentare molti tipi diversi di informazioni come un vettore. Ad esempio:

Qualsiasi posizione sulla superficie della Terra può essere rappresentata come un vettore bidimensionale, in cui una dimensione è la latitudine e l'altra è la longitudine.
I prezzi attuali di ciascuna delle 500 azioni possono essere rappresentati come un vettore a 500 dimensioni.
Una distribuzione di probabilità su un numero finito di classi può essere rappresentata come un vettore. Ad esempio, un sistema di classificazione multiclasse che prevede uno dei tre colori di output (rosso, verde o giallo) potrebbe restituire il vettore (0.3, 0.2, 0.5) per indicare P[red]=0.3, P[green]=0.2, P[yellow]=0.5.

I vettori possono essere concatenati, pertanto una varietà di contenuti multimediali diversi può essere rappresentata come un unico vettore. Alcuni modelli operano direttamente sulla concatenazione di molte codifiche one-hot.

Processori specializzati come le TPU sono ottimizzati per eseguire operazioni matematiche sui vettori.

Un vettore è un tensore di rank 1.

Vertex

#GoogleCloud

#generativeAI

La piattaforma di Google Cloud per l'AI e il machine learning. Vertex fornisce strumenti e infrastrutture per creare, implementare e gestire applicazioni di AI, incluso l'accesso ai modelli Gemini.

vibe coding

#generativeAI

Richiedere a un modello di AI generativa di creare software. ovvero i prompt descrivono lo scopo e le funzionalità del software, che un modello di AI generativa traduce in codice sorgente. Il codice generato non sempre corrisponde alle tue intenzioni, quindi la programmazione basata sulle vibrazioni di solito richiede iterazioni.

Andrej Karpathy ha coniato il termine vibe coding in questo post su X. Nel post su X, Karpathy lo descrive come "un nuovo tipo di programmazione...in cui ti lasci completamente trasportare dalle vibrazioni..." Quindi, il termine originariamente implicava un approccio intenzionalmente approssimativo alla creazione di software in cui potresti non esaminare nemmeno il codice generato. Tuttavia, il termine si è evoluto rapidamente in molti ambienti fino a significare qualsiasi forma di programmazione generata dall'AI.

Per una descrizione più dettagliata della codifica delle vibrazioni, vedi Che cos'è il vibe coding?.

Inoltre, confronta e contrapponi il vibe coding con:

specificational coding
programmazione conversazionale

M

Perdita di Wasserstein

#Metric

Una delle funzioni di perdita comunemente utilizzate nelle reti generative avversariali, basata sulla distanza di Wasserstein tra la distribuzione dei dati generati e i dati reali.

peso

#fundamentals

Un valore che un modello moltiplica per un altro valore. L'addestramento è il processo di determinazione dei pesi ideali di un modello; l'inferenza è il processo di utilizzo di questi pesi appresi per fare previsioni.

Fai clic sull'icona per visualizzare un esempio di pesi in un modello lineare.

Immagina un modello lineare con due caratteristiche. Supponiamo che l'addestramento determini i seguenti pesi (e bias):

Il bias, b, ha un valore di 2,2.
Il peso, w₁, associato a una funzionalità è 1,5.
Il peso, w₂, associato all'altra funzionalità è 0,4.

Ora immagina un esempio con i seguenti valori delle funzionalità:

Il valore di una caratteristica, x₁, è 6.
Il valore dell'altra funzionalità, x₂, è 10.

Questo modello lineare utilizza la seguente formula per generare una previsione, y':

$$y' = b + w_1x_1 + w_2x_2$$

Pertanto, la previsione è:

$$y' = 2.2 + (1.5)(6) + (0.4)(10) = 15.2$$

Se un peso è 0, la funzionalità corrispondente non contribuisce al modello. Ad esempio, se w₁ è 0, il valore di x₁ è irrilevante.

Per saperne di più, consulta Regressione lineare in Machine Learning Crash Course.

Weighted Alternating Least Squares (WALS)

Un algoritmo per ridurre al minimo la funzione obiettivo durante la fattorizzazione matriciale nei sistemi di suggerimenti, che consente una riduzione della ponderazione degli esempi mancanti. WALS minimizza l'errore quadratico ponderato tra la matrice originale e la ricostruzione alternando la fattorizzazione delle righe e delle colonne. Ciascuna di queste ottimizzazioni può essere risolta mediante l'ottimizzazione convessa dei minimi quadrati . Per maggiori dettagli, consulta il corso sui sistemi di raccomandazione.

somma ponderata

#fundamentals

La somma di tutti i valori di input pertinenti moltiplicati per i pesi corrispondenti. Ad esempio, supponiamo che gli input pertinenti siano i seguenti:

valore di input	peso dell'input
2	-1,3
-1	0,6
3	0,4

La somma ponderata è quindi:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Una somma ponderata è l'argomento di input di una funzione di attivazione.

modello wide

Un modello lineare che in genere ha molte caratteristiche di input sparse. Lo chiamiamo "ampio" perché un modello di questo tipo è un tipo speciale di rete neurale con un gran numero di input che si collegano direttamente al nodo di output. I modelli larghi sono spesso più facili da eseguire il debug e da ispezionare rispetto ai modelli profondi. Sebbene i modelli larghi non possano esprimere non linearità tramite livelli nascosti, possono utilizzare trasformazioni come incrocio di funzionalità e raggruppamento per modellare le non linearità in modi diversi.

Contrasto con il modello profondo.

larghezza

Il numero di neuroni in un determinato livello di una rete neurale.

saggezza della folla

#df

L'idea che la media delle opinioni o delle stime di un ampio gruppo di persone ("la folla") spesso produca risultati sorprendentemente buoni. Ad esempio, considera un gioco in cui le persone devono indovinare il numero di caramelle gommose contenute in un grande barattolo. Anche se la maggior parte delle stime individuali sarà imprecisa, è stato dimostrato empiramente che la media di tutte le stime è sorprendentemente vicina al numero effettivo di caramelle nel barattolo.

Gli ensemble sono l'equivalente software della saggezza della folla. Anche se i singoli modelli fanno previsioni molto imprecise, la media delle previsioni di molti modelli spesso genera previsioni sorprendentemente buone. Ad esempio, anche se un albero decisionale individuale potrebbe fare previsioni errate, una foresta decisionale spesso fa previsioni molto accurate.

word embedding

Rappresentazione di ogni parola in un insieme di parole all'interno di un vettore di incorporamento, ovvero rappresentazione di ogni parola come un vettore di valori a rappresentazione in virgola mobile compresi tra 0,0 e 1,0. Le parole con significati simili hanno rappresentazioni più simili rispetto a quelle con significati diversi. Ad esempio, carote, sedano e cetrioli avrebbero rappresentazioni relativamente simili, che sarebbero molto diverse da quelle di aereo, occhiali da sole e dentifricio.

X

XLA (Accelerated Linear Algebra)

Un compilatore di machine learning open source per GPU, CPU e acceleratori ML.

Il compilatore XLA prende i modelli dai framework di ML più diffusi, come PyTorch, TensorFlow e JAX, e li ottimizza per l'esecuzione ad alte prestazioni su diverse piattaforme hardware, tra cui GPU, CPU e acceleratori ML.

Z

apprendimento zero-shot

Un tipo di addestramento di machine learning in cui il modello deduce una previsione per un'attività su cui non è stato già addestrato in modo specifico. In altre parole, al modello non vengono forniti esempi di addestramento specifici per l'attività, ma gli viene chiesto di eseguire l'inferenza per quell'attività.

prompting zero-shot

#generativeAI

Un prompt che non fornisce un esempio di come vuoi che risponda il modello linguistico di grandi dimensioni. Ad esempio:

Parti di un prompt	Note
`Qual è la valuta ufficiale del paese specificato?`	La domanda a cui vuoi che l'LLM risponda.
`India:`	La query effettiva.

Il modello linguistico di grandi dimensioni potrebbe rispondere con uno dei seguenti risultati:

Rupia
INR
₹
Rupia indiana
La rupia
Rupia indiana

Tutte le risposte sono corrette, anche se potresti preferire un formato particolare.

Confronta e contrapponi il prompt zero-shot con i seguenti termini:

Prompting one-shot
prompting few-shot

Normalizzazione del punteggio z

#fundamentals

Una tecnica di scalabilità che sostituisce un valore di caratteristica non elaborato con un valore in virgola mobile che rappresenta il numero di deviazioni standard dalla media di quella caratteristica. Ad esempio, considera una funzionalità con una media di 800 e una deviazione standard di 100. La tabella seguente mostra in che modo la normalizzazione Z-score mapperebbe il valore non elaborato al suo Z-score:

Valore non elaborato	Z-score
800	0
950	+1,5
575	-2,25

Il modello di machine learning viene quindi addestrato sugli Z-score di questa funzionalità anziché sui valori non elaborati.

Per saperne di più, consulta Dati numerici: normalizzazione in Machine Learning Crash Course.

Questo glossario definisce i termini del machine learning.

Glossario del machine learning Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

A

ablazione

Test A/B

chip dell'acceleratore

accuracy

Fai clic sull'icona per visualizzare i dettagli sull'accuratezza e sui set di dati con sbilanciamento di classe.

azione

funzione di attivazione

Fai clic sull'icona per visualizzare un esempio.

apprendimento attivo

AdaGrad

adattamento

agente

agentico

workflow agentico

clustering agglomerativo

AI slop

rilevamento di anomalie

AR

area sotto la curva PR

area sotto la curva ROC

intelligenza artificiale generale

intelligenza artificiale

Attention,

attributo

campionamento degli attributi

AUC (area sotto la curva ROC)

Fai clic sull'icona per scoprire la relazione tra le curve AUC e ROC.

Fai clic sull'icona per una definizione più formale di AUC.

realtà aumentata

autoencoder

valutazione automatica

bias di automazione

AutoML

autorater evaluation

modello autoregressivo

perdita ausiliaria

precisione media a k

Fai clic sull'icona per un esempio.

axis-aligned condition

B

backpropagation

bagging

bag of words

base di riferimento

modello base

batch

inferenza batch

normalizzazione batch

dimensione del batch

Rete neurale bayesiana

Ottimizzazione bayesiana

Equazione di Bellman

BERT (Bidirectional Encoder Representations from Transformers)

bias (etica/equità)

bias (matematica) o termine di bias

bidirezionale

modello linguistico bidirezionale

bigram

classificazione binaria

condizione binaria

binning

modello black box

BLEU (Bilingual Evaluation Understudy)

BLEURT (Bilingual Evaluation Understudy from Transformers)

aumentare

riquadro di delimitazione

trasmissione

Fai clic sull'icona per un esempio.

il bucketing

Fai clic sull'icona per ulteriori note.

C

livello di calibrazione

generazione di candidati

campionamento dei candidati

dati categorici

modello linguistico causale

centroide

clustering basato sui centroidi

Glossario del machine learning