Questo glossario definisce i termini del machine learning.
A
ablazione
Una tecnica per valutare l'importanza di una caratteristica o di un componente rimuovendolo temporaneamente da un modello. A questo punto, riaddestra il modello senza quella funzionalità o componente e, se il modello riaddestrato ha prestazioni significativamente peggiori, la funzionalità o il componente rimossi erano probabilmente importanti.
Ad esempio, supponiamo di addestrare un modello di classificazione su 10 funzionalità e di ottenere una precisione dell'88% sul set di test. Per controllare l'importanza della prima funzionalità, puoi eseguire di nuovo l'addestramento del modello utilizzando solo le altre nove funzionalità. Se il modello riaddestrato ha prestazioni significativamente peggiori (ad esempio, precisione del 55%), la funzionalità rimossa era probabilmente importante. Al contrario, se il modello riaddestrato funziona altrettanto bene, allora la funzionalità probabilmente non era così importante.
L'ablazione può anche contribuire a determinare l'importanza di:
- Componenti più grandi, ad esempio un intero sottosistema di un sistema ML più grande
- Processi o tecniche, ad esempio un passaggio di pre-elaborazione dei dati
In entrambi i casi, osserverai come cambia (o non cambia) il rendimento del sistema dopo aver rimosso il componente.
Test A/B
Un modo statistico per confrontare due (o più) tecniche: la A e la B. In genere, A è una tecnica esistente, mentre B è una nuova tecnica. Il test A/B non solo determina quale tecnica ha un rendimento migliore, ma anche se la differenza è statisticamente significativa.
In genere, i test A/B confrontano una singola metrica su due tecniche; ad esempio, come si confronta l'accuratezza del modello per due tecniche? Tuttavia, il test A/B può anche confrontare un numero finito di metriche.
chip dell'acceleratore
Una categoria di componenti hardware specializzati progettati per eseguire i calcoli chiave necessari per gli algoritmi di deep learning.
I chip di accelerazione (o semplicemente acceleratori) possono aumentare notevolmente la velocità e l'efficienza delle attività di addestramento e inferenza rispetto a una CPU generica. Sono ideali per l'addestramento di reti neurali e attività simili ad alta intensità di calcolo.
Ecco alcuni esempi di chip di accelerazione:
- Tensor Processing Unit (TPU) di Google con hardware dedicato per il deep learning.
- Le GPU di NVIDIA, sebbene inizialmente progettate per l'elaborazione grafica, sono progettate per consentire l'elaborazione parallela, che può aumentare significativamente la velocità di elaborazione.
accuracy
Il numero di previsioni di classificazione corrette diviso per il numero totale di previsioni. Ossia:
Ad esempio, un modello che ha effettuato 40 previsioni corrette e 10 errate avrebbe un'accuratezza pari a:
La classificazione binaria fornisce nomi specifici per le diverse categorie di previsioni corrette e previsioni errate. Pertanto, la formula per l'accuratezza della classificazione binaria è la seguente:
dove:
- TP è il numero di veri positivi (previsioni corrette).
- TN è il numero di veri negativi (previsioni corrette).
- FP è il numero di falsi positivi (previsioni errate).
- FN è il numero di falsi negativi (previsioni errate).
Confronta e contrapponi l'accuratezza con la precisione e il richiamo.
Per saperne di più, consulta Classificazione: accuratezza, richiamo, precisione e metriche correlate in Machine Learning Crash Course.
azione
Nel reinforcement learning, il meccanismo con cui l'agente passa da uno stato all'altro dell'ambiente. L'agente sceglie l'azione utilizzando un'norma.
funzione di attivazione
Una funzione che consente alle reti neurali di apprendere relazioni non lineari (complesse) tra le caratteristiche e l'etichetta.
Le funzioni di attivazione più comuni includono:
I grafici delle funzioni di attivazione non sono mai singole linee rette. Ad esempio, il grafico della funzione di attivazione ReLU è costituito da due linee rette:
Un grafico della funzione di attivazione sigmoidea è il seguente:
Per saperne di più, consulta Reti neurali: funzioni di attivazione in Machine Learning Crash Course.
apprendimento attivo
Un approccio di addestramento in cui l'algoritmo sceglie alcuni dei dati da cui apprende. L'apprendimento attivo è particolarmente utile quando gli esempi etichettati sono scarsi o costosi da ottenere. Invece di cercare ciecamente una gamma diversificata di esempi etichettati, un algoritmo di apprendimento attivo cerca selettivamente la gamma particolare di esempi di cui ha bisogno per l'apprendimento.
AdaGrad
Un sofisticato algoritmo di discesa del gradiente che ridimensiona i gradienti di ogni parametro, assegnando di fatto a ogni parametro un tasso di apprendimento indipendente. Per una spiegazione completa, vedi Adaptive Subgradient Methods for Online Learning and Stochastic Optimization.
adattamento
Sinonimo di ottimizzazione o ottimizzazione avanzata.
agente
Software in grado di ragionare sugli input multimodali dell'utente per pianificare ed eseguire azioni per suo conto.
Nel reinforcement learning, un agente è l'entità che utilizza una policy per massimizzare il rendimento previsto ottenuto dal passaggio tra gli stati dell'ambiente.
clustering agglomerativo
Vedi clustering gerarchico.
rilevamento di anomalie
Il processo di identificazione degli outlier. Ad esempio, se la media per una determinata caratteristica è 100 con una deviazione standard di 10, il rilevamento di anomalie dovrebbe segnalare un valore di 200 come sospetto.
AR
Abbreviazione di realtà aumentata.
area sotto la curva PR
Vedi AUC PR (area sotto la curva PR).
area sotto la curva ROC
Consulta la sezione AUC (Area sotto la curva ROC).
intelligenza artificiale generale
Un meccanismo non umano che dimostra un'ampia gamma di capacità di risoluzione dei problemi, creatività e adattabilità. Ad esempio, un programma che dimostra un'intelligenza artificiale generale potrebbe tradurre testi, comporre sinfonie e eccellere in giochi che non sono ancora stati inventati.
intelligenza artificiale
Un programma o un modello non umano in grado di risolvere attività sofisticate. Ad esempio, un programma o un modello che traduce il testo o un programma o un modello che identifica le malattie dalle immagini radiologiche mostrano entrambi intelligenza artificiale.
Formalmente, il machine learning è un sottocampo dell'intelligenza artificiale. Tuttavia, negli ultimi anni, alcune organizzazioni hanno iniziato a utilizzare i termini intelligenza artificiale e machine learning in modo intercambiabile.
Attention,
Un meccanismo utilizzato in una rete neurale che indica l'importanza di una determinata parola o parte di una parola. L'attenzione comprime la quantità di informazioni di cui un modello ha bisogno per prevedere il token/la parola successivi. Un tipico meccanismo di attenzione potrebbe consistere in una somma ponderata su un insieme di input, in cui il peso per ogni input viene calcolato da un'altra parte della rete neurale.
Fai riferimento anche a auto-attenzione e auto-attenzione multi-head, che sono i componenti di base dei Transformer.
Per saperne di più sull'auto-attenzione, consulta LLM: che cos'è un modello linguistico di grandi dimensioni? in Machine Learning Crash Course.
attributo
Sinonimo di funzionalità.
Nell'equità del machine learning, gli attributi si riferiscono spesso a caratteristiche relative agli individui.
campionamento degli attributi
Una tattica per l'addestramento di una foresta decisionale in cui ogni albero decisionale considera solo un sottoinsieme casuale di possibili caratteristiche durante l'apprendimento della condizione. In genere, per ogni nodo viene campionato un sottoinsieme diverso di funzionalità. Al contrario, quando si addestra un albero decisionale senza campionamento degli attributi, vengono prese in considerazione tutte le funzionalità possibili per ogni nodo.
AUC (area sotto la curva ROC)
Un numero compreso tra 0,0 e 1,0 che rappresenta la capacità di un modello di classificazione binaria di separare le classi positive dalle classi negative. Più l'AUC è vicino a 1,0, migliore è la capacità del modello di separare le classi tra loro.
Ad esempio, la seguente illustrazione mostra un modello di classificazione che separa perfettamente le classi positive (ovali verdi) da quelle negative (rettangoli viola). Questo modello perfetto in modo non realistico ha un'AUC pari a 1,0:
Al contrario, la seguente illustrazione mostra i risultati per un modello di classificazione che ha generato risultati casuali. Questo modello ha un AUC di 0,5:
Sì, il modello precedente ha un'AUC di 0,5, non di 0.
La maggior parte dei modelli si trova a metà strada tra i due estremi. Ad esempio, il seguente modello separa in qualche modo i positivi dai negativi e pertanto ha un'AUC compresa tra 0,5 e 1,0:
L'AUC ignora qualsiasi valore impostato per la soglia di classificazione. L'AUC, invece, prende in considerazione tutte le possibili soglie di classificazione.
Per saperne di più, consulta Classificazione: ROC e AUC in Machine Learning Crash Course.
realtà aumentata
Una tecnologia che sovrappone un'immagine generata al computer alla visualizzazione del mondo reale di un utente, fornendo così una visualizzazione composita.
autoencoder
Un sistema che impara a estrarre le informazioni più importanti dall'input. Gli autoencoder sono una combinazione di un encoder e di un decoder. Gli autoencoder si basano sul seguente processo in due passaggi:
- L'encoder mappa l'input in un formato (intermedio) a dimensioni inferiori (in genere) con perdita.
- Il decodificatore crea una versione con perdita dell'input originale mappando il formato a dimensionalità inferiore al formato di input originale a dimensionalità superiore.
Gli autoencoder vengono addestrati end-to-end facendo in modo che il decodificatore tenti di ricostruire l'input originale dal formato intermedio dell'encoder nel modo più fedele possibile. Poiché il formato intermedio è più piccolo (con meno dimensioni) rispetto al formato originale, l'autoencoder è costretto a imparare quali informazioni nell'input sono essenziali e l'output non sarà perfettamente identico all'input.
Ad esempio:
- Se i dati di input sono un grafico, la copia non esatta sarà simile al grafico originale, ma leggermente modificata. Forse la copia non esatta rimuove il rumore dal grafico originale o riempie alcuni pixel mancanti.
- Se i dati di input sono di tipo testuale, un autoencoder genererà un nuovo testo che imita (ma non è identico a) il testo originale.
Vedi anche autoencoder variazionali.
valutazione automatica
Utilizzo di software per valutare la qualità dell'output di un modello.
Quando l'output del modello è relativamente semplice, uno script o un programma può confrontare l'output del modello con una risposta di riferimento. Questo tipo di valutazione automatica è talvolta chiamato valutazione programmatica. Metriche come ROUGE o BLEU sono spesso utili per la valutazione programmatica.
Quando l'output del modello è complesso o non ha una risposta corretta, a volte la valutazione automatica viene eseguita da un programma ML separato chiamato valutatore automatico.
Contrasto con la valutazione umana.
bias di automazione
Quando un decisore umano favorisce i consigli forniti da un sistema decisionale automatizzato rispetto alle informazioni fornite senza automazione, anche quando il sistema decisionale automatizzato commette errori.
Per saperne di più, consulta Equità: tipi di bias in Machine Learning Crash Course.
AutoML
Qualsiasi processo automatizzato per la creazione di modelli di machine learning. AutoML può svolgere automaticamente attività come le seguenti:
- Cerca il modello più appropriato.
- Ottimizza gli iperparametri.
- Prepara i dati (inclusa l'esecuzione del feature engineering).
- Esegui il deployment del modello risultante.
AutoML è utile per i data scientist perché può far risparmiare tempo e impegno nello sviluppo di pipeline di machine learning e migliorare la precisione delle previsioni. È utile anche ai non esperti, in quanto rende più accessibili le complicate attività di machine learning.
Per saperne di più, consulta Machine Learning automatizzato (AutoML) in Machine Learning Crash Course.
autorater evaluation
Un meccanismo ibrido per giudicare la qualità dell'output di un modello di AI generativa che combina la valutazione umana con la valutazione automatica. Un autorater è un modello ML addestrato su dati creati tramite valutazione umana. Idealmente, uno strumento di valutazione automatica impara a imitare un valutatore umano.Sono disponibili valutatori automatici predefiniti, ma i migliori sono ottimizzati in modo specifico per l'attività che stai valutando.
modello autoregressivo
Un modello che deduce una previsione in base alle proprie previsioni precedenti. Ad esempio, i modelli linguistici autoregressivi prevedono il successivo token in base ai token previsti in precedenza. Tutti i modelli linguistici di grandi dimensioni basati su Transformer sono autoregressivi.
Al contrario, i modelli di immagini basati su GAN di solito non sono autoregressivi, in quanto generano un'immagine in un singolo passaggio in avanti e non in modo iterativo in passaggi. Tuttavia, alcuni modelli di generazione delle immagini sono autoregressivi perché generano un'immagine in più passaggi.
perdita ausiliaria
Una funzione di perdita, utilizzata insieme a una rete neurale modello principale funzione di perdita, che contribuisce ad accelerare l'addestramento durante le prime iterazioni, quando i pesi vengono inizializzati in modo casuale.
Le funzioni di perdita ausiliari inviano gradienti efficaci ai livelli precedenti. Ciò facilita la convergenza durante l'addestramento contrastando il problema di scomparsa del gradiente.
precisione media a k
Una metrica per riassumere il rendimento di un modello su un singolo prompt che genera risultati classificati, ad esempio un elenco numerato di consigli di libri. La precisione media a k è la media dei valori di precisione a k per ogni risultato pertinente. La formula per la precisione media a k è quindi:
\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]
dove:
- \(n\) è il numero di elementi pertinenti nell'elenco.
Contrasto con il richiamo a k.
condizione allineata all'asse
In un albero decisionale, una condizione
che coinvolge una sola caratteristica. Ad esempio, se area
è una funzionalità, la seguente è una condizione allineata all'asse:
area > 200
Contrasto con la condizione obliqua.
B
backpropagation
L'algoritmo che implementa la discesa del gradiente nelle reti neurali.
L'addestramento di una rete neurale prevede molte iterazioni del seguente ciclo a due passaggi:
- Durante la propagazione in avanti, il sistema elabora un batch di esempi per generare una o più previsioni. Il sistema confronta ogni previsione con ogni valore dell'etichetta. La differenza tra la previsione e il valore dell'etichetta è la perdita per quell'esempio. Il sistema aggrega le perdite per tutti gli esempi per calcolare la perdita totale per il batch corrente.
- Durante il passaggio all'indietro (retropropagazione), il sistema riduce la perdita modificando i pesi di tutti i neuroni in tutti gli strati nascosti.
Le reti neurali spesso contengono molti neuroni in molti strati nascosti. Ciascuno di questi neuroni contribuisce alla perdita complessiva in modi diversi. La retropropagazione determina se aumentare o diminuire i pesi applicati a particolari neuroni.
Il tasso di apprendimento è un moltiplicatore che controlla il grado in cui ogni passaggio all'indietro aumenta o diminuisce ogni peso. Un tasso di apprendimento elevato aumenterà o diminuirà ogni peso più di un tasso di apprendimento basso.
In termini di calcolo, la retropropagazione implementa la regola della catena del calcolo. ovvero la retropropagazione calcola la derivata parziale dell'errore rispetto a ogni parametro.
Anni fa, i professionisti del machine learning dovevano scrivere codice per implementare la retropropagazione. Le moderne API ML come Keras ora implementano la backpropagation per te. Finalmente.
Per saperne di più, consulta la sezione Reti neurali di Machine Learning Crash Course.
bagging
Un metodo per addestrare un ensemble in cui ogni modello costituente viene addestrato su un sottoinsieme casuale di esempi di addestramento campionati con reinserimento. Ad esempio, una foresta casuale è un insieme di alberi decisionali addestrati con il bagging.
Il termine bagging è l'abbreviazione di bootstrap aggregating.
Per ulteriori informazioni, consulta la sezione Foreste casuali del corso Decision Forests.
bag of words
Una rappresentazione delle parole in una frase o in un passaggio, indipendentemente dall'ordine. Ad esempio, il modello bag of words rappresenta le tre frasi seguenti in modo identico:
- il cane salta
- salta il cane
- dog jumps the
Ogni parola viene mappata a un indice in un vettore sparso, dove il vettore ha un indice per ogni parola del vocabolario. Ad esempio, la frase the dog jumps viene mappata in un vettore delle caratteristiche con valori diversi da zero nei tre indici corrispondenti alle parole the, dog e jumps. Il valore diverso da zero può essere uno dei seguenti:
- 1 per indicare la presenza di una parola.
- Un conteggio del numero di volte in cui una parola compare nel sacchetto. Ad esempio, se la frase fosse the maroon dog is a dog with maroon fur, sia maroon che dog sarebbero rappresentati come 2, mentre le altre parole sarebbero rappresentate come 1.
- Un altro valore, ad esempio il logaritmo del conteggio del numero di volte in cui una parola appare nel bag.
base di riferimento
Un modello utilizzato come punto di riferimento per confrontare le prestazioni di un altro modello (in genere, uno più complesso). Ad esempio, un modello di regressione logistica potrebbe fungere da buona base di riferimento per un modello profondo.
Per un problema specifico, la baseline aiuta gli sviluppatori di modelli a quantificare il rendimento minimo previsto che un nuovo modello deve raggiungere per essere utile.
modello base
Un modello preaddestrato che può fungere da punto di partenza per l'ottimizzazione per svolgere attività o applicazioni specifiche.
Vedi anche modello preaddestrato e modello di base.
batch
L'insieme di esempi utilizzati in un'iterazione di addestramento . La dimensione del batch determina il numero di esempi in un batch.
Consulta la sezione Epoca per una spiegazione della relazione tra un batch e un'epoca.
Per saperne di più, consulta Regressione lineare: iperparametri in Machine Learning Crash Course.
inferenza batch
Il processo di inferenza delle previsioni su più esempi senza etichetta suddivisi in sottoinsiemi più piccoli ("batch").
L'inferenza batch può sfruttare le funzionalità di parallelizzazione dei chip di accelerazione. ovvero più acceleratori possono dedurre simultaneamente le previsioni su batch diversi di esempi senza etichetta, aumentando notevolmente il numero di inferenze al secondo.
Per saperne di più, consulta Sistemi ML di produzione: inferenza statica e dinamica in Machine Learning Crash Course.
normalizzazione batch
Normalizzazione dell'input o dell'output delle funzioni di attivazione in un livello nascosto. La normalizzazione dei batch può offrire i seguenti vantaggi:
- Rendi le reti neurali più stabili proteggendole dai pesi anomali.
- Consente tassi di apprendimento più elevati, che possono accelerare l'addestramento.
- Ridurre l'overfitting.
dimensione del batch
Il numero di esempi in un batch. Ad esempio, se la dimensione del batch è 100, il modello elabora 100 esempi per iterazione.
Di seguito sono riportate le strategie più comuni per le dimensioni del batch:
- Discesa stocastica del gradiente (SGD), in cui la dimensione del batch è 1.
- Batch completo, in cui la dimensione del batch è il numero di esempi nell'intero set di addestramento. Ad esempio, se il set di addestramento contiene un milione di esempi, la dimensione del batch sarà di un milione di esempi. Il caricamento completo del batch è in genere una strategia inefficiente.
- Mini-batch in cui la dimensione del batch è generalmente compresa tra 10 e 1000. Il mini-batch è in genere la strategia più efficiente.
Per ulteriori informazioni, consulta le seguenti risorse:
- Sistemi ML di produzione: inferenza statica e dinamica in Machine Learning Crash Course.
- Guida pratica per l'ottimizzazione del deep learning.
Rete neurale bayesiana
Una rete neurale probabilistica che tiene conto dell'incertezza nei pesi e negli output. Un modello di regressione di rete neurale standard in genere prevede un valore scalare; ad esempio, un modello standard prevede un prezzo della casa di 853.000. Al contrario, una rete neurale bayesiana prevede una distribuzione di valori; ad esempio, un modello bayesiano prevede un prezzo della casa di 853.000 con una deviazione standard di 67.200.
Una rete neurale bayesiana si basa sul teorema di Bayes per calcolare le incertezze relative a ponderazioni e previsioni. Una rete neurale bayesiana può essere utile quando è importante quantificare l'incertezza, ad esempio nei modelli correlati ai prodotti farmaceutici. Le reti neurali bayesiane possono anche contribuire a prevenire l'overfitting.
Ottimizzazione bayesiana
Una tecnica di modello di regressione probabilistica per ottimizzare le funzioni obiettivo computazionalmente costose ottimizzando invece un surrogato che quantifica l'incertezza utilizzando una tecnica di apprendimento bayesiano. Poiché l'ottimizzazione bayesiana è di per sé molto costosa, viene solitamente utilizzata per ottimizzare attività costose da valutare che hanno un numero ridotto di parametri, ad esempio la selezione degli iperparametri.
Equazione di Bellman
Nell'apprendimento per rinforzo, la seguente identità soddisfatta dalla funzione Q ottimale:
\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]
Gli algoritmi di apprendimento per rinforzo applicano questa identità per creare l'apprendimento Q utilizzando la seguente regola di aggiornamento:
\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]
Oltre al reinforcement learning, l'equazione di Bellman ha applicazioni nella programmazione dinamica. Consulta la voce di Wikipedia relativa all'equazione di Bellman.
BERT (Bidirectional Encoder Representations from Transformers)
Un'architettura del modello per la rappresentazione del testo. Un modello BERT addestrato può far parte di un modello più grande per la classificazione del testo o altre attività di ML.
BERT ha le seguenti caratteristiche:
- Utilizza l'architettura Transformer e si basa quindi sull'auto-attenzione.
- Utilizza la parte encoder del Transformer. Il compito dell'encoder è produrre buone rappresentazioni di testo, anziché eseguire un'attività specifica come la classificazione.
- È bidirezionale.
- Utilizza la mascheratura per l'addestramento non supervisionato.
Le varianti di BERT includono:
Consulta la pagina Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing per una panoramica di BERT.
bias (etica/equità)
1. Stereotipare, mostrare preconcetti o favoritismi verso determinate cose, persone o gruppi rispetto ad altri. Questi bias possono influire sulla raccolta e sull'interpretazione dei dati, sulla progettazione di un sistema e sul modo in cui gli utenti interagiscono con un sistema. Le forme di questo tipo di bias includono:
- bias di automazione
- Bias di conferma
- Bias dello sperimentatore
- bias di attribuzione di gruppo
- bias implicito
- Bias di affinità
- Bias di omogeneità del gruppo esterno
2. Errore sistematico introdotto da una procedura di campionamento o reporting. Le forme di questo tipo di bias includono:
- Bias di copertura
- Bias di non risposta
- Bias di partecipazione
- Bias di segnalazione
- bias di campionamento
- Bias di selezione
Da non confondere con il termine di bias nei modelli di machine learning o con il bias di previsione.
Per saperne di più, consulta Equità: tipi di bias in Machine Learning Crash Course.
bias (matematica) o termine di bias
Un'intercettazione o un offset da un'origine. Il bias è un parametro nei modelli di machine learning, che è simboleggiato da uno dei seguenti:
- b
- w0
Ad esempio, il bias è il b nella seguente formula:
In una semplice retta bidimensionale, il bias indica semplicemente l'intercetta sull'asse y. Ad esempio, la pendenza della retta nell'illustrazione seguente è 2.
Il bias esiste perché non tutti i modelli iniziano dall'origine (0,0). Ad esempio, supponiamo che l'ingresso in un parco divertimenti costi 2 euro e che vengano addebitati 0,50 euro per ogni ora di permanenza di un cliente. Pertanto, un modello che mappa il costo totale ha una distorsione di 2 perché il costo più basso è di 2 euro.
Il bias non deve essere confuso con il bias in etica ed equità o con il bias di previsione.
Per saperne di più, consulta Regressione lineare in Machine Learning Crash Course.
bidirezionale
Termine utilizzato per descrivere un sistema che valuta il testo che precede e segue una sezione di testo di destinazione. Al contrario, un sistema unidirezionale valuta solo il testo che precede una sezione di testo di destinazione.
Ad esempio, considera un modello linguistico mascherato che deve determinare le probabilità per la parola o le parole che rappresentano la sottolineatura nella seguente domanda:
Qual è il tuo _____?
Un modello linguistico unidirezionale dovrebbe basare le sue probabilità solo sul contesto fornito dalle parole "Che", "cosa" e "è". Al contrario, un modello linguistico bidirezionale potrebbe acquisire contesto anche da "con" e "te", il che potrebbe aiutarlo a generare previsioni migliori.
modello linguistico bidirezionale
Un modello linguistico che determina la probabilità che un determinato token sia presente in una determinata posizione in un estratto di testo in base al testo precedente e successivo.
bigram
Un bigramma in cui N=2.
classificazione binaria
Un tipo di attività di classificazione che prevede una delle due classi reciprocamente esclusive:
Ad esempio, i seguenti due modelli di machine learning eseguono ciascuno la classificazione binaria:
- Un modello che determina se i messaggi email sono spam (la classe positiva) o non spam (la classe negativa).
- Un modello che valuta i sintomi medici per determinare se una persona ha una determinata malattia (la classe positiva) o non ha quella malattia (la classe negativa).
Contrasta con la classificazione multiclasse.
Vedi anche regressione logistica e soglia di classificazione.
Per saperne di più, consulta la sezione Classificazione del corso intensivo di machine learning.
condizione binaria
In un albero decisionale, una condizione che ha solo due possibili risultati, in genere sì o no. Ad esempio, la seguente è una condizione binaria:
temperature >= 100
Contrasto con la condizione non binaria.
Per ulteriori informazioni, consulta la sezione Tipi di condizioni del corso Decision Forests.
binning
Sinonimo di raggruppamento.
BLEU (Bilingual Evaluation Understudy)
Una metrica compresa tra 0,0 e 1,0 per valutare le traduzioni automatiche, ad esempio dallo spagnolo al giapponese.
Per calcolare un punteggio, BLEU in genere confronta la traduzione di un modello ML (testo generato) con la traduzione di un esperto umano (testo di riferimento). Il grado di corrispondenza tra gli n-grammi nel testo generato e nel testo di riferimento determina il punteggio BLEU.
Il documento originale su questa metrica è BLEU: a Method for Automatic Evaluation of Machine Translation.
Vedi anche BLEURT.
BLEURT (Bilingual Evaluation Understudy from Transformers)
Una metrica per valutare le traduzioni automatiche da una lingua all'altra, in particolare da e verso l'inglese.
Per le traduzioni da e verso l'inglese, BLEURT è più in linea con le valutazioni umane rispetto a BLEU. A differenza di BLEU, BLEURT enfatizza le somiglianze semantiche (di significato) e può adattarsi alla parafrasi.
BLEURT si basa su un modello linguistico di grandi dimensioni preaddestrato (BERT per l'esattezza) che viene poi ottimizzato su testi di traduttori umani.
Il documento originale su questa metrica è BLEURT: Learning Robust Metrics for Text Generation.
aumentare
Una tecnica di machine learning che combina in modo iterativo un insieme di classificatori semplici e non molto accurati (definiti classificatori "deboli") in un classificatore con elevata precisione (un classificatore "forte") aumentando il peso degli esempi che il modello sta attualmente classificando in modo errato.
Per ulteriori informazioni, consulta la sezione Gradient Boosted Decision Trees? del corso Decision Forests.
riquadro di delimitazione
In un'immagine, le coordinate (x, y) di un rettangolo attorno a un'area di interesse, ad esempio il cane nell'immagine seguente.
trasmissione
Espandere la forma di un operando in un'operazione matematica con matrici a dimensioni compatibili per l'operazione. Ad esempio, l'algebra lineare richiede che i due operandi in un'operazione di addizione matriciale abbiano le stesse dimensioni. Di conseguenza, non puoi aggiungere una matrice di forma (m, n) a un vettore di lunghezza n. La trasmissione consente questa operazione espandendo virtualmente il vettore di lunghezza n in una matrice di forma (m, n) replicando gli stessi valori in ogni colonna.
Per ulteriori dettagli, consulta la seguente descrizione della trasmissione in NumPy.
il bucketing
Conversione di una singola caratteristica in più caratteristiche binarie chiamate bucket o bin, in genere in base a un intervallo di valori. La caratteristica troncata è in genere una caratteristica continua.
Ad esempio, anziché rappresentare la temperatura come una singola caratteristica continua in virgola mobile, potresti dividere gli intervalli di temperature in bucket discreti, ad esempio:
- <= 10 gradi Celsius corrisponde al bucket "freddo".
- 11-24 gradi Celsius rientrano nella categoria "temperato".
- >= 25 gradi Celsius sarebbe il bucket "caldo".
Il modello tratterà ogni valore nello stesso bucket in modo identico. Ad esempio, i valori 13
e 22
si trovano entrambi nel bucket temperato, quindi il modello tratta i due valori in modo identico.
Per saperne di più, consulta Dati numerici: binning in Machine Learning Crash Course.
C
livello di calibrazione
Un aggiustamento post-previsione, in genere per tenere conto del bias di previsione. Le previsioni e le probabilità aggiustate devono corrispondere alla distribuzione di un insieme di etichette osservate.
generazione di candidati
Il set iniziale di consigli scelti da un sistema di consigli. Ad esempio, considera una libreria che offre 100.000 titoli. La fase di generazione dei candidati crea un elenco molto più piccolo di libri adatti a un determinato utente, ad esempio 500. Ma anche 500 libri sono troppi da consigliare a un utente. Le fasi successive e più costose di un sistema di consigli (come l'assegnazione del punteggio e il riposizionamento) riducono questi 500 a un insieme molto più piccolo e utile di consigli.
Per ulteriori informazioni, consulta la panoramica della generazione di candidati nel corso sui sistemi di raccomandazione.
campionamento dei candidati
Un'ottimizzazione in fase di addestramento che calcola una probabilità per tutte le etichette positive, utilizzando, ad esempio, softmax, ma solo per un campione casuale di etichette negative. Ad esempio, dato un esempio etichettato beagle e dog, il campionamento dei candidati calcola le probabilità previste e i termini di perdita corrispondenti per:
- beagle
- cane
- un sottoinsieme casuale delle classi negative rimanenti (ad esempio, gatto, lecca-lecca, recinzione).
L'idea è che le classi negative possono imparare da un rinforzo negativo meno frequente, a condizione che le classi positive ricevano sempre un rinforzo positivo adeguato, e questo è effettivamente osservato empiricamente.
Il campionamento dei candidati è più efficiente dal punto di vista computazionale rispetto agli algoritmi di addestramento che calcolano le previsioni per tutte le classi negative, in particolare quando il numero di classi negative è molto elevato.
dati categorici
Caratteristiche con un insieme specifico di valori possibili. Ad esempio,
considera una funzionalità categorica denominata traffic-light-state
, che può
avere solo uno dei seguenti tre valori possibili:
red
yellow
green
Rappresentando traffic-light-state
come una caratteristica categorica,
un modello può apprendere
i diversi impatti di red
, green
e yellow
sul comportamento del conducente.
Le caratteristiche categoriche sono a volte chiamate caratteristiche discrete.
Contrasto con i dati numerici.
Per saperne di più, consulta la sezione Lavorare con dati categorici di Machine Learning Crash Course.
modello linguistico causale
Sinonimo di modello linguistico unidirezionale.
Consulta la sezione Modello linguistico bidirezionale per confrontare i diversi approcci direzionali nella modellazione linguistica.
centroide
Il centro di un cluster determinato da un algoritmo k-means o k-mediana. Ad esempio, se k è 3, l'algoritmo k-means o k-medie trova 3 centroidi.
Per saperne di più, consulta la sezione Algoritmi di clustering del corso Clustering.
clustering basato sui centroidi
Una categoria di algoritmi di clustering che organizzano i dati in cluster non gerarchici. k-means è l'algoritmo di clustering basato sui centroidi più utilizzato.
Contrasto con gli algoritmi di clustering gerarchico.
Per saperne di più, consulta la sezione Algoritmi di clustering del corso Clustering.
chain-of-thought prompting
Una tecnica di prompt engineering che incoraggia un modello linguistico di grandi dimensioni (LLM) a spiegare il suo ragionamento, passo dopo passo. Ad esempio, considera il seguente prompt, prestando particolare attenzione alla seconda frase:
Quante forze G sperimenterebbe un conducente in un'auto che passa da 0 a 96 km/h in 7 secondi? Nella risposta, mostra tutti i calcoli pertinenti.
La risposta del LLM probabilmente:
- Mostra una sequenza di formule di fisica, inserendo i valori 0, 60 e 7 nei punti appropriati.
- Spiega perché ha scelto queste formule e cosa significano le varie variabili.
La Chain-of-Thought Prompting costringe l'LLM a eseguire tutti i calcoli, il che potrebbe portare a una risposta più corretta. Inoltre, il prompting chain-of-thought consente all'utente di esaminare i passaggi del LLM per determinare se la risposta è sensata o meno.
chat
I contenuti di un dialogo bot e utente con un sistema ML, in genere un modello linguistico di grandi dimensioni. L'interazione precedente in una chat (ciò che hai digitato e come ha risposto il modello linguistico di grandi dimensioni) diventa il contesto per le parti successive della chat.
Un chatbot è un'applicazione di un modello linguistico di grandi dimensioni.
posto di blocco
Dati che acquisiscono lo stato dei parametri di un modello durante l'addestramento o al termine dell'addestramento. Ad esempio, durante l'addestramento, puoi:
- Interrompere l'addestramento, intenzionalmente o a causa di determinati errori.
- Acquisisci il checkpoint.
- In un secondo momento, ricarica il checkpoint, possibilmente su un hardware diverso.
- Riavvia l'addestramento.
classe
Una categoria a cui può appartenere un'etichetta. Ad esempio:
- In un modello di classificazione binaria che rileva lo spam, le due classi potrebbero essere spam e non spam.
- In un modello di classificazione multi-classe che identifica le razze di cani, le classi potrebbero essere barboncino, beagle, carlino e così via.
Un modello di classificazione prevede una classe. Al contrario, un modello di regressione prevede un numero anziché una classe.
Per saperne di più, consulta la sezione Classificazione del corso intensivo di machine learning.
modello di classificazione
Un modello la cui previsione è una classe. Ad esempio, i seguenti sono tutti modelli di classificazione:
- Un modello che prevede la lingua di una frase di input (francese? Spagnolo? ?).
- Un modello che prevede le specie di alberi (acero? Quercia? Baobab?).
- Un modello che prevede la classe positiva o negativa per una particolare condizione medica.
Al contrario, i modelli di regressione prevedono numeri anziché classi.
Due tipi comuni di modelli di classificazione sono:
soglia di classificazione
In una classificazione binaria, un numero compreso tra 0 e 1 che converte l'output non elaborato di un modello di regressione logistica in una previsione della classe positiva o della classe negativa. Tieni presente che la soglia di classificazione è un valore scelto da un essere umano, non un valore scelto dall'addestramento del modello.
Un modello di regressione logistica restituisce un valore grezzo compreso tra 0 e 1. Quindi:
- Se questo valore grezzo è maggiore della soglia di classificazione, viene prevista la classe positiva.
- Se questo valore grezzo è inferiore alla soglia di classificazione, viene prevista la classe negativa.
Ad esempio, supponiamo che la soglia di classificazione sia 0,8. Se il valore non elaborato è 0,9, il modello prevede la classe positiva. Se il valore non elaborato è 0,7, il modello prevede la classe negativa.
La scelta della soglia di classificazione influisce notevolmente sul numero di falsi positivi e falsi negativi.
Per saperne di più, consulta Soglie e matrice di confusione in Machine Learning Crash Course.
classificatore
Un termine informale per un modello di classificazione.
set di dati sbilanciato per classe
Un set di dati per un problema di classificazione in cui il numero totale di etichette di ogni classe è molto diverso. Ad esempio, considera un set di dati di classificazione binaria le cui due etichette sono suddivise come segue:
- 1.000.000 di etichette negative
- 10 etichette positive
Il rapporto tra etichette negative e positive è di 100.000 a 1, quindi si tratta di un set di dati con classi sbilanciate.
Al contrario, il seguente set di dati non è sbilanciato in termini di classi perché il rapporto tra etichette negative ed etichette positive è relativamente vicino a 1:
- 517 etichette negative
- 483 etichette positive
I set di dati multiclasse possono anche essere sbilanciati. Ad esempio, il seguente set di dati di classificazione multiclasse è anche sbilanciato perché un'etichetta ha molti più esempi rispetto alle altre due:
- 1.000.000 di etichette con la classe "verde"
- 200 etichette con la classe "viola"
- 350 etichette con la classe "arancione"
Vedi anche entropia, classe maggioritaria e classe minoritaria.
clipping
Una tecnica per gestire gli outlier eseguendo una o entrambe le seguenti operazioni:
- Riduzione dei valori della funzionalità superiori a una soglia massima fino a tale soglia.
- Aumentando i valori delle funzionalità inferiori a una soglia minima fino a quella soglia minima.
Ad esempio, supponiamo che meno dello 0,5% dei valori di una determinata caratteristica rientri al di fuori dell'intervallo 40-60. In questo caso, puoi procedere nel seguente modo:
- Tutti i valori superiori a 60 (la soglia massima) vengono impostati esattamente su 60.
- Tronca tutti i valori inferiori a 40 (la soglia minima) in modo che siano esattamente 40.
Gli outlier possono danneggiare i modelli, a volte causando l'overflow dei pesi�� durante l'addestramento. Alcuni valori anomali possono anche rovinare drasticamente metriche come l'accuratezza. Il clipping è una tecnica comune per limitare i danni.
Il taglio del gradiente forza i valori del gradiente all'interno di un intervallo designato durante l'addestramento.
Per saperne di più, consulta Dati numerici: normalizzazione in Machine Learning Crash Course.
Cloud TPU
Un acceleratore hardware specializzato progettato per velocizzare i carichi di lavoro di machine learning su Google Cloud.
clustering
Raggruppare esempi correlati, in particolare durante l'apprendimento non supervisionato. Una volta raggruppati tutti gli esempi, una persona può facoltativamente fornire un significato a ogni cluster.
Esistono molti algoritmi di clustering. Ad esempio, l'algoritmo k-means raggruppa gli esempi in base alla loro vicinanza a un centroide, come nel seguente diagramma:
Un ricercatore umano potrebbe quindi esaminare i cluster e, ad esempio, etichettare il cluster 1 come "alberi nani" e il cluster 2 come "alberi di dimensioni normali".
Come altro esempio, considera un algoritmo di clustering basato sulla distanza di un esempio da un punto centrale, illustrato come segue:
Per saperne di più, consulta il corso sul clustering.
co-adattamento
Un comportamento indesiderato in cui i neuroni prevedono pattern nei dati di addestramento basandosi quasi esclusivamente sugli output di altri neuroni specifici anziché sul comportamento della rete nel suo complesso. Quando i pattern che causano la co-adattamento non sono presenti nei dati di convalida, la co-adattamento causa un overfitting. La regolarizzazione dropout riduce la co-adattamento perché il dropout garantisce che i neuroni non possano fare affidamento esclusivamente su altri neuroni specifici.
filtro collaborativo
Fare previsioni sugli interessi di un utente in base agli interessi di molti altri utenti. Il filtraggio collaborativo viene spesso utilizzato nei sistemi di suggerimenti.
Per saperne di più, consulta la sezione Filtro collaborativo del corso Recommendation Systems.
modello compatto
Qualsiasi modello di piccole dimensioni progettato per essere eseguito su dispositivi di piccole dimensioni con risorse di calcolo limitate. Ad esempio, i modelli compatti possono essere eseguiti su cellulari, tablet o sistemi incorporati.
computing
(Sostantivo) Le risorse di calcolo utilizzate da un modello o un sistema, ad esempio potenza di elaborazione, memoria e spazio di archiviazione.
Vedi chip di accelerazione.
deriva del concetto
Un cambiamento nella relazione tra le caratteristiche e l'etichetta. Nel tempo, il concept drift riduce la qualità di un modello.
Durante l'addestramento, il modello apprende la relazione tra le caratteristiche e le relative etichette nel set di addestramento. Se le etichette nel set di addestramento sono buone approssimazioni del mondo reale, il modello dovrebbe fare buone previsioni del mondo reale. Tuttavia, a causa della variazione del concetto, le previsioni del modello tendono a peggiorare nel tempo.
Ad esempio, considera un modello di classificazione binaria che prevede se un determinato modello di auto è "efficiente dal punto di vista del consumo di carburante". ovvero le caratteristiche potrebbero essere:
- peso dell'auto
- compressione del motore
- transmission type
mentre l'etichetta è:
- a basso consumo di carburante
- non efficiente in termini di consumo di carburante
Tuttavia, il concetto di "auto a basso consumo di carburante" è in continua evoluzione. Un modello di auto etichettato come efficiente nei consumi nel 1994 sarebbe quasi certamente etichettato come non efficiente nei consumi nel 2024. Un modello che soffre di concept drift tende a fare previsioni sempre meno utili nel tempo.
Confronta e contrapponi con la non stazionarietà.
condizione
In un albero decisionale, qualsiasi nodo che l'albero decisionale contiene due condizioni:
Una condizione è chiamata anche divisione o test.
Condizione di contrasto con foglia.
Vedi anche:
Per ulteriori informazioni, consulta la sezione Tipi di condizioni del corso Decision Forests.
confabulazione
Sinonimo di allucinazione.
Confabulazione è probabilmente un termine più preciso dal punto di vista tecnico rispetto ad allucinazione. Tuttavia, l'allucinazione è diventata popolare per prima.
configurazione
Il processo di assegnazione dei valori iniziali delle proprietà utilizzati per addestrare un modello, inclusi:
- i livelli che compongono il modello
- la posizione dei dati
- iperparametri come:
Nei progetti di machine learning, la configurazione può essere eseguita tramite un file di configurazione speciale o utilizzando librerie di configurazione come le seguenti:
bias di conferma
La tendenza a cercare, interpretare, favorire e ricordare le informazioni in modo da confermare le proprie convinzioni o ipotesi preesistenti. Gli sviluppatori di machine learning potrebbero raccogliere o etichettare inavvertitamente i dati in modo da influenzare un risultato che supporti le loro convinzioni esistenti. Il bias di conferma è una forma di bias implicito.
Il bias dell'osservatore è una forma di bias di conferma in cui un osservatore continua ad addestrare i modelli finché un'ipotesi preesistente non viene confermata.
matrice di confusione
Una tabella NxN che riassume il numero di previsioni corrette e errate effettuate da un modello di classificazione. Ad esempio, considera la seguente matrice di confusione per un modello di classificazione binaria:
Tumore (previsto) | Non tumorale (previsto) | |
---|---|---|
Tumore (dati di fatto) | 18 (VP) | 1 (FN) |
Non-Tumor (ground truth) | 6 (FP) | 452 (TN) |
La matrice di confusione precedente mostra quanto segue:
- Delle 19 previsioni in cui la verità di base era Tumore, il modello ne ha classificate correttamente 18 e in modo errato 1.
- Delle 458 previsioni in cui la verità di base era Non-Tumor, il modello ne ha classificate correttamente 452 e in modo errato 6.
La matrice di confusione per un problema di classificazione multiclasse può aiutarti a identificare i pattern di errori. Ad esempio, considera la seguente matrice di confusione per un modello di classificazione multiclasse a 3 classi che classifica tre diversi tipi di iris (Virginica, Versicolor e Setosa). Quando i dati empirici reali erano Virginica, la matrice di confusione mostra che il modello aveva molte più probabilità di prevedere erroneamente Versicolor rispetto a Setosa:
Setosa (previsto) | Versicolor (previsto) | Virginica (previsto) | |
---|---|---|---|
Setosa (dati di fatto) | 88 | 12 | 0 |
Versicolor (dati di fatto) | 6 | 141 | 7 |
Virginica (dati empirici reali) | 2 | 27 | 109 |
Come altro esempio, una matrice di confusione potrebbe rivelare che un modello addestrato a riconoscere le cifre scritte a mano tende a prevedere erroneamente 9 anziché 4 o 1 anziché 7.
Le matrici di confusione contengono informazioni sufficienti per calcolare una varietà di metriche di rendimento, tra cui precisione e richiamo.
analisi delle circoscrizioni
Dividere una frase in strutture grammaticali più piccole ("costituenti"). Una parte successiva del sistema di ML, ad esempio un modello di comprensione del linguaggio naturale, può analizzare i costituenti più facilmente rispetto alla frase originale. Ad esempio, considera la seguente frase:
Il mio amico ha adottato due gatti.
Un analizzatore sintattico può dividere questa frase nei due seguenti costituenti:
- Il mio amico è una frase nominale.
- adopted two cats è una frase verbale.
Questi componenti possono essere ulteriormente suddivisi in componenti più piccoli. Ad esempio, il gruppo verbale
ha adottato due gatti
potrebbe essere ulteriormente suddiviso in:
- adottato è un verbo.
- due gatti è un altro sintagma nominale.
embedding contestuale del linguaggio
Un embedding che si avvicina alla "comprensione" di parole e frasi in modo simile a quello di un oratore umano fluente. Gli incorporamenti del linguaggio contestualizzato possono comprendere sintassi, semantica e contesto complessi.
Ad esempio, considera gli incorporamenti della parola inglese cow. Gli embedding precedenti, come word2vec, possono rappresentare le parole in inglese in modo che la distanza nello spazio di embedding da cow a bull sia simile alla distanza da ewe (pecora femmina) a ram (pecora maschio) o da female a male. Gli incorporamenti del linguaggio contestualizzato possono fare un ulteriore passo avanti riconoscendo che i parlanti inglesi a volte usano casualmente la parola cow per indicare sia la mucca che il toro.
finestra contestuale
Il numero di token che un modello può elaborare in un determinato prompt. Più ampia è la finestra contestuale, più informazioni il modello può utilizzare per fornire risposte coerenti e uniformi al prompt.
funzionalità continua
Una funzionalità in virgola mobile con un intervallo infinito di valori possibili, ad esempio temperatura o peso.
Contrasto con la funzionalità discreta.
campionamento di convenienza
Utilizzo di un set di dati non raccolti scientificamente per eseguire esperimenti rapidi. In un secondo momento, è essenziale passare a un set di dati raccolti scientificamente.
convergenza
Uno stato raggiunto quando i valori di perdita cambiano molto poco o non cambiano affatto a ogni iterazione. Ad esempio, la seguente curva di perdita suggerisce la convergenza a circa 700 iterazioni:
Un modello converge quando un ulteriore addestramento non migliora il modello.
Nel deep learning, i valori di perdita a volte rimangono costanti o quasi per molte iterazioni prima di diminuire. Durante un lungo periodo di valori di perdita costanti, potresti avere temporaneamente una falsa sensazione di convergenza.
Vedi anche interruzione anticipata.
Per saperne di più, consulta Convergenza del modello e curve di perdita in Machine Learning Crash Course.
funzione convessa
Una funzione in cui la regione sopra il grafico della funzione è un insieme convesso. La funzione convessa prototipica ha una forma simile alla lettera U. Ad esempio, le seguenti sono tutte funzioni convesse:
Al contrario, la seguente funzione non è convessa. Nota come la regione sopra il grafico non sia un insieme convesso:
Una funzione strettamente convessa ha esattamente un punto di minimo locale, che è anche il punto di minimo globale. Le funzioni a forma di U classiche sono funzioni strettamente convesse. Tuttavia, alcune funzioni convesse (ad esempio le rette) non hanno forma a U.
Per saperne di più, consulta Convergenza e funzioni convesse in Machine Learning Crash Course.
ottimizzazione convessa
Il processo di utilizzo di tecniche matematiche come la discesa del gradiente per trovare il minimo di una funzione convessa. Gran parte della ricerca nel machine learning si è concentrata sulla formulazione di vari problemi come problemi di ottimizzazione convessa e sulla loro risoluzione in modo più efficiente.
Per informazioni dettagliate, vedi Boyd e Vandenberghe, Convex Optimization.
insieme convesso
Un sottoinsieme dello spazio euclideo tale che una linea tracciata tra due punti qualsiasi del sottoinsieme rimanga completamente all'interno del sottoinsieme. Ad esempio, le seguenti due forme sono insiemi convessi:
Al contrario, le due forme seguenti non sono insiemi convessi:
convoluzione
In matematica, in termini semplici, una combinazione di due funzioni. Nel machine learning, una convoluzione combina il filtro convoluzionale e la matrice di input per addestrare i pesi.
Il termine "convoluzione" nel machine learning è spesso un modo abbreviato per fare riferimento all'operazione di convoluzione o al livello convoluzionale.
Senza convoluzioni, un algoritmo di machine learning dovrebbe apprendere un peso separato per ogni cella di un grande tensore. Ad esempio, un algoritmo di machine learning addestrato su immagini 2K x 2K sarebbe costretto a trovare 4 milioni di pesi separati. Grazie alle convoluzioni, un algoritmo di machine learning deve trovare i pesi solo per ogni cella del filtro convoluzionale, riducendo drasticamente la memoria necessaria per addestrare il modello. Quando viene applicato il filtro convoluzionale, viene semplicemente replicato nelle celle in modo che ciascuna venga moltiplicata per il filtro.
Per saperne di più, consulta Introduzione alle reti neurali convoluzionali nel corso Classificazione delle immagini.
filtro convoluzionale
Uno dei due attori in un'operazione di convoluzione. (L'altro attore è una sezione di una matrice di input.) Un filtro convoluzionale è una matrice con lo stesso rango della matrice di input, ma una forma più piccola. Ad esempio, data una matrice di input 28x28, il filtro può essere qualsiasi matrice 2D più piccola di 28x28.
Nella manipolazione fotografica, tutte le celle di un filtro convoluzionale sono in genere impostate su un pattern costante di 1 e 0. Nel machine learning, i filtri convoluzionali vengono in genere inizializzati con numeri casuali e poi la rete addestra i valori ideali.
Per saperne di più, consulta Convoluzione nel corso Classificazione delle immagini.
livello convoluzionale
Uno strato di una rete neurale profonda in cui un filtro convoluzionale passa lungo una matrice di input. Ad esempio, considera il seguente filtro convoluzionale 3x3:
L'animazione seguente mostra un livello convoluzionale costituito da 9 operazioni convoluzionali che coinvolgono la matrice di input 5x5. Tieni presente che ogni operazione di convoluzione funziona su una sezione 3x3 diversa della matrice di input. La matrice 3x3 risultante (a destra) è costituita dai risultati delle 9 operazioni di convoluzione:
Per saperne di più, consulta Livelli completamente connessi nel corso Classificazione delle immagini.
rete neurale convoluzionale
Una rete neurale in cui almeno uno strato è uno strato convoluzionale. Una tipica rete neurale convoluzionale è costituita da una combinazione dei seguenti livelli:
Le reti neurali convoluzionali hanno ottenuto ottimi risultati in alcuni tipi di problemi, come il riconoscimento delle immagini.
operazione di convoluzione
La seguente operazione matematica in due passaggi:
- Moltiplicazione elemento per elemento del filtro convoluzionale e di una sezione di una matrice di input. La sezione della matrice di input ha lo stesso rango e le stesse dimensioni del filtro convoluzionale.
- Somma di tutti i valori nella matrice dei prodotti risultante.
Ad esempio, considera la seguente matrice di input 5x5:
Ora immagina il seguente filtro convoluzionale 2x2:
Ogni operazione di convoluzione coinvolge una singola sezione 2x2 della matrice di input. Ad esempio, supponiamo di utilizzare la sezione 2x2 in alto a sinistra della matrice di input. Pertanto, l'operazione di convoluzione su questa sezione è la seguente:
Un livello convoluzionale è costituito da una serie di operazioni convoluzionali, ognuna delle quali agisce su una sezione diversa della matrice di input.
costo
Sinonimo di perdita.
co-training
Un approccio di apprendimento semi-supervisionato particolarmente utile quando sono vere tutte le seguenti condizioni:
- Il rapporto tra esempi senza etichetta ed esempi con etichetta nel set di dati è elevato.
- Si tratta di un problema di classificazione (binaria o multiclasse).
- Il set di dati contiene due diversi insiemi di caratteristiche predittive indipendenti l'uno dall'altro e complementari.
Il co-training amplifica essenzialmente i segnali indipendenti in un segnale più forte. Ad esempio, considera un modello di classificazione che classifica le singole auto usate come Buone o Cattive. Un insieme di funzionalità predittive potrebbe concentrarsi su caratteristiche aggregate come l'anno, la marca e il modello dell'auto; un altro insieme di funzionalità predittive potrebbe concentrarsi su la cronologia di guida del precedente proprietario e la cronologia di manutenzione dell'auto.
L'articolo fondamentale sul co-training è Combining Labeled and Unlabeled Data with Co-Training di Blum e Mitchell.
equità controfattuale
Una metrica di equità che controlla se un modello di classificazione produce lo stesso risultato per un individuo e per un altro individuo identico al primo, tranne per uno o più attributi sensibili. La valutazione di un modello di classificazione per l'equità controfattuale è un metodo per individuare potenziali fonti di bias in un modello.
Per saperne di più, consulta uno dei seguenti articoli:
- Equità: equità controfattuale in Machine Learning Crash Course.
- When Worlds Collide: Integrating Different Counterfactual Assumptions in Fairness (Quando i mondi si scontrano: integrare diverse ipotesi controfattuali nell'equità)
bias di copertura
Consulta la sezione Bias di selezione.
crash blossom
Una frase o un'espressione con un significato ambiguo. I crash blossom rappresentano un problema significativo nella comprensione del linguaggio naturale. Ad esempio, il titolo Red Tape Holds Up Skyscraper è un crash blossom perché un modello NLU potrebbe interpretare il titolo letteralmente o figurativamente.
critico
Sinonimo di Deep Q-Network.
entropia incrociata
Una generalizzazione della perdita logaritmica per problemi di classificazione multiclasse. L'entropia incrociata quantifica la differenza tra due distribuzioni di probabilità. Vedi anche perplessità.
convalida incrociata
Un meccanismo per stimare il livello di generalizzazione di un modello a nuovi dati testando il modello su uno o più sottoinsiemi di dati non sovrapposti sottratti dal set di addestramento.
funzione di distribuzione cumulativa (CDF)
Una funzione che definisce la frequenza dei campioni minore o uguale a un valore target. Ad esempio, considera una distribuzione normale di valori continui. Una CDF indica che circa il 50% dei campioni deve essere inferiore o uguale alla media e che circa l'84% dei campioni deve essere inferiore o uguale a una deviazione standard sopra la media.
D
analisi dei dati
Ottenere una comprensione dei dati considerando campioni, misurazioni e visualizzazioni. L'analisi dei dati può essere particolarmente utile quando un set di dati viene ricevuto per la prima volta, prima di creare il primo modello. È inoltre fondamentale per comprendere gli esperimenti e risolvere i problemi del sistema.
aumento dei dati
Aumentare artificialmente l'intervallo e il numero di esempi di addestramento trasformando gli esempi esistenti per creare esempi aggiuntivi. Ad esempio, supponiamo che le immagini siano una delle tue funzionalità, ma il tuo set di dati non contiene esempi di immagini sufficienti per consentire al modello di apprendere associazioni utili. Idealmente, dovresti aggiungere al tuo set di dati un numero sufficiente di immagini etichettate per consentire al modello di addestrarsi correttamente. Se ciò non è possibile, l'aumento dei dati può ruotare, allungare e riflettere ogni immagine per produrre molte varianti dell'immagine originale, ottenendo così dati etichettati sufficienti per consentire un ottimo addestramento.
DataFrame
Un tipo di dati pandas popolare per rappresentare i set di dati in memoria.
Un DataFrame è analogo a una tabella o a un foglio di lavoro. Ogni colonna di un DataFrame ha un nome (un'intestazione) e ogni riga è identificata da un numero univoco.
Ogni colonna di un DataFrame è strutturata come un array bidimensionale, tranne per il fatto che a ogni colonna può essere assegnato un proprio tipo di dati.
Consulta anche la pagina di riferimento di pandas.DataFrame ufficiale.
parallelismo dei dati
Un modo per scalare l'addestramento o l'inferenza che replica un intero modello su più dispositivi e poi passa un sottoinsieme dei dati di input a ciascun dispositivo. Il parallelismo dei dati può consentire l'addestramento e l'inferenza su batch di dimensioni molto grandi ; tuttavia, il parallelismo dei dati richiede che il modello sia abbastanza piccolo da poter essere memorizzato su tutti i dispositivi.
Il parallelismo dei dati in genere accelera l'addestramento e l'inferenza.
Vedi anche parallelismo dei modelli.
API Dataset (tf.data)
Un'API TensorFlow di alto livello per leggere i dati e
trasformarli in un formato richiesto da un algoritmo di machine learning.
Un oggetto tf.data.Dataset
rappresenta una sequenza di elementi, in cui
ogni elemento contiene uno o più tensori. Un oggetto tf.data.Iterator
fornisce l'accesso agli elementi di un Dataset
.
set di dati
Una raccolta di dati non elaborati, comunemente (ma non esclusivamente) organizzati in uno dei seguenti formati:
- un foglio di lavoro
- un file in formato CSV (valori separati da virgole)
confine decisionale
Il separatore tra le classi apprese da un modello in un problema di classificazione binaria o multiclasse. Ad esempio, nell'immagine seguente che rappresenta un problema di classificazione binaria, il confine decisionale è la frontiera tra la classe arancione e la classe blu:
foresta decisionale
Un modello creato da più alberi decisionali. Una foresta decisionale fa una previsione aggregando le previsioni dei suoi alberi decisionali. I tipi più comuni di foreste decisionali includono foreste casuali e alberi potenziati dal gradiente.
Per ulteriori informazioni, consulta la sezione Foreste decisionali del corso sulle foreste decisionali.
soglia di decisione
Sinonimo di soglia di classificazione.
albero decisionale
Un modello di apprendimento supervisionato composto da un insieme di condizioni e foglie organizzate gerarchicamente. Ad esempio, di seguito è riportata una struttura decisionale:
decoder
In generale, qualsiasi sistema di ML che esegue la conversione da una rappresentazione elaborata, densa o interna a una rappresentazione più grezza, sparsa o esterna.
I decoder sono spesso un componente di un modello più grande, in cui vengono spesso accoppiati a un encoder.
Nelle attività da sequenza a sequenza, un decoder inizia con lo stato interno generato dall'encoder per prevedere la sequenza successiva.
Consulta Transformer per la definizione di un decoder all'interno dell'architettura Transformer.
Per saperne di più, consulta Modelli linguistici di grandi dimensioni in Machine Learning Crash Course.
modello deep
Una rete neurale contenente più di un strato nascosto.
Un modello profondo è chiamato anche rete neurale profonda.
Contrasto con il modello ampio.
per le reti neurali profonde
Sinonimo di modello profondo.
Deep Q-Network (DQN)
Nel Q-learning, una rete neurale profonda che prevede le funzioni Q.
Critic è un sinonimo di Deep Q-Network.
parità demografica
Una metrica di equità che viene soddisfatta se i risultati della classificazione di un modello non dipendono da un determinato attributo sensibile.
Ad esempio, se sia i lillipuziani che i brobdingnagiani fanno domanda all'Università di Glubbdubdrib, la parità demografica viene raggiunta se la percentuale di lillipuziani ammessi è la stessa di quella dei brobdingnagiani ammessi, indipendentemente dal fatto che un gruppo sia in media più qualificato dell'altro.
Contrasta con probabilità equalizzate e uguaglianza delle opportunità, che consentono ai risultati della classificazione aggregata di dipendere da attributi sensibili, ma non consentono ai risultati della classificazione per determinate etichette verità di riferimento specificate di dipendere da attributi sensibili. Consulta "Attacking discrimination with smarter machine learning" per una visualizzazione che esplora i compromessi quando si esegue l'ottimizzazione per la parità demografica.
Per saperne di più, consulta Equità: parità demografica in Machine Learning Crash Course.
riduzione del rumore
Un approccio comune all'apprendimento auto-supervisionato in cui:
La rimozione del rumore consente l'apprendimento da esempi non etichettati. Il set di dati originale funge da target o etichetta e i dati rumorosi come input.
Alcuni modelli linguistici mascherati utilizzano la rimozione del rumore nel seguente modo:
- Il rumore viene aggiunto artificialmente a una frase senza etichetta mascherando alcuni dei token.
- Il modello tenta di prevedere i token originali.
caratteristica densa
Una caratteristica in cui la maggior parte o tutti i valori sono diversi da zero, in genere un tensore di valori in virgola mobile. Ad esempio, il seguente tensore di 10 elementi è denso perché 9 dei suoi valori sono diversi da zero:
8 | 3 | 7 | 5 | 2 | 4 | 0 | 4 | 9 | 6 |
Contrasto con la funzionalità sparsa.
strato denso
Sinonimo di strato completamente connesso.
profondità
La somma di quanto segue in una rete neurale:
- il numero di livelli nascosti
- il numero di livelli di output, che in genere è 1
- il numero di eventuali strati di incorporamento
Ad esempio, una rete neurale con cinque strati nascosti e uno strato di output ha una profondità di 6.
Tieni presente che il livello di input non influisce sulla profondità.
rete neurale convoluzionale separabile per profondità (sepCNN)
Un'architettura di rete neurale convoluzionale basata su Inception, ma in cui i moduli Inception vengono sostituiti da convoluzioni separabili in profondità. Noto anche come Xception.
Una convoluzione separabile per profondità (abbreviata anche come convoluzione separabile) fattorizza una convoluzione 3D standard in due operazioni di convoluzione separate più efficienti dal punto di vista computazionale: prima una convoluzione separabile per profondità, con una profondità di 1 (n ✕ n ✕ 1), e poi una convoluzione puntuale, con lunghezza e larghezza di 1 (1 ✕ 1 ✕ n).
Per saperne di più, consulta Xception: Deep Learning with Depthwise Separable Convolutions.
etichetta derivata
Sinonimo di etichetta proxy.
dispositivo
Un termine sovraccarico con le seguenti due possibili definizioni:
- Una categoria di hardware in grado di eseguire una sessione TensorFlow, tra cui CPU, GPU e TPU.
- Quando addestri un modello ML su chip acceleratori (GPU o TPU), la parte del sistema che manipola effettivamente tensori e incorporamenti. Il dispositivo funziona con chip di accelerazione. Al contrario, l'host in genere viene eseguito su una CPU.
privacy differenziale
Nell'apprendimento automatico, un approccio di anonimizzazione per proteggere i dati sensibili (ad esempio, le informazioni personali di un individuo) inclusi nel set di addestramento di un modello dall'esposizione. Questo approccio garantisce che il modello non impari o ricordi molto di una persona specifica. Ciò si ottiene campionando e aggiungendo rumore durante l'addestramento del modello per oscurare i singoli punti dati, riducendo il rischio di esporre dati di addestramento sensibili.
La privacy differenziale viene utilizzata anche al di fuori del machine learning. Ad esempio, i data scientist a volte utilizzano la privacy differenziale per proteggere la privacy individuale quando calcolano le statistiche sull'utilizzo dei prodotti per diverse fasce demografiche.
riduzione delle dimensioni
Riduzione del numero di dimensioni utilizzate per rappresentare una determinata funzionalità in un vettore delle funzionalità, in genere mediante la conversione in un vettore di incorporamento.
dimensioni
Termine sovraccarico con una delle seguenti definizioni:
Il numero di livelli di coordinate in un Tensor. Ad esempio:
- Uno scalare ha zero dimensioni, ad esempio
["Hello"]
. - Un vettore ha una dimensione, ad esempio
[3, 5, 7, 11]
. - Una matrice ha due dimensioni, ad esempio
[[2, 4, 18], [5, 7, 14]]
. Puoi specificare in modo univoco una cella particolare in un vettore unidimensionale con una coordinata; hai bisogno di due coordinate per specificare in modo univoco una cella particolare in una matrice bidimensionale.
- Uno scalare ha zero dimensioni, ad esempio
Il numero di voci in un vettore di caratteristiche.
Il numero di elementi in un livello di incorporamento.
prompt diretto
Sinonimo di prompt zero-shot.
funzionalità discreta
Una caratteristica con un insieme finito di valori possibili. Ad esempio, una caratteristica i cui valori possono essere solo animale, vegetale o minerale è una caratteristica discreta (o categorica).
Contrasto con la caratteristica continua.
modello discriminativo
Un modello che prevede etichette da un insieme di una o più caratteristiche. Più formalmente, i modelli discriminativi definiscono la probabilità condizionata di un output date le funzionalità e i pesi, ovvero:
p(output | features, weights)
Ad esempio, un modello che prevede se un'email è spam in base a caratteristiche e pesi è un modello discriminante.
La stragrande maggioranza dei modelli di apprendimento supervisionato, inclusi i modelli di classificazione e regressione, sono modelli discriminativi.
Contrasto con il modello generativo.
discriminatore
Un sistema che determina se gli esempi sono reali o falsi.
In alternativa, il sottosistema all'interno di una rete adversarial generativa che determina se gli esempi creati dal generatore sono reali o falsi.
Per saperne di più, consulta la sezione Il discriminatore del corso sulle GAN.
impatto discriminatorio
Prendere decisioni sulle persone che influiscono in modo sproporzionato su diversi sottogruppi della popolazione. Ciò si riferisce in genere a situazioni in cui un processo decisionale algoritmico danneggia o avvantaggia alcuni sottogruppi più di altri.
Ad esempio, supponiamo che un algoritmo che determina l'idoneità di un lillipuziano a un mutuo per una casa in miniatura abbia maggiori probabilità di classificarlo come "non idoneo" se il suo indirizzo postale contiene un determinato codice postale. Se i lillipuziani Big-Endian hanno più probabilità di avere indirizzi postali con questo codice postale rispetto ai lillipuziani Little-Endian, questo algoritmo potrebbe comportare un impatto disparato.
In contrasto con il trattamento disparato, che si concentra sulle disparità che si verificano quando le caratteristiche dei sottogruppi sono input espliciti per un processo decisionale algoritmico.
trattamento discriminatorio
L'inclusione di attributi sensibili dei soggetti in un processo decisionale algoritmico in modo che diversi sottogruppi di persone vengano trattati in modo diverso.
Ad esempio, considera un algoritmo che determina l'idoneità dei lillipuziani a un prestito per una casa in miniatura in base ai dati forniti nella domanda di prestito. Se l'algoritmo utilizza l'affiliazione di un lillipuziano come Big-Endian o Little-Endian come input, sta attuando un trattamento disparato lungo questa dimensione.
In contrasto con l'impatto disparato, che si concentra sulle disparità negli impatti sociali delle decisioni algoritmiche sui sottogruppi, indipendentemente dal fatto che questi sottogruppi siano input del modello.
distillazione
Il processo di riduzione delle dimensioni di un modello (noto come insegnante) in un modello più piccolo (noto come studente) che emula le previsioni del modello originale nel modo più fedele possibile. La distillazione è utile perché il modello più piccolo presenta due vantaggi chiave rispetto al modello più grande (l'insegnante):
- Tempi di inferenza più rapidi
- Riduzione dell'utilizzo di memoria ed energia
Tuttavia, le previsioni dello studente in genere non sono buone come quelle dell'insegnante.
La distillazione addestra il modello studente a ridurre al minimo una funzione di perdita in base alla differenza tra gli output delle previsioni dei modelli studente e insegnante.
Confronta e contrapponi la distillazione con i seguenti termini:
Per saperne di più, consulta LLM: fine-tuning, distillazione e prompt engineering in Machine Learning Crash Course.
distribution
La frequenza e l'intervallo di valori diversi per una determinata funzionalità o etichetta. Una distribuzione acquisisce la probabilità di un valore specifico.
L'immagine seguente mostra gli istogrammi di due distribuzioni diverse:
- A sinistra, una distribuzione della ricchezza secondo la legge di potenza rispetto al numero di persone che possiedono quella ricchezza.
- A destra, una distribuzione normale dell'altezza rispetto al numero di persone che hanno quell'altezza.
Comprendere la distribuzione di ogni funzionalità ed etichetta può aiutarti a determinare come normalizzare i valori e rilevare gli outlier.
L'espressione fuori distribuzione si riferisce a un valore che non compare nel set di dati o è molto raro. Ad esempio, un'immagine del pianeta Saturno sarebbe considerata fuori distribuzione per un set di dati costituito da immagini di gatti.
clustering divisivo
Vedi clustering gerarchico.
sottocampionamento
Termine sovraccarico che può significare una delle seguenti opzioni:
- Riduzione della quantità di informazioni in una caratteristica per addestrare un modello in modo più efficiente. Ad esempio, prima di addestrare un modello di riconoscimento delle immagini, esegui il downsampling delle immagini ad alta risoluzione in un formato a risoluzione inferiore.
- Addestramento su una percentuale sproporzionatamente bassa di esempi di classe sovra rappresentata per migliorare l'addestramento del modello sulle classi sottorappresentate. Ad esempio, in un set di dati con squilibrio di classe, i modelli tendono ad apprendere molto sulla classe maggioritaria e non abbastanza sulla classe minoritaria. Il sottocampionamento aiuta a bilanciare la quantità di addestramento sulle classi maggioritarie e minoritarie.
Per saperne di più, consulta Set di dati: set di dati non bilanciati in Machine Learning Crash Course.
DQN
Abbreviazione di Deep Q-Network.
regolarizzazione del dropout
Una forma di regolarizzazione utile per l'addestramento di reti neurali. La regolarizzazione del dropout rimuove una selezione casuale di un numero fisso di unità in un livello di rete per un singolo passo del gradiente. Più unità vengono escluse, più forte è la regolarizzazione. Ciò è analogo all'addestramento della rete per emulare un ensemble di reti più piccole di dimensioni esponenzialmente grandi. Per tutti i dettagli, consulta l'articolo Dropout: A Simple Way to Prevent Neural Networks from Overfitting.
dinamico
Qualcosa che viene fatto frequentemente o continuamente. I termini dinamico e online sono sinonimi nel machine learning. Di seguito sono riportati gli utilizzi comuni di dinamico e online nel machine learning:
- Un modello dinamico (o modello online) è un modello che viene riaddestrato di frequente o continuamente.
- L'addestramento dinamico (o addestramento online) è il processo di addestramento frequente o continuo.
- L'inferenza dinamica (o inferenza online) è il processo di generazione di previsioni on demand.
modello dinamico
Un modello che viene riaddestrato frequentemente (forse anche in modo continuo). Un modello dinamico è un "apprendista permanente" che si adatta costantemente all'evoluzione dei dati. Un modello dinamico è noto anche come modello online.
Contrasto con il modello statico.
E
esecuzione eager
Un ambiente di programmazione TensorFlow in cui le operazioni vengono eseguite immediatamente. Al contrario, le operazioni chiamate in esecuzione del grafico non vengono eseguite finché non vengono valutate in modo esplicito. L'esecuzione eager è un'interfaccia imperativa, molto simile al codice nella maggior parte dei linguaggi di programmazione. I programmi di esecuzione eager sono in genere molto più facili da eseguire il debug rispetto ai programmi di esecuzione del grafico.
interruzione anticipata
Un metodo di regolarizzazione che prevede di terminare l'addestramento prima che la perdita di addestramento finisca di diminuire. Nell'interruzione anticipata, l'addestramento del modello viene interrotto intenzionalmente quando la perdita su un set di dati di convalida inizia ad aumentare, ovvero quando le prestazioni di generalizzazione peggiorano.
Contrasto con l'uscita anticipata.
distanza di movimento terra (EMD)
Una misura della similarità relativa di due distribuzioni. Più bassa è la distanza di Earth Mover, più simili sono le distribuzioni.
edit distance
Una misurazione del grado di somiglianza tra due stringhe di testo. Nel machine learning, la distanza di modifica è utile per i seguenti motivi:
- La distanza di modifica è facile da calcolare.
- La distanza di modifica può confrontare due stringhe note per essere simili tra loro.
- La distanza di modifica può determinare il grado di somiglianza di stringhe diverse rispetto a una determinata stringa.
Esistono diverse definizioni di distanza di modifica, ognuna delle quali utilizza operazioni diverse sulle stringhe. Per un esempio, vedi Distanza di Levenshtein.
Notazione di Einstein
Una notazione efficiente per descrivere come devono essere combinati due tensori. I tensori vengono combinati moltiplicando gli elementi di un tensore per gli elementi dell'altro tensore e poi sommando i prodotti. La notazione Einsum utilizza simboli per identificare gli assi di ogni tensore e questi stessi simboli vengono riorganizzati per specificare la forma del nuovo tensore risultante.
NumPy fornisce un'implementazione comune di Einsum.
strato di embedding
Uno speciale livello nascosto che viene addestrato su una caratteristica categorica ad alta dimensionalità per apprendere gradualmente un vettore di incorporamento a dimensionalità inferiore. Un livello di incorporamento consente a una rete neurale di eseguire l'addestramento in modo molto più efficiente rispetto all'addestramento basato solo sulla caratteristica categorica ad alta dimensionalità.
Ad esempio, attualmente Earth supporta circa 73.000 specie di alberi. Supponiamo che
la specie di albero sia una caratteristica del tuo modello, quindi il livello di input del modello
include un vettore one-hot lungo 73.000
elementi.
Ad esempio, forse baobab
potrebbe essere rappresentato in questo modo:
Un array di 73.000 elementi è molto lungo. Se non aggiungi un livello di incorporamento al modello, l'addestramento richiederà molto tempo a causa della moltiplicazione di 72.999 zeri. Forse scegli che lo strato di incorporamento sia composto da 12 dimensioni. Di conseguenza, il livello di incorporamento imparerà gradualmente un nuovo vettore di incorporamento per ogni specie di albero.
In determinate situazioni, l'hashing è un'alternativa ragionevole a un livello di incorporamento.
Per saperne di più, consulta la sezione Incorporamenti di Machine Learning Crash Course.
spazio di embedding
Lo spazio vettoriale d-dimensionale a cui vengono mappate le caratteristiche di uno spazio vettoriale di dimensione superiore. Lo spazio di embedding è addestrato per acquisire una struttura significativa per l'applicazione prevista.
Il prodotto scalare di due embedding è una misura della loro similarità.
vettore di embedding
In generale, un array di numeri in virgola mobile presi da qualsiasi strato nascosto che descrivono gli input di quello strato nascosto. Spesso, un vettore di incorporamento è l'array di numeri in virgola mobile addestrati in un livello di incorporamento. Ad esempio, supponiamo che un livello di embedding debba apprendere un vettore di embedding per ciascuna delle 73.000 specie di alberi sulla Terra. Forse il seguente array è il vettore di incorporamento per un baobab:
Un vettore di incorporamento non è un insieme di numeri casuali. Uno strato di incorporamento determina questi valori tramite l'addestramento, in modo simile a come una rete neurale apprende altri pesi durante l'addestramento. Ogni elemento dell'array è una valutazione di una caratteristica di una specie arborea. Quale elemento rappresenta la caratteristica di quale specie arborea? È molto difficile per gli esseri umani determinarlo.
La parte matematicamente notevole di un vettore di incorporamento è che elementi simili hanno insiemi simili di numeri in virgola mobile. Ad esempio, specie di alberi simili hanno un insieme di numeri in virgola mobile più simile rispetto a specie di alberi diverse. Le sequoie e le sequoie rosse sono specie arboree correlate, quindi avranno un insieme di numeri in virgola mobile più simile rispetto alle sequoie e alle palme da cocco. I numeri nel vettore di incorporamento cambiano ogni volta che viene eseguito il retraining del modello, anche se viene eseguito il retraining con input identici.
funzione di distribuzione cumulativa empirica (eCDF o EDF)
Una funzione di distribuzione cumulativa basata su misurazioni empiriche di un set di dati reale. Il valore della funzione in qualsiasi punto dell'asse x è la frazione di osservazioni nel set di dati che sono minori o uguali al valore specificato.
minimizzazione empirica del rischio (ERM)
Scegliendo la funzione che minimizza la perdita nel set di addestramento. Contrasto con la minimizzazione del rischio strutturale.
codificatore
In generale, qualsiasi sistema ML che converte una rappresentazione non elaborata, sparsa o esterna in una rappresentazione più elaborata, densa o interna.
Gli encoder sono spesso un componente di un modello più grande, in cui vengono spesso accoppiati a un decoder. Alcuni Transformer accoppiano encoder e decoder, mentre altri Transformer utilizzano solo l'encoder o solo il decoder.
Alcuni sistemi utilizzano l'output dell'encoder come input per una rete di classificazione o regressione.
Nelle attività da sequenza a sequenza, un encoder accetta una sequenza di input e restituisce uno stato interno (un vettore). Poi, il decoder utilizza questo stato interno per prevedere la sequenza successiva.
Consulta Transformer per la definizione di un encoder nell'architettura Transformer.
Per saperne di più, consulta LLM: che cos'è un modello linguistico di grandi dimensioni in Machine Learning Crash Course.
endpoints
Una posizione indirizzabile in rete (in genere un URL) in cui è possibile raggiungere un servizio.
ensemble
Una raccolta di modelli addestrati in modo indipendente le cui previsioni vengono calcolate come media o aggregate. In molti casi, un ensemble produce previsioni migliori rispetto a un singolo modello. Ad esempio, una foresta casuale è un insieme costruito da più alberi decisionali. Tieni presente che non tutte le foreste decisionali sono insiemi.
Per saperne di più, consulta Random Forest in Machine Learning Crash Course.
entropia
Nella teoria dell'informazione, una descrizione di quanto sia imprevedibile una distribuzione di probabilità. In alternativa, l'entropia è definita anche come la quantità di informazioni contenute in ogni esempio. Una distribuzione ha l'entropia più alta possibile quando tutti i valori di una variabile casuale sono ugualmente probabili.
L'entropia di un insieme con due possibili valori "0" e "1" (ad esempio, le etichette in un problema di classificazione binaria) ha la seguente formula:
H = -p log p - q log q = -p log p - (1-p) * log (1-p)
dove:
- H è l'entropia.
- p è la frazione di esempi "1".
- q è la frazione di esempi "0". Tieni presente che q = (1 - p)
- log è generalmente log2. In questo caso, l'unità di entropia è un bit.
Ad esempio, supponiamo quanto segue:
- 100 esempi contengono il valore "1"
- 300 esempi contengono il valore "0"
Pertanto, il valore di entropia è:
- p = 0,25
- q = 0,75
- H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 bit per esempio
Un insieme perfettamente bilanciato (ad esempio, 200 "0" e 200 "1") avrebbe un'entropia di 1 bit per esempio. Man mano che un set diventa più sbilanciato, la sua entropia tende a 0.0.
Negli alberi decisionali, l'entropia aiuta a formulare il guadagno di informazioni per aiutare lo splitter a selezionare le condizioni durante la crescita di un albero decisionale di classificazione.
Confronta l'entropia con:
- Impurità di Gini
- Funzione di perdita entropia incrociata
L'entropia viene spesso chiamata entropia di Shannon.
Per saperne di più, consulta Splitter esatto per la classificazione binaria con funzionalità numeriche nel corso Decision Forests.
produzione
Nell'apprendimento per rinforzo, il mondo che contiene l'agente e gli consente di osservare lo stato del mondo. Ad esempio, il mondo rappresentato può essere un gioco come gli scacchi o un mondo fisico come un labirinto. Quando l'agente applica un'azione all'ambiente, l'ambiente passa da uno stato all'altro.
puntata
Nell'apprendimento per rinforzo, ogni tentativo ripetuto dell'agente di apprendere un ambiente.
periodo
Un passaggio di addestramento completo sull'intero set di addestramento in modo che ogni esempio sia stato elaborato una volta.
Un'epoca rappresenta N
/dimensione batch
iterazioni di addestramento, dove N
è il
numero totale di esempi.
Ad esempio, supponiamo quanto segue:
- Il set di dati è composto da 1000 esempi.
- La dimensione del batch è di 50 esempi.
Pertanto, una singola epoca richiede 20 iterazioni:
1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations
Per saperne di più, consulta Regressione lineare: iperparametri in Machine Learning Crash Course.
epsilon greedy policy
Nell'apprendimento per rinforzo, una policy che segue una policy casuale con probabilità epsilon o una policy greedy altrimenti. Ad esempio, se epsilon è 0,9, la norma segue una norma casuale il 90% delle volte e una norma greedy il 10% delle volte.
Nel corso di episodi successivi, l'algoritmo riduce il valore di epsilon per passare da una strategia casuale a una strategia greedy. Spostando la policy, l'agente esplora prima l'ambiente in modo casuale e poi sfrutta avidamente i risultati dell'esplorazione casuale.
uguaglianza di opportunità
Una metrica di equità per valutare se un modello prevede il risultato desiderabile altrettanto bene per tutti i valori di un attributo sensibile. In altre parole, se il risultato desiderabile per un modello è la classe positiva, l'obiettivo sarebbe che il tasso di veri positivi sia lo stesso per tutti i gruppi.
L'uguaglianza delle opportunità è correlata alle probabilità equalizzate, che richiedono che entrambi i tassi di veri positivi e i tassi di falsi positivi siano gli stessi per tutti i gruppi.
Supponiamo che l'Università di Glubbdubdrib ammetta sia lillipuziani che brobdingnagiani a un rigoroso programma di matematica. Le scuole secondarie di Lilliput offrono un solido programma di corsi di matematica e la stragrande maggioranza degli studenti è qualificata per il programma universitario. Le scuole secondarie di Brobdingnag non offrono corsi di matematica e, di conseguenza, molti meno studenti sono qualificati. L'uguaglianza delle opportunità è soddisfatta per l'etichetta preferita di "ammesso" rispetto alla nazionalità (lillipuziana o brobdingnagiana) se gli studenti qualificati hanno la stessa probabilità di essere ammessi indipendentemente dal fatto che siano lillipuziani o brobdingnagiani.
Ad esempio, supponiamo che 100 lillipuziani e 100 brobdingnaghi facciano domanda all'Università di Glubbdubdrib e che le decisioni di ammissione vengano prese come segue:
Tabella 1. Candidati lillipuziani (il 90% è qualificato)
Qualificato | Non qualificato | |
---|---|---|
Ammesso | 45 | 3 |
Rifiutato | 45 | 7 |
Totale | 90 | 10 |
Percentuale di studenti qualificati ammessi: 45/90 = 50% Percentuale di studenti non qualificati respinti: 7/10 = 70% Percentuale totale di studenti lillipuziani ammessi: (45+3)/100 = 48% |
Tabella 2. Candidati brobdingnagiani (il 10% è qualificato):
Qualificato | Non qualificato | |
---|---|---|
Ammesso | 5 | 9 |
Rifiutato | 5 | 81 |
Totale | 10 | 90 |
Percentuale di studenti qualificati ammessi: 5/10 = 50% Percentuale di studenti non qualificati respinti: 81/90 = 90% Percentuale totale di studenti di Brobdingnag ammessi: (5+9)/100 = 14% |
Gli esempi precedenti soddisfano l'uguaglianza di opportunità per l'accettazione di studenti qualificati perché i lillipuziani e i brobdingnagiani qualificati hanno entrambi il 50% di possibilità di essere ammessi.
Sebbene l'uguaglianza delle opportunità sia soddisfatta, le seguenti due metriche di equità non sono soddisfatte:
- Parità demografica: i lillipuziani e i brobdingnagiani vengono ammessi all'università a tassi diversi; il 48% degli studenti lillipuziani viene ammesso, ma solo il 14% degli studenti brobdingnagiani.
- Probabilità uguali: mentre gli studenti lillipuziani e brobdingnagiani qualificati hanno la stessa probabilità di essere ammessi, il vincolo aggiuntivo che gli studenti lillipuziani e brobdingnagiani non qualificati abbiano la stessa probabilità di essere respinti non è soddisfatto. I Lillipuziani non qualificati hanno un tasso di rifiuto del 70%, mentre i Brobdingnagiani non qualificati hanno un tasso di rifiuto del 90%.
Per saperne di più, consulta la sezione Equità: pari opportunità di Machine Learning Crash Course.
probabilità equalizzate
Una metrica di equità per valutare se un modello prevede i risultati in modo equo per tutti i valori di un attributo sensibile rispetto sia alla classe positiva sia alla classe negativa, non solo a una classe o all'altra in modo esclusivo. In altre parole, sia la percentuale di veri positivi sia la percentuale di falsi negativi devono essere uguali per tutti i gruppi.
Le probabilità equalizzate sono correlate all'uguaglianza di opportunità, che si concentra solo sui tassi di errore per una singola classe (positiva o negativa).
Ad esempio, supponiamo che l'Università di Glubbdubdrib ammetta sia i lillipuziani che i brobdingnagiani a un rigoroso programma di matematica. Le scuole secondarie di Lilliput offrono un solido programma di corsi di matematica e la stragrande maggioranza degli studenti è qualificata per il programma universitario. Le scuole secondarie di Brobdingnag non offrono corsi di matematica e, di conseguenza, molti meno studenti sono qualificati. Le probabilità di parità sono soddisfatte a condizione che, indipendentemente dal fatto che un candidato sia un lillipuziano o un brobdingnagiano, se è qualificato, ha la stessa probabilità di essere ammesso al programma e, se non è qualificato, ha la stessa probabilità di essere rifiutato.
Supponiamo che 100 Lillipuziani e 100 Brobdingnagiani facciano domanda all'Università di Glubbdubdrib e che le decisioni di ammissione vengano prese come segue:
Tabella 3. Candidati lillipuziani (il 90% è qualificato)
Qualificato | Non qualificato | |
---|---|---|
Ammesso | 45 | 2 |
Rifiutato | 45 | 8 |
Totale | 90 | 10 |
Percentuale di studenti qualificati ammessi: 45/90 = 50% Percentuale di studenti non qualificati respinti: 8/10 = 80% Percentuale totale di studenti lillipuziani ammessi: (45+2)/100 = 47% |
Tabella 4. Candidati brobdingnagiani (il 10% è qualificato):
Qualificato | Non qualificato | |
---|---|---|
Ammesso | 5 | 18 |
Rifiutato | 5 | 72 |
Totale | 10 | 90 |
Percentuale di studenti qualificati ammessi: 5/10 = 50% Percentuale di studenti non qualificati respinti: 72/90 = 80% Percentuale totale di studenti di Brobdingnag ammessi: (5+18)/100 = 23% |
La condizione di probabilità uguale è soddisfatta perché gli studenti lillipuziani e brobdingnagiani qualificati hanno entrambi il 50% di possibilità di essere ammessi, mentre quelli non qualificati hanno l'80% di possibilità di essere respinti.
Le probabilità equalizzate sono definite formalmente in "Equality of Opportunity in Supervised Learning" come segue: "il predittore Ŷ soddisfa le probabilità equalizzate rispetto all'attributo protetto A e al risultato Y se Ŷ e A sono indipendenti, condizionati a Y".
Estimator
Un'API TensorFlow deprecata. Utilizza tf.keras anziché gli Estimator.
evals
Utilizzato principalmente come abbreviazione di valutazioni LLM. Più in generale, valutazioni è l'abbreviazione di qualsiasi forma di valutazione.
valutazione
Il processo di misurazione della qualità di un modello o il confronto tra modelli diversi.
Per valutare un modello di machine learning supervisionato, in genere lo si confronta con un set di convalida e un set di test. La valutazione di un LLM in genere comporta valutazioni più ampie di qualità e sicurezza.
esempio
I valori di una riga di caratteristiche ed eventualmente un'etichetta. Gli esempi di apprendimento supervisionato rientrano in due categorie generali:
- Un esempio etichettato è costituito da una o più funzionalità e da un'etichetta. Gli esempi etichettati vengono utilizzati durante l'addestramento.
- Un esempio senza etichetta è costituito da una o più funzionalità, ma nessuna etichetta. Gli esempi senza etichetta vengono utilizzati durante l'inferenza.
Ad esempio, supponiamo che tu stia addestrando un modello per determinare l'influenza delle condizioni meteorologiche sui punteggi dei test degli studenti. Ecco tre esempi etichettati:
Funzionalità | Etichetta | ||
---|---|---|---|
Temperatura | Umidità | Pressione | Punteggio del test |
15 | 47 | 998 | Buono |
19 | 34 | 1020 | Eccellente |
18 | 92 | 1012 | Scadente |
Ecco tre esempi senza etichetta:
Temperatura | Umidità | Pressione | |
---|---|---|---|
12 | 62 | 1014 | |
21 | 47 | 1017 | |
19 | 41 | 1021 |
La riga di un set di dati è in genere l'origine non elaborata di un esempio. ovvero un sottoinsieme delle colonne del set di dati. Inoltre, le caratteristiche di un esempio possono includere anche caratteristiche sintetiche, come incroci di caratteristiche.
Per saperne di più, consulta Apprendimento supervisionato nel corso Introduzione al machine learning.
experience replay
Nell'apprendimento per rinforzo, una tecnica DQN utilizzata per ridurre le correlazioni temporali nei dati di addestramento. L'agente memorizza le transizioni di stato in un buffer di replay, quindi campiona le transizioni dal buffer di replay per creare dati di addestramento.
bias dello sperimentatore
Consulta la sezione relativa al bias di conferma.
problema del gradiente esplosivo
La tendenza dei gradienti nelle reti neurali profonde (in particolare reti neurali ricorrenti) a diventare sorprendentemente ripidi (alti). I gradienti elevati spesso causano aggiornamenti molto grandi ai pesi di ogni nodo in una rete neurale profonda.
I modelli che soffrono del problema del gradiente esplosivo diventano difficili o impossibili da addestrare. Il clipping del gradiente può attenuare questo problema.
Confrontalo con il problema di scomparsa del gradiente.
F
F1
Una metrica di classificazione binaria "aggregata" che si basa sia sulla precisione sia sul richiamo. Ecco la formula:
oggettività
Nel mondo del machine learning, una proprietà che descrive un modello il cui output si basa sulla realtà. L'accuratezza è un concetto, non una metrica. Ad esempio, supponi di inviare il seguente prompt a un modello linguistico di grandi dimensioni:
Qual è la formula chimica del sale da tavola?
Un modello che ottimizza l'accuratezza risponderebbe:
NaCl
È allettante presumere che tutti i modelli debbano basarsi sulla veridicità. Tuttavia, alcuni prompt, come i seguenti, devono indurre un modello di AI generativa a ottimizzare la creatività anziché l'accuratezza.
Raccontami un limerick su un astronauta e un bruco.
È improbabile che il limerick risultante si basi sulla realtà.
Contrasto con l'ancoraggio.
vincolo di equità
Applicazione di un vincolo a un algoritmo per garantire che una o più definizioni di equità siano soddisfatte. Ecco alcuni esempi di vincoli di equità:- Post-elaborazione dell'output del modello.
- Modifica della funzione di perdita per incorporare una penalità per la violazione di una metrica di equità.
- Aggiunta diretta di un vincolo matematico a un problema di ottimizzazione.
metrica di equità
Una definizione matematica di "equità" misurabile. Alcune metriche di equità comunemente utilizzate includono:
Molte metriche di equità si escludono a vicenda. Vedi Incompatibilità delle metriche di equità.
falso negativo (FN)
Un esempio in cui il modello prevede erroneamente la classe negativa. Ad esempio, il modello prevede che un determinato messaggio email non sia spam (la classe negativa), ma che in realtà sia spam.
percentuale di falsi negativi
La proporzione di esempi positivi effettivi per i quali il modello ha previsto erroneamente la classe negativa. La seguente formula calcola il tasso di falsi negativi:
Per saperne di più, consulta Soglie e matrice di confusione in Machine Learning Crash Course.
falso positivo (FP)
Un esempio in cui il modello prevede erroneamente la classe positiva. Ad esempio, il modello prevede che un determinato messaggio email sia spam (la classe positiva), ma che in realtà non lo sia.
Per saperne di più, consulta Soglie e matrice di confusione in Machine Learning Crash Course.
percentuale di falsi positivi (FPR)
La proporzione di esempi negativi effettivi per i quali il modello ha erroneamente previsto la classe positiva. La seguente formula calcola il tasso di falsi positivi:
La percentuale di falsi positivi è l'asse x di una curva ROC.
Per saperne di più, consulta Classificazione: ROC e AUC in Machine Learning Crash Course.
decadimento rapido
Una tecnica di addestramento per migliorare le prestazioni degli LLM. Il decadimento rapido comporta una diminuzione rapida del tasso di apprendimento durante l'addestramento. Questa strategia aiuta a evitare che il modello esegua un overfitting dei dati di addestramento e migliora la generalizzazione.
caratteristica
Una variabile di input per un modello di machine learning. Un esempio è composto da una o più funzionalità. Ad esempio, supponiamo che tu stia addestrando un modello per determinare l'influenza delle condizioni meteorologiche sui punteggi dei test degli studenti. La tabella seguente mostra tre esempi, ognuno dei quali contiene tre funzionalità e un'etichetta:
Funzionalità | Etichetta | ||
---|---|---|---|
Temperatura | Umidità | Pressione | Punteggio del test |
15 | 47 | 998 | 92 |
19 | 34 | 1020 | 84 |
18 | 92 | 1012 | 87 |
Contrasto con l'etichetta.
Per saperne di più, consulta Apprendimento supervisionato nel corso Introduzione al machine learning.
incrocio di caratteristiche
Una caratteristica sintetica formata "incrociando" caratteristiche categoriche o raggruppate.
Ad esempio, considera un modello di "previsione dell'umore" che rappresenta la temperatura in uno dei seguenti quattro bucket:
freezing
chilly
temperate
warm
e rappresenta la velocità del vento in uno dei seguenti tre bucket:
still
light
windy
Senza incroci di caratteristiche, il modello lineare viene addestrato in modo indipendente su ciascuno dei
sette bucket precedenti. Pertanto, il modello viene addestrato, ad esempio, su freezing
indipendentemente dall'addestramento su, ad esempio, windy
.
In alternativa, potresti creare un incrocio di caratteristiche di temperatura e velocità del vento. Questa funzionalità sintetica avrebbe i seguenti 12 valori possibili:
freezing-still
freezing-light
freezing-windy
chilly-still
chilly-light
chilly-windy
temperate-still
temperate-light
temperate-windy
warm-still
warm-light
warm-windy
Grazie agli incroci di caratteristiche, il modello può apprendere le differenze di umore
tra un giorno freezing-windy
e un giorno freezing-still
.
Se crei una caratteristica sintetica da due caratteristiche che hanno molte bucket diversi, l'incrocio di caratteristiche risultante avrà un numero enorme di combinazioni possibili. Ad esempio, se una funzionalità ha 1000 bucket e l'altra ne ha 2000, il prodotto incrociato delle funzionalità risultante ha 2.000.000 di bucket.
Formalmente, un incrocio è un prodotto cartesiano.
I cross di caratteristiche vengono utilizzati principalmente con i modelli lineari e raramente con le reti neurali.
Per saperne di più, consulta Dati categorici: combinazioni di caratteristiche in Machine Learning Crash Course.
e applicazione del feature engineering.
Un processo che prevede i seguenti passaggi:
- Determinare quali caratteristiche potrebbero essere utili per l'addestramento di un modello.
- Conversione dei dati non elaborati del set di dati in versioni efficienti di queste caratteristiche.
Ad esempio, potresti determinare che temperature
potrebbe essere una funzionalità utile. Poi, potresti sperimentare il raggruppamento
per ottimizzare ciò che il modello può apprendere da diversi intervalli di temperature
.
Il feature engineering è a volte chiamato estrazione delle funzionalità o featurizzazione.
Per saperne di più, consulta la sezione Dati numerici: come un modello acquisisce i dati utilizzando i vettori delle caratteristiche in Machine Learning Crash Course.
estrazione delle caratteristiche
Termine sovraccarico con una delle seguenti definizioni:
- Recupero delle rappresentazioni delle funzionalità intermedie calcolate da un modello non supervisionato o preaddestrato (ad esempio, i valori dello strato nascosto in una rete neurale) da utilizzare come input in un altro modello.
- Sinonimo di feature engineering.
importanza delle caratteristiche
Sinonimo di importanza delle variabili.
set di funzionalità
Il gruppo di funzionalità su cui viene addestrato il tuo modello di machine learning. Ad esempio, un semplice insieme di funzionalità per un modello che prevede i prezzi delle case potrebbe essere costituito da codice postale, dimensioni della proprietà e condizioni della proprietà.
specifiche della funzionalità
Descrive le informazioni necessarie per estrarre i dati delle funzionalità dal buffer di protocollo tf.Example. Poiché il buffer di protocollo tf.Example è solo un contenitore per i dati, devi specificare quanto segue:
- I dati da estrarre (ovvero le chiavi delle funzionalità)
- Il tipo di dati (ad esempio, float o int)
- La lunghezza (fissa o variabile)
vettore di caratteristiche
L'array di valori delle funzionalità che compongono un esempio. Il vettore di caratteristiche viene inserito durante l'addestramento e durante l'inferenza. Ad esempio, il vettore delle caratteristiche per un modello con due caratteristiche discrete potrebbe essere:
[0.92, 0.56]
Ogni esempio fornisce valori diversi per il vettore delle caratteristiche, quindi il vettore delle caratteristiche per l'esempio successivo potrebbe essere simile a questo:
[0.73, 0.49]
Il feature engineering determina come rappresentare le caratteristiche nel vettore di caratteristiche. Ad esempio, una caratteristica categorica binaria con cinque valori possibili potrebbe essere rappresentata con codifica one-hot. In questo caso, la porzione del vettore delle caratteristiche per un particolare esempio sarebbe costituita da quattro zeri e un singolo 1.0 nella terza posizione, come segue:
[0.0, 0.0, 1.0, 0.0, 0.0]
Come altro esempio, supponiamo che il tuo modello sia composto da tre funzionalità:
- una caratteristica categorica binaria con cinque valori possibili rappresentati con la codifica one-hot; ad esempio:
[0.0, 1.0, 0.0, 0.0, 0.0]
- un'altra caratteristica categorica binaria con tre valori possibili rappresentati
con la codifica one-hot; ad esempio:
[0.0, 0.0, 1.0]
- una funzionalità in virgola mobile, ad esempio
8.3
.
In questo caso, il vettore delle caratteristiche per ogni esempio sarebbe rappresentato da nove valori. Dati i valori di esempio nell'elenco precedente, il vettore delle funzionalità sarebbe:
0.0 1.0 0.0 0.0 0.0 0.0 0.0 1.0 8.3
Per saperne di più, consulta la sezione Dati numerici: come un modello acquisisce i dati utilizzando i vettori delle caratteristiche in Machine Learning Crash Course.
featurizzazione
Il processo di estrazione delle caratteristiche da una fonte di input, come un documento o un video, e la mappatura di queste caratteristiche in un vettore di caratteristiche.
Alcuni esperti di ML utilizzano il termine "featurizzazione" come sinonimo di feature engineering o estrazione delle caratteristiche.
apprendimento federato
Un approccio di machine learning distribuito che addestra modelli di machine learning utilizzando esempi decentralizzati che risiedono su dispositivi come gli smartphone. Nell'apprendimento federato, un sottoinsieme di dispositivi scarica il modello attuale da un server di coordinamento centrale. I dispositivi utilizzano gli esempi memorizzati sui dispositivi per apportare miglioramenti al modello. I dispositivi caricano i miglioramenti del modello (ma non gli esempi di addestramento) sul server di coordinamento, dove vengono aggregati con altri aggiornamenti per ottenere un modello globale migliorato. Dopo l'aggregazione, gli aggiornamenti del modello calcolati dai dispositivi non sono più necessari e possono essere eliminati.
Poiché gli esempi di addestramento non vengono mai caricati, l'apprendimento federato segue i principi di privacy della raccolta mirata dei dati e della minimizzazione dei dati.
Per saperne di più, consulta il fumetto sull'apprendimento federato.
ciclo di feedback
Nel machine learning, una situazione in cui le previsioni di un modello influenzano i dati di addestramento per lo stesso modello o per un altro modello. Ad esempio, un modello che consiglia film influenzerà i film che le persone vedono, il che influenzerà a sua volta i modelli di consigli sui film successivi.
Per saperne di più, consulta Sistemi ML di produzione: domande da porre in Machine Learning Crash Course.
rete neurale feed-forward (FFN)
Una rete neurale senza connessioni cicliche o ricorsive. Ad esempio, le reti neurali profonde tradizionali sono reti neurali feedforward. A differenza delle reti neurali ricorrenti, che sono cicliche.
apprendimento few-shot
Un approccio di machine learning, spesso utilizzato per la classificazione degli oggetti, progettato per addestrare modelli di classificazione efficaci a partire da un numero ridotto di esempi di addestramento.
Vedi anche apprendimento one-shot e apprendimento zero-shot.
prompting few-shot
Un prompt che contiene più di un esempio che dimostra come deve rispondere il modello linguistico di grandi dimensioni. Ad esempio, il seguente prompt lungo contiene due esempi che mostrano a un modello linguistico di grandi dimensioni come rispondere a una query.
Parti di un prompt | Note |
---|---|
Qual è la valuta ufficiale del paese specificato? | La domanda a cui vuoi che l'LLM risponda. |
Francia: EUR | Un esempio. |
Regno Unito: GBP | Un altro esempio. |
India: | La query effettiva. |
Il prompting few-shot in genere produce risultati più desiderabili rispetto al prompting zero-shot e al prompting one-shot. Tuttavia, il prompt few-shot richiede un prompt più lungo.
Il prompt few-shot è una forma di apprendimento few-shot applicata all'apprendimento basato sui prompt.
Per saperne di più, consulta Prompt engineering in Machine Learning Crash Course.
Violino
Una libreria di configurazione Python-first che imposta i valori di funzioni e classi senza codice o infrastruttura invasivi. Nel caso di Pax e di altre basi di codice ML, queste funzioni e classi rappresentano modelli e iperparametri di addestramento.
Fiddle presuppone che le codebase di machine learning siano in genere suddivise in:
- Codice della libreria, che definisce i livelli e gli ottimizzatori.
- Codice "collante" del set di dati, che chiama le librerie e collega tutto.
Fiddle acquisisce la struttura di chiamata del codice di collegamento in una forma non valutata e modificabile.
ottimizzazione
Un secondo passaggio di addestramento specifico per l'attività eseguito su un modello preaddestrato per perfezionarne i parametri per un caso d'uso specifico. Ad esempio, la sequenza di addestramento completa per alcuni modelli linguistici di grandi dimensioni è la seguente:
- Preaddestramento:addestra un modello linguistico di grandi dimensioni su un vasto set di dati generici, come tutte le pagine di Wikipedia in lingua inglese.
- Ottimizzazione:addestra il modello preaddestrato a svolgere un'attività specifica, ad esempio rispondere a domande mediche. L'ottimizzazione in genere prevede centinaia o migliaia di esempi incentrati sull'attività specifica.
Un altro esempio è la sequenza di addestramento completa per un modello di immagini di grandi dimensioni:
- Preaddestramento:addestra un modello di immagini di grandi dimensioni su un vasto set di dati di immagini generiche, ad esempio tutte le immagini di Wikimedia Commons.
- Ottimizzazione:addestra il modello preaddestrato a svolgere un'attività specifica, come generare immagini di orche.
Il perfezionamento può comportare una qualsiasi combinazione delle seguenti strategie:
- Modifica di tutti i parametri esistenti del modello preaddestrato. Questa operazione viene a volte chiamata ottimizzazione completa.
- Modifica solo alcuni dei parametri esistenti del modello preaddestrato (in genere, i livelli più vicini al livello di output), mantenendo invariati gli altri parametri esistenti (in genere, i livelli più vicini al livello di input). Consulta la sezione Ottimizzazione efficiente dei parametri.
- Aggiungendo altri livelli, in genere sopra i livelli esistenti più vicini al livello di output.
L'ottimizzazione è una forma di transfer learning. Pertanto, il fine-tuning potrebbe utilizzare una funzione di perdita o un tipo di modello diverso da quelli utilizzati per addestrare il modello preaddestrato. Ad esempio, potresti ottimizzare un modello di immagini di grandi dimensioni preaddestrato per produrre un modello di regressione che restituisca il numero di uccelli in un'immagine di input.
Confronta e contrapponi il fine-tuning con i seguenti termini:
Per saperne di più, consulta la sezione Ottimizzazione di Machine Learning Crash Course.
Modello flash
Una famiglia di modelli Gemini relativamente piccoli ottimizzati per la velocità e la bassa latenza. I modelli Flash sono progettati per un'ampia gamma di applicazioni in cui risposte rapide e velocità effettiva elevata sono fondamentali.
Lino
Una libreria open source ad alte prestazioni per il deep learning basata su JAX. Flax fornisce funzioni per l'addestramento delle reti neurali, nonché metodi per valutarne le prestazioni.
Flaxformer
Una libreria Transformer open source, basata su Flax, progettata principalmente per l'elaborazione del linguaggio naturale e la ricerca multimodale.
forget gate
La parte di una cella Long Short-Term Memory che regola il flusso di informazioni attraverso la cella. I cancelli di dimenticanza mantengono il contesto decidendo quali informazioni scartare dallo stato della cella.
foundation model
Un modello preaddestrato molto grande addestrato su un set di addestramento enorme e diversificato. Un modello di base può svolgere entrambe le seguenti operazioni:
- Rispondere bene a un'ampia gamma di richieste.
- Funge da modello di base per l'ottimizzazione o altre personalizzazioni.
In altre parole, un modello di base è già molto efficace in senso generale, ma può essere ulteriormente personalizzato per diventare ancora più utile per un'attività specifica.
frazione di successi
Una metrica per valutare il testo generato di un modello ML. La frazione di successi è il numero di output di testo "riusciti" generati diviso per il numero totale di output di testo generati. Ad esempio, se un modello linguistico di grandi dimensioni ha generato 10 blocchi di codice, cinque dei quali sono stati eseguiti correttamente, la frazione di esecuzioni riuscite sarebbe del 50%.
Sebbene la frazione di successi sia ampiamente utile in tutta la statistica, all'interno del machine learning, questa metrica è utile principalmente per misurare attività verificabili come la generazione di codice o i problemi di matematica.
softmax completo
Sinonimo di softmax.
Contrasta con il campionamento dei candidati.
Per ulteriori informazioni, consulta Reti neurali: classificazione multiclasse in Machine Learning Crash Course.
strato completamente connesso
Uno strato nascosto in cui ogni nodo è connesso a ogni nodo dello strato nascosto successivo.
Uno strato completamente connesso è noto anche come strato denso.
trasformazione della funzione
Una funzione che accetta una funzione come input e restituisce una funzione trasformata come output. JAX utilizza le trasformazioni delle funzioni.
G
GAN
Abbreviazione di rete generativa avversaria.
Gemini
L'ecosistema che comprende l'AI più avanzata di Google. Gli elementi di questo ecosistema includono:
- Diversi modelli Gemini.
- L'interfaccia conversazionale interattiva di un modello Gemini. Gli utenti digitano i prompt e Gemini risponde.
- Varie API Gemini.
- Vari prodotti aziendali basati sui modelli Gemini, ad esempio Gemini for Google Cloud.
Modelli Gemini
Modelli multimodali all'avanguardia di Google basati su Transformer. I modelli Gemini sono progettati specificamente per l'integrazione con gli agenti.
Gli utenti possono interagire con i modelli Gemini in vari modi, ad esempio tramite un'interfaccia di dialogo interattiva e tramite SDK.
Gemma
Una famiglia di modelli aperti leggeri creati sulla base della stessa ricerca e tecnologia utilizzata per creare i modelli Gemini. Sono disponibili diversi modelli Gemma, ognuno dei quali offre funzionalità diverse, come visione, codice e rispetto delle istruzioni. Per maggiori dettagli, vedi Gemma.
GenAI o genAI
Abbreviazione di AI generativa.
generalizzazione
La capacità di un modello di fare previsioni corrette su dati nuovi e mai visti. Un modello in grado di generalizzare è l'opposto di un modello che è overfitting.
Per saperne di più, consulta la sezione Generalizzazione di Machine Learning Crash Course.
curva di generalizzazione
Un grafico della perdita di addestramento e della perdita di convalida in funzione del numero di iterazioni.
Una curva di generalizzazione può aiutarti a rilevare un possibile overfitting. Ad esempio, la seguente curva di generalizzazione suggerisce un overfitting perché la perdita di convalida alla fine diventa significativamente superiore alla perdita di addestramento.
Per saperne di più, consulta la sezione Generalizzazione di Machine Learning Crash Course.
modello lineare generalizzato
Una generalizzazione dei modelli di regressione dei minimi quadrati, che si basano sul rumore gaussiano, ad altri tipi di modelli basati su altri tipi di rumore, come il rumore di Poisson o il rumore categorico. Esempi di modelli lineari generalizzati includono:
- Regressione logistica
- regressione multiclasse
- regressione dei minimi quadrati
I parametri di un modello lineare generalizzato possono essere trovati tramite ottimizzazione convessa.
I modelli lineari generalizzati presentano le seguenti proprietà:
- La previsione media del modello di regressione dei minimi quadrati ottimale è uguale all'etichetta media nei dati di addestramento.
- La probabilità media prevista dal modello di regressione logistica ottimale è uguale all'etichetta media nei dati di addestramento.
La potenza di un modello lineare generalizzato è limitata dalle sue caratteristiche. A differenza di un modello profondo, un modello lineare generalizzato non può "apprendere nuove caratteristiche".
testo generato
In generale, il testo generato da un modello ML. Quando si valutano modelli linguistici di grandi dimensioni, alcune metriche confrontano il testo generato con il testo di riferimento. Ad esempio, supponiamo che tu stia cercando di determinare l'efficacia con cui un modello ML traduce dal francese all'olandese. In questo caso:
- Il testo generato è la traduzione in olandese restituita dal modello di ML.
- Il testo di riferimento è la traduzione in olandese creata da un traduttore umano (o da un software).
Tieni presente che alcune strategie di valutazione non prevedono testo di riferimento.
rete avversaria generativa (GAN)
Un sistema per creare nuovi dati in cui un generatore crea dati e un discriminatore determina se i dati creati sono validi o non validi.
Per saperne di più, consulta il corso sulle reti generative avversariali.
AI generativa
Un campo trasformativo emergente senza una definizione formale. Detto questo, la maggior parte degli esperti concorda sul fatto che i modelli di AI generativa possono creare ("generare") contenuti che siano tutti i seguenti:
- complesso
- coerente
- originale
Esempi di AI generativa:
- Modelli linguistici di grandi dimensioni (LLM), che possono generare testi originali sofisticati e rispondere alle domande.
- Modello di generazione delle immagini, che può produrre immagini uniche.
- Modelli di generazione di audio e musica, che possono comporre musica originale o generare un parlato realistico.
- Modelli di generazione video, che possono generare video originali.
Anche alcune tecnologie precedenti, tra cui LSTM e RNN, possono generare contenuti originali e coerenti. Alcuni esperti considerano queste tecnologie precedenti come AI generativa, mentre altri ritengono che la vera AI generativa richieda un output più complesso di quello che possono produrre queste tecnologie precedenti.
Contrasto con il machine learning predittivo.
modello generativo
In termini pratici, un modello che esegue una delle seguenti operazioni:
- Crea (genera) nuovi esempi dal set di dati di addestramento. Ad esempio, un modello generativo potrebbe creare poesie dopo l'addestramento su un set di dati di poesie. In questa categoria rientra la parte generatore di una rete generativa avversaria.
- Determina la probabilità che un nuovo esempio provenga dal set di addestramento o sia stato creato dallo stesso meccanismo che ha creato il set di addestramento. Ad esempio, dopo l'addestramento su un set di dati costituito da frasi in inglese, un modello generativo potrebbe determinare la probabilità che un nuovo input sia una frase in inglese valida.
Un modello generativo può teoricamente discernere la distribuzione degli esempi o di caratteristiche particolari in un set di dati. Ossia:
p(examples)
I modelli di apprendimento non supervisionato sono generativi.
Contrasto con i modelli discriminativi.
generatore
Il sottosistema all'interno di una rete adversariale generativa che crea nuovi esempi.
Contrasta con il modello discriminativo.
Impurità di Gini
Una metrica simile all'entropia. Gli splitter utilizzano valori derivati dall'impurità di Gini o dall'entropia per comporre condizioni per gli alberi decisionali. L'information gain deriva dall'entropia. Non esiste un termine equivalente universalmente accettato per la metrica derivata dall'impurità di Gini; tuttavia, questa metrica senza nome è importante quanto l'information gain.
L'impurità di Gini è chiamata anche indice di Gini o semplicemente Gini.
set di dati di riferimento
Un insieme di dati curati manualmente che acquisiscono i dati di riferimento. I team possono utilizzare uno o più golden dataset per valutare la qualità di un modello.
Alcuni set di dati di riferimento acquisiscono diversi sottodomini di dati empirici reali. Ad esempio, un set di dati di riferimento per la classificazione delle immagini potrebbe acquisire le condizioni di illuminazione e la risoluzione delle immagini.
risposta d'oro
Una risposta nota per essere buona. Ad esempio, dato il seguente prompt:
2 + 2
La risposta ideale è:
4
Google AI Studio
Uno strumento Google che fornisce un'interfaccia intuitiva per sperimentare e creare applicazioni utilizzando i modelli linguistici di grandi dimensioni di Google. Per maggiori dettagli, consulta la home page di Google AI Studio.
GPT (Generative Pre-trained Transformer)
Una famiglia di modelli linguistici di grandi dimensioni basati su Transformer sviluppati da OpenAI.
Le varianti GPT possono essere applicate a più modalità, tra cui:
- generazione di immagini (ad esempio ImageGPT)
- generazione di immagini da testo (ad esempio, DALL-E).
gradiente
Il vettore delle derivate parziali rispetto a tutte le variabili indipendenti. Nel machine learning, il gradiente è il vettore delle derivate parziali della funzione del modello. La pendenza indica la direzione di salita più ripida.
accumulo del gradiente
Una tecnica di retropropagazione che aggiorna i parametri solo una volta per epoca anziché una volta per iterazione. Dopo aver elaborato ogni mini-batch, l'accumulo del gradiente aggiorna semplicemente un totale parziale dei gradienti. Poi, dopo aver elaborato l'ultimo mini-batch dell'epoca, il sistema aggiorna finalmente i parametri in base al totale di tutte le modifiche ai gradienti.
L'accumulo del gradiente è utile quando la dimensione del batch è molto grande rispetto alla quantità di memoria disponibile per l'addestramento. Quando la memoria è un problema, la tendenza naturale è quella di ridurre la dimensione del batch. Tuttavia, la riduzione delle dimensioni del batch nella normale backpropagation aumenta il numero di aggiornamenti dei parametri. L'accumulo del gradiente consente al modello di evitare problemi di memoria, ma di eseguire comunque l'addestramento in modo efficiente.
alberi (decisionali) potenziati dal gradiente (GBT)
Un tipo di foresta decisionale in cui:
- L'addestramento si basa sul gradient boosting.
- Il modello debole è un albero decisionale.
Per ulteriori informazioni, consulta la sezione Gradient Boosted Decision Trees del corso Decision Forests.
gradient boosting
Un algoritmo di addestramento in cui i modelli deboli vengono addestrati per migliorare iterativamente la qualità (ridurre la perdita) di un modello forte. Ad esempio, un modello debole potrebbe essere un modello lineare o un piccolo albero decisionale. Il modello forte diventa la somma di tutti i modelli deboli addestrati in precedenza.
Nella forma più semplice di gradient boosting, a ogni iterazione viene addestrato un modello debole per prevedere il gradiente di perdita del modello forte. Quindi, l'output del modello robusto viene aggiornato sottraendo il gradiente previsto, in modo simile alla discesa del gradiente.
dove:
- $F_{0}$ è il modello di partenza.
- $F_{i+1}$ è il modello forte successivo.
- $F_{i}$ è il modello forte attuale.
- $\xi$ è un valore compreso tra 0,0 e 1,0 chiamato restringimento, che è analogo al tasso di apprendimento nella discesa del gradiente.
- $f_{i}$ è il modello debole addestrato per prevedere il gradiente di perdita di $F_{i}$.
Le varianti moderne del gradient boosting includono anche la derivata seconda (Hessiana) della perdita nel calcolo.
Gli alberi decisionali vengono comunemente utilizzati come modelli deboli nel gradient boosting. Vedi alberi (decisionali) con boosting del gradiente.
taglio del gradiente
Un meccanismo comunemente utilizzato per mitigare il problema del gradiente esplosivo limitando artificialmente (clipping) il valore massimo dei gradienti quando si utilizza la discesa del gradiente per addestrare un modello.
discesa del gradiente
Una tecnica matematica per ridurre al minimo la perdita. La discesa del gradiente regola in modo iterativo pesi e bias, trovando gradualmente la combinazione migliore per ridurre al minimo la perdita.
La discesa del gradiente è più vecchia, molto più vecchia, del machine learning.
Per saperne di più, consulta Regressione lineare: discesa del gradiente in Machine Learning Crash Course.
grafico
In TensorFlow, una specifica di calcolo. I nodi del grafico rappresentano le operazioni. I bordi sono diretti e rappresentano il passaggio del risultato di un'operazione (un Tensor) come operando a un'altra operazione. Utilizza TensorBoard per visualizzare un grafico.
esecuzione del grafo
Un ambiente di programmazione TensorFlow in cui il programma prima costruisce un grafo e poi esegue tutto o parte di questo grafo. L'esecuzione del grafico è la modalità di esecuzione predefinita in TensorFlow 1.x.
Contrasto con l'esecuzione eager.
greedy policy
Nell'apprendimento per rinforzo, una policy che sceglie sempre l'azione con il rendimento previsto più elevato.
fondatezza
Una proprietà di un modello il cui output si basa su (è "fondato su") materiale di origine specifico. Ad esempio, supponiamo di fornire un intero libro di testo di fisica come input ("contesto") a un modello linguistico di grandi dimensioni. Poi, chiedi al modello linguistico di grandi dimensioni di rispondere a una domanda di fisica. Se la risposta del modello riflette le informazioni contenute nel libro di testo, il modello è basato su quel libro di testo.Tieni presente che un modello basato su dati reali non è sempre un modello fattuale. Ad esempio, il libro di testo di fisica inserito potrebbe contenere errori.
dati di fatto
Realtà.
La cosa che è effettivamente accaduta.
Ad esempio, considera un modello di classificazione binaria che prevede se uno studente al primo anno di università si laureerà entro sei anni. I dati di riferimento per questo modello sono se lo studente si è effettivamente laureato entro sei anni.
bias di attribuzione di gruppo
Supporre che ciò che è vero per un individuo sia vero anche per tutti i membri del gruppo. Gli effetti del bias di attribuzione di gruppo possono essere esacerbati se per la raccolta dei dati viene utilizzato un campionamento di convenienza. In un campione non rappresentativo, le attribuzioni potrebbero non riflettere la realtà.
Vedi anche bias di omogeneità del gruppo esterno e bias di affinità. Per ulteriori informazioni, consulta anche Equità: tipi di bias in Machine Learning Crash Course.
H
allucinazione
La produzione di output apparentemente plausibili ma errati dal punto di vista dei fatti da parte di un modello di AI generativa che dichiara di fare un'affermazione sul mondo reale. Ad esempio, un modello di AI generativa che afferma che Barack Obama è morto nel 1865 sta allucinando.
hashing
Nel machine learning, un meccanismo per raggruppare dati categorici, in particolare quando il numero di categorie è elevato, ma il numero di categorie effettivamente presenti nel set di dati è relativamente piccolo.
Ad esempio, sulla Terra esistono circa 73.000 specie di alberi. Potresti rappresentare ciascuna delle 73.000 specie di alberi in 73.000 bucket categorici separati. In alternativa, se in un set di dati compaiono solo 200 di queste specie di alberi, puoi utilizzare l'hashing per dividere le specie di alberi in 500 bucket.
Un singolo bucket potrebbe contenere più specie di alberi. Ad esempio, l'hashing potrebbe inserire baobab e acero rosso, due specie geneticamente diverse, nello stesso bucket. In ogni caso, l'hashing è ancora un buon modo per mappare grandi insiemi categorici nel numero selezionato di bucket. L'hashing trasforma una caratteristica categorica con un numero elevato di valori possibili in un numero molto inferiore di valori raggruppandoli in modo deterministico.
Per saperne di più, consulta Dati categorici: vocabolario e codifica one-hot in Machine Learning Crash Course.
euristica
Una soluzione semplice e rapida da implementare a un problema. Ad esempio, "Con un'euristica, abbiamo raggiunto una precisione dell'86%. Quando siamo passati a una rete neurale profonda, l'accuratezza è salita al 98%".
strato nascosto
Un livello in una rete neurale tra il livello di input (le funzionalità) e il livello di output (la previsione). Ogni livello nascosto è costituito da uno o più neuroni. Ad esempio, la seguente rete neurale contiene due strati nascosti, il primo con tre neuroni e il secondo con due neuroni:
Una rete neurale profonda contiene più di uno strato nascosto. Ad esempio, l'illustrazione precedente è una rete neurale profonda perché il modello contiene due livelli nascosti.
Per saperne di più, consulta la sezione Reti neurali: nodi e livelli nascosti di Machine Learning Crash Course.
clustering gerarchico
Una categoria di algoritmi di clustering che creano un albero di cluster. Il clustering gerarchico è adatto ai dati gerarchici, come le tassonomie botaniche. Esistono due tipi di algoritmi di clustering gerarchico:
- Il clustering agglomerativo assegna innanzitutto ogni esempio al proprio cluster e unisce in modo iterativo i cluster più vicini per creare un albero gerarchico.
- Il clustering divisivo raggruppa prima tutti gli esempi in un unico cluster e poi divide iterativamente il cluster in un albero gerarchico.
Contrasto con il clustering basato sui centroidi.
Per saperne di più, consulta la sezione Algoritmi di clustering del corso Clustering.
hill climbing
Un algoritmo per migliorare in modo iterativo ("salire una collina") un modello ML finché il modello smette di migliorare ("raggiunge la cima di una collina"). La forma generale dell'algoritmo è la seguente:
- Crea un modello iniziale.
- Crea nuovi modelli candidati apportando piccoli aggiustamenti al modo in cui addestri o ottimizzi. Ciò potrebbe comportare l'utilizzo di un set di addestramento leggermente diverso o di iperparametri diversi.
- Valuta i nuovi modelli candidati ed esegui una delle
azioni seguenti:
- Se un modello candidato supera il modello iniziale, questo diventa il nuovo modello iniziale. In questo caso, ripeti i passaggi 1, 2 e 3.
- Se nessun modello supera il modello iniziale, hai raggiunto la cima della collina e devi interrompere l'iterazione.
Consulta il Deep Learning Tuning Playbook per indicazioni sull'ottimizzazione degli iperparametri. Consulta i moduli sui dati di Machine Learning Crash Course per indicazioni sul feature engineering.
perdita hinge
Una famiglia di funzioni di perdita per la classificazione progettate per trovare il limite decisionale il più lontano possibile da ogni esempio di addestramento, massimizzando così il margine tra gli esempi e il limite. Le SVM del kernel utilizzano la perdita hinge (o una funzione correlata, come la perdita hinge al quadrato). Per la classificazione binaria, la funzione di perdita hinge è definita come segue:
dove y è l'etichetta reale, -1 o +1, e y' è l'output non elaborato del modello di classificazione:
Di conseguenza, un grafico della perdita hinge rispetto a (y * y') ha il seguente aspetto:
bias storico
Un tipo di bias che esiste già nel mondo e che è entrato a far parte di un set di dati. Questi bias tendono a riflettere stereotipi culturali, disuguaglianze demografiche e pregiudizi esistenti nei confronti di determinati gruppi sociali.
Ad esempio, considera un modello di classificazione che prevede se un richiedente prestito non sarà in grado di restituire il prestito, che è stato addestrato su dati storici di insolvenza dei prestiti degli anni '80 di banche locali in due comunità diverse. Se i candidati precedenti della community A avevano una probabilità sei volte maggiore di non pagare i propri prestiti rispetto ai candidati della community B, il modello potrebbe apprendere un bias storico che lo porterebbe a essere meno propenso ad approvare prestiti nella community A, anche se le condizioni storiche che hanno portato a tassi di insolvenza più elevati in questa community non fossero più pertinenti.
Per saperne di più, consulta Equità: tipi di bias in Machine Learning Crash Course.
dati holdout
Esempi non utilizzati intenzionalmente ("tenuti in disparte") durante l'addestramento. Il set di dati di convalida e il set di dati di test sono esempi di dati di holdout. I dati di holdout consentono di valutare la capacità del modello di generalizzare i dati diversi da quelli su cui è stato addestrato. La perdita sul set di test fornisce una stima migliore della perdita su un set di dati invisibile rispetto alla perdita sul set di addestramento.
host
Quando addestri un modello di ML su chip acceleratori (GPU o TPU), la parte del sistema che controlla entrambi gli elementi seguenti:
- Il flusso generale del codice.
- L'estrazione e la trasformazione della pipeline di input.
L'host viene in genere eseguito su una CPU, non su un chip acceleratore; il dispositivo manipola i tensori sui chip acceleratori.
valutazione umana
Un processo in cui persone giudicano la qualità dell'output di un modello ML; ad esempio, persone bilingue giudicano la qualità di un modello di traduzione ML. La valutazione umana è particolarmente utile per giudicare i modelli che non hanno una sola risposta corretta.
Contrasta con la valutazione automatica e la valutazione del sistema di valutazione automatico.
human-in-the-loop (HITL)
Un'espressione idiomatica definita in modo generico che potrebbe significare una delle seguenti opzioni:
- Una policy di visualizzazione dell'output dell'AI generativa in modo critico o scettico. Ad esempio, le persone che scrivono questo glossario di ML sono stupite di ciò che i modelli linguistici di grandi dimensioni possono fare, ma sono consapevoli degli errori che commettono.
- Una strategia o un sistema per garantire che le persone contribuiscano a modellare, valutare e perfezionare il comportamento di un modello. Mantenere un essere umano nel ciclo consente a un'AI di trarre vantaggio sia dall'intelligenza artificiale sia da quella umana. Ad esempio, un sistema in cui un'AI genera codice che viene poi esaminato dagli ingegneri informatici è un sistema human-in-the-loop.
iperparametro
Le variabili che tu o un servizio di ottimizzazione degli iperparametri regolate durante le esecuzioni successive dell'addestramento di un modello. Ad esempio, il tasso di apprendimento è un iperparametro. Potresti impostare il tasso di apprendimento su 0,01 prima di una sessione di addestramento. Se determini che 0,01 è troppo alto, potresti impostare il tasso di apprendimento su 0,003 per la sessione di addestramento successiva.
Al contrario, i parametri sono i vari pesi e bias che il modello apprende durante l'addestramento.
Per saperne di più, consulta Regressione lineare: iperparametri in Machine Learning Crash Course.
iperpiano
Un confine che separa uno spazio in due sottospazi. Ad esempio, una retta è un iperpiano in due dimensioni e un piano è un iperpiano in tre dimensioni. Più tipicamente nel machine learning, un iperpiano è il confine che separa uno spazio di dimensioni elevate. Le macchine a vettori di supporto del kernel utilizzano iperpiani per separare le classi positive da quelle negative, spesso in uno spazio molto dimensionale.
I
i.i.d.
Abbreviazione di indipendentemente e identicamente distribuito.
riconoscimento immagini
Un processo che classifica oggetti, pattern o concetti in un'immagine. Il riconoscimento delle immagini è noto anche come classificazione delle immagini.
Per saperne di più, consulta ML Practicum: Image Classification.
Per saperne di più, consulta il corso ML Practicum: classificazione delle immagini.
set di dati sbilanciato
Sinonimo di set di dati sbilanciato.
bias implicito
Creare automaticamente un'associazione o un'ipotesi in base ai propri modelli mentali e ricordi. Il bias implicito può influire su quanto segue:
- Come vengono raccolti e classificati i dati.
- Come vengono progettati e sviluppati i sistemi di machine learning.
Ad esempio, quando crea un modello di classificazione per identificare le foto di matrimoni, un ingegnere può utilizzare la presenza di un abito bianco in una foto come funzionalità. Tuttavia, gli abiti bianchi sono stati consueti solo durante determinate epoche e in determinate culture.
Vedi anche bias di conferma.
imputazione
Abbreviazione di imputazione del valore.
incompatibilità delle metriche di equità
L'idea che alcune nozioni di equità siano reciprocamente incompatibili e non possano essere soddisfatte contemporaneamente. Di conseguenza, non esiste un'unica metrica universale per quantificare l'equità che possa essere applicata a tutti i problemi di ML.
Sebbene possa sembrare scoraggiante, l'incompatibilità delle metriche di equità non implica che gli sforzi per l'equità siano inutili. Suggerisce invece che l'equità deve essere definita in modo contestuale per un determinato problema di ML, con l'obiettivo di prevenire danni specifici per i suoi casi d'uso.
Per una discussione più dettagliata sull'incompatibilità delle metriche di equità, consulta la sezione "On the (im)possibility of fairness".
apprendimento in-context
Sinonimo di prompt few-shot.
indipendenti e identicamente distribuiti (i.i.d.)
Dati estratti da una distribuzione che non cambia e in cui ogni valore estratto non dipende dai valori estratti in precedenza. Una distribuzione i.i.d. è il gas ideale del machine learning, un costrutto matematico utile ma quasi mai trovato esattamente nel mondo reale. Ad esempio, la distribuzione dei visitatori di una pagina web potrebbe essere i.i.d. in un breve periodo di tempo, ovvero la distribuzione non cambia durante questo breve periodo e la visita di una persona è generalmente indipendente da quella di un'altra. Tuttavia, se espandi questo periodo di tempo, potrebbero comparire differenze stagionali nei visitatori della pagina web.
Vedi anche non stazionarietà.
equità individuale
Una metrica di equità che controlla se individui simili vengono classificati in modo simile. Ad esempio, l'Accademia di Brobdingnag potrebbe voler soddisfare l'equità individuale garantendo che due studenti con voti identici e punteggi dei test standardizzati abbiano la stessa probabilità di essere ammessi.
Tieni presente che l'equità individuale dipende interamente da come definisci la"somiglianza" (in questo caso, voti e punteggi dei test) e puoi rischiare di introdurre nuovi problemi di equità se la metrica di somiglianza non tiene conto di informazioni importanti (come il rigore del curriculum di uno studente).
Per una discussione più dettagliata dell'equità individuale, consulta la sezione "Equità attraverso la consapevolezza".
inferenza
Nel machine learning tradizionale, il processo di fare previsioni applicando un modello addestrato a esempi non etichettati. Per saperne di più, consulta Apprendimento supervisionato nel corso Introduzione al machine learning.
Nei modelli linguistici di grandi dimensioni (LLM), l'inferenza è il processo di utilizzo di un modello addestrato per generare output, ad esempio la risposta di testo a un prompt di input.
L'inferenza ha un significato leggermente diverso in statistica. Per maggiori dettagli, consulta l' articolo di Wikipedia sull'inferenza statistica.
percorso di inferenza
In un albero decisionale, durante l'inferenza, il percorso che un particolare esempio segue dalla radice ad altre condizioni, terminando con una foglia. Ad esempio, nel seguente albero decisionale, le frecce più spesse mostrano il percorso di inferenza per un esempio con i seguenti valori delle funzionalità:
- x = 7
- y = 12
- z = -3
Il percorso di inferenza nella seguente illustrazione passa attraverso tre
condizioni prima di raggiungere la foglia (Zeta
).
Le tre frecce spesse mostrano il percorso di inferenza.
Per ulteriori informazioni, consulta la sezione Alberi decisionali del corso Decision Forests.
guadagno di informazioni
Nelle foreste di decisioni, la differenza tra l'entropia di un nodo e la somma ponderata (in base al numero di esempi) dell'entropia dei relativi nodi secondari. L'entropia di un nodo è l'entropia degli esempi in quel nodo.
Ad esempio, considera i seguenti valori di entropia:
- entropia del nodo principale = 0,6
- entropia di un nodo secondario con 16 esempi pertinenti = 0,2
- entropia di un altro nodo secondario con 24 esempi pertinenti = 0,1
Pertanto, il 40% degli esempi si trova in un nodo secondario e il 60% nell'altro nodo secondario. Pertanto:
- somma dell'entropia ponderata dei nodi secondari = (0,4 * 0,2) + (0,6 * 0,1) = 0,14
Pertanto, l'information gain è:
- guadagno di informazioni = entropia del nodo principale - somma ponderata dell'entropia dei nodi secondari
- information gain = 0,6 - 0,14 = 0,46
La maggior parte degli splitter cerca di creare condizioni che massimizzino l'acquisizione di informazioni.
bias di affinità
Mostrare parzialità nei confronti del proprio gruppo o delle proprie caratteristiche. Se i tester o i valutatori sono amici, familiari o colleghi dello sviluppatore di machine learning, il bias di gruppo potrebbe invalidare il test del prodotto o il set di dati.
Il bias di affinità è una forma di bias di attribuzione di gruppo. Vedi anche bias di omogeneità del gruppo esterno.
Per saperne di più, consulta Equità: tipi di bias in Machine Learning Crash Course.
generatore di input
Un meccanismo mediante il quale i dati vengono caricati in una rete neurale.
Un generatore di input può essere considerato un componente responsabile dell'elaborazione dei dati non elaborati in tensori che vengono iterati per generare batch per addestramento, valutazione e inferenza.
livello di input
Lo strato di una rete neurale che contiene il vettore di caratteristiche. ovvero il livello di input fornisce esempi per l'addestramento o l'inferenza. Ad esempio, il livello di input nella seguente rete neurale è costituito da due funzionalità:
in-set condition
In un albero decisionale, una condizione che verifica la presenza di un elemento in un insieme di elementi. Ad esempio, la seguente è una condizione in-set:
house-style in [tudor, colonial, cape]
Durante l'inferenza, se il valore della funzionalità
dello stile della casa è tudor
, colonial
o cape
, questa condizione restituisce Sì. Se
il valore della funzionalità di stile della casa è un altro (ad esempio, ranch
),
questa condizione restituisce No.
Le condizioni in-set di solito portano ad alberi decisionali più efficienti rispetto alle condizioni che testano le funzionalità codificate one-hot.
istanza
Sinonimo di esempio.
ottimizzazione delle istruzioni
Una forma di ottimizzazione che migliora la capacità di un modello di AI generativa di seguire le istruzioni. L'ottimizzazione delle istruzioni prevede l'addestramento di un modello su una serie di prompt di istruzioni, in genere relativi a un'ampia gamma di attività. Il modello ottimizzato per le istruzioni risultante tende quindi a generare risposte utili a prompt zero-shot in una serie di attività.
Confrontare e contrapporre con:
interpretabilità
La capacità di spiegare o presentare il ragionamento di un modello di ML in termini comprensibili per un essere umano.
La maggior parte dei modelli di regressione lineare, ad esempio, sono altamente interpretabili. Basta controllare i pesi dell'addestramento di ogni caratteristica. Anche le foreste decisionali sono altamente interpretabili. Alcuni modelli, tuttavia, richiedono una visualizzazione sofisticata per poter essere interpretati.
Puoi utilizzare lo strumento di interpretabilità dell'apprendimento (LIT) per interpretare i modelli ML.
accordo tra valutatori
Una misura della frequenza con cui i valutatori umani sono d'accordo durante l'esecuzione di un'attività. Se i valutatori non sono d'accordo, potrebbe essere necessario migliorare le istruzioni dell'attività. A volte viene chiamato anche accordo tra annotatori o affidabilità tra valutatori. Vedi anche Kappa di Cohen, una delle misure di concordanza inter-rater più utilizzate.
Per saperne di più, consulta Dati categorici: problemi comuni in Machine Learning Crash Course.
Intersection over Union (IoU)
L'intersezione di due insiemi divisa per la loro unione. Nelle attività di rilevamento delle immagini di machine learning, l'indice di Jaccard (IoU) viene utilizzato per misurare l'accuratezza del riquadro di delimitazione previsto dal modello rispetto al riquadro di delimitazione dei dati empirici reali. In questo caso, l'IoU per i due riquadri è il rapporto tra l'area di sovrapposizione e l'area totale e il suo valore varia da 0 (nessuna sovrapposizione del riquadro di delimitazione previsto e del riquadro di delimitazione dei dati empirici reali) a 1 (il riquadro di delimitazione previsto e il riquadro di delimitazione dei dati empirici reali hanno le stesse coordinate).
Ad esempio, nell'immagine seguente:
- Il riquadro di delimitazione previsto (le coordinate che delimitano la posizione in cui il modello prevede che si trovi il comodino nel dipinto) è delineato in viola.
- Il riquadro di selezione dei dati empirici reali (le coordinate che delimitano la posizione effettiva del comodino nel dipinto) è evidenziato in verde.
In questo caso, l'intersezione dei riquadri di delimitazione per la previsione e i dati empirici reali (in basso a sinistra) è 1 e l'unione dei riquadri di delimitazione per la previsione e i dati empirici reali (in basso a destra) è 7, quindi l'IoU è \(\frac{1}{7}\).


IoU
Abbreviazione di Intersection over Union.
matrice degli elementi
Nei sistemi di suggerimenti, una matrice di vettori di incorporamento generati dalla fattorizzazione matriciale che contiene indicatori latenti su ogni elemento. Ogni riga della matrice degli articoli contiene il valore di una singola funzionalità latente per tutti gli articoli. Ad esempio, considera un sistema di consigli sui film. Ogni colonna della matrice degli elementi rappresenta un singolo film. I segnali latenti potrebbero rappresentare generi o essere segnali più difficili da interpretare che coinvolgono interazioni complesse tra genere, stelle, età del film o altri fattori.
La matrice degli elementi ha lo stesso numero di colonne della matrice di destinazione che viene fattorizzata. Ad esempio, dato un sistema di consigli sui film che valuta 10.000 titoli di film, la matrice degli elementi avrà 10.000 colonne.
elementi
In un sistema di consigli, le entità che un sistema consiglia. Ad esempio, i video sono gli articoli consigliati da un negozio di video, mentre i libri sono gli articoli consigliati da una libreria.
iteration
Un singolo aggiornamento dei parametri di un modello, ovvero i pesi e i bias del modello, durante l'addestramento. La dimensione del batch determina il numero di esempi che il modello elabora in una singola iterazione. Ad esempio, se la dimensione del batch è 20, il modello elabora 20 esempi prima di regolare i parametri.
Quando addestri una rete neurale, una singola iterazione comporta i seguenti due passaggi:
- Un passaggio in avanti per valutare la perdita su un singolo batch.
- Un passaggio all'indietro (retropropagazione) per regolare i parametri del modello in base alla perdita e al tasso di apprendimento.
Per saperne di più, consulta la sezione Discesa del gradiente in Machine Learning Crash Course.
J
JAX
Una libreria di calcolo di array che riunisce XLA (Accelerated Linear Algebra) e la differenziazione automatica per il calcolo numerico ad alte prestazioni. JAX fornisce un'API semplice e potente per scrivere codice numerico accelerato con trasformazioni componibili. JAX fornisce funzionalità come:
grad
(differenziazione automatica)jit
(compilazione just-in-time)vmap
(vettorializzazione automatica o batch)pmap
(parallelizzazione)
JAX è un linguaggio per esprimere e comporre trasformazioni di codice numerico, analogo, ma molto più ampio, alla libreria NumPy di Python. Infatti, la libreria .numpy in JAX è una versione funzionalmente equivalente, ma completamente riscritta, della libreria Python NumPy.
JAX è particolarmente adatto per velocizzare molte attività di machine learning trasformando i modelli e i dati in una forma adatta al parallelismo tra GPU e chip di accelerazione TPU.
Flax, Optax, Pax e molte altre librerie sono basate sull'infrastruttura JAX.
K
Keras
Un'API Python per il machine learning molto diffusa. Keras viene eseguito su diversi framework di deep learning, tra cui TensorFlow, dove è disponibile come tf.keras.
Macchine vettoriali di supporto del kernel (KSVM)
Un algoritmo di classificazione che cerca di massimizzare il margine tra classi positive e negative mappando i vettori di dati di input in uno spazio di dimensioni superiori. Ad esempio, considera un problema di classificazione in cui il set di dati di input ha cento caratteristiche. Per massimizzare il margine tra le classi positive e negative, un KSVM potrebbe mappare internamente queste funzionalità in uno spazio di un milione di dimensioni. KSVM utilizza una funzione di perdita chiamata hinge loss.
keypoint
Le coordinate di caratteristiche particolari in un'immagine. Ad esempio, per un modello di riconoscimento delle immagini che distingue le specie di fiori, i punti chiave potrebbero essere il centro di ogni petalo, lo stelo, lo stame e così via.
Convalida incrociata k-fold
Un algoritmo per prevedere la capacità di un modello di generalizzare in base a nuovi dati. La k nella convalida incrociata k-fold si riferisce al numero di gruppi uguali in cui dividi gli esempi di un set di dati, ovvero addestri e testi il modello k volte. Per ogni ciclo di addestramento e test, un gruppo diverso costituisce il set di test e tutti i gruppi rimanenti diventano il set di addestramento. Dopo k cicli di addestramento e test, calcoli la media e la deviazione standard delle metriche di test scelte.
Ad esempio, supponiamo che il tuo set di dati sia composto da 120 esempi. Supponiamo inoltre di impostare k su 4. Pertanto, dopo aver mischiato gli esempi, dividi il set di dati in quattro gruppi uguali di 30 esempi ed esegui quattro round di addestramento e test:
Ad esempio, l'errore quadratico medio (MSE) potrebbe essere la metrica più significativa per un modello di regressione lineare. Pertanto, troverai la media e la deviazione standard dell'MSE in tutti e quattro i round.
K-means
Un algoritmo di clustering popolare che raggruppa gli esempi nell'apprendimento non supervisionato. L'algoritmo k-means esegue le seguenti operazioni:
- Determina in modo iterativo i migliori punti centrali k (noti come centroidi).
- Assegna ogni esempio al centroide più vicino. Gli esempi più vicini allo stesso centroide appartengono allo stesso gruppo.
L'algoritmo k-means sceglie le posizioni dei centroidi per ridurre al minimo il quadrato cumulativo delle distanze di ogni esempio dal centroide più vicino.
Ad esempio, considera il seguente grafico dell'altezza rispetto alla larghezza dei cani:
Se k=3, l'algoritmo k-means determinerà tre centroidi. Ogni esempio viene assegnato al centroide più vicino, generando tre gruppi:
Immagina che un produttore voglia determinare le taglie ideali per i maglioni per cani small, medium e large. I tre centroidi identificano l'altezza media e la larghezza media di ogni cane nel cluster. Pertanto, il produttore probabilmente dovrebbe basare le taglie dei maglioni su questi tre centroidi. Tieni presente che il centroide di un cluster in genere non è un esempio nel cluster.
Le illustrazioni precedenti mostrano k-means per esempi con solo due caratteristiche (altezza e larghezza). Tieni presente che k-means può raggruppare gli esempi in base a molte caratteristiche.
Per saperne di più, consulta la sezione Che cos'è il clustering K-means? nel corso Clustering.
k-mediana
Un algoritmo di clustering strettamente correlato a K-means. La differenza pratica tra le due è la seguente:
- Nell'algoritmo k-means, i centroidi vengono determinati riducendo al minimo la somma dei quadrati della distanza tra un candidato centroide e ciascuno dei suoi esempi.
- In k-medie, i centroidi vengono determinati riducendo al minimo la somma della distanza tra un candidato centroide e ciascuno dei suoi esempi.
Tieni presente che anche le definizioni di distanza sono diverse:
- L'algoritmo k-means si basa sulla distanza euclidea dal centroide a un esempio. In due dimensioni, la distanza euclidea significa utilizzare il teorema di Pitagora per calcolare l'ipotenusa. Ad esempio, la distanza k-means tra (2,2) e (5,-2) sarebbe:
- k-medie si basa sulla distanza di Manhattan dal centroide a un esempio. Questa distanza è la somma dei delta assoluti in ogni dimensione. Ad esempio, la distanza k-mediana tra (2,2) e (5,-2) sarebbe:
L
Regolarizzazione L0
Un tipo di regolarizzazione che penalizza il numero totale di pesi diversi da zero in un modello. Ad esempio, un modello con 11 pesi diversi da zero verrebbe penalizzato più di un modello simile con 10 pesi diversi da zero.
La regolarizzazione L0 a volte viene chiamata regolarizzazione della norma L0.
Perdita L1
Una funzione di perdita che calcola il valore assoluto della differenza tra i valori effettivi dell'etichetta e i valori previsti da un modello. Ad esempio, ecco il calcolo della perdita L1 per un batch di cinque esempi:
Valore effettivo dell'esempio | Valore previsto del modello | Valore assoluto del delta |
---|---|---|
7 | 6 | 1 |
5 | 4 | 1 |
8 | 11 | 3 |
4 | 6 | 2 |
9 | 8 | 1 |
8 = L1 loss |
La perdita L1 è meno sensibile ai valori anomali rispetto alla perdita L2.
L'errore assoluto medio è la perdita L1 media per esempio.
Per saperne di più, consulta Regressione lineare: perdita in Machine Learning Crash Course.
Regolarizzazione L1
Un tipo di regolarizzazione che penalizza i pesi in proporzione alla somma del valore assoluto dei pesi. La regolarizzazione L1 contribuisce a portare i pesi delle caratteristiche irrilevanti o appena rilevanti a esattamente 0. Una caratteristica con un peso pari a 0 viene effettivamente rimossa dal modello.
Contrasto con la regolarizzazione L2.
Perdita L2
Una funzione di perdita che calcola il quadrato della differenza tra i valori effettivi dell'etichetta e i valori previsti da un modello. Ad esempio, ecco il calcolo della perdita L2 per un batch di cinque esempi:
Valore effettivo dell'esempio | Valore previsto del modello | Quadrato del delta |
---|---|---|
7 | 6 | 1 |
5 | 4 | 1 |
8 | 11 | 9 |
4 | 6 | 4 |
9 | 8 | 1 |
16 = L2 loss |
A causa dell'elevazione al quadrato, la perdita L2 amplifica l'influenza degli outlier. ovvero la perdita L2 reagisce più fortemente alle previsioni errate rispetto alla perdita L1. Ad esempio, la perdita L1 per il batch precedente sarebbe 8 anziché 16. Nota che un singolo valore anomalo rappresenta 9 dei 16.
I modelli di regressione in genere utilizzano la perdita L2 come funzione di perdita.
L'errore quadratico medio è la perdita L2 media per esempio. Perdita quadratica è un altro nome per la perdita L2.
Per saperne di più, consulta la sezione Regressione logistica: perdita e regolarizzazione di Machine Learning Crash Course.
Regolarizzazione L2
Un tipo di regolarizzazione che penalizza i pesi in proporzione alla somma dei quadrati dei pesi. La regolarizzazione L2 contribuisce a ridurre i pesi anomali (quelli con valori positivi elevati o negativi bassi) più vicini a 0, ma non esattamente a 0. Le caratteristiche con valori molto vicini a 0 rimangono nel modello, ma non influiscono molto sulla previsione del modello.
La regolarizzazione L2 migliora sempre la generalizzazione nei modelli lineari.
Contrasto con la regolarizzazione L1.
Per saperne di più, consulta Overfitting: regolarizzazione L2 in Machine Learning Crash Course.
etichetta
Nell'apprendimento supervisionato, la parte "risposta" o "risultato" di un esempio.
Ogni esempio etichettato è costituito da una o più funzionalità e da un'etichetta. Ad esempio, in un set di dati per il rilevamento dello spam, l'etichetta sarebbe probabilmente "spam" o "non spam". In un set di dati sulle precipitazioni, l'etichetta potrebbe essere la quantità di pioggia caduta in un determinato periodo.
Per saperne di più, consulta Apprendimento supervisionato in Introduzione al machine learning.
esempio etichettato
Un esempio che contiene una o più caratteristiche e un'etichetta. Ad esempio, la seguente tabella mostra tre esempi etichettati di un modello di valutazione di una casa, ognuno con tre funzionalità e un'etichetta:
Numero di camere | Numero di bagni | Età della casa | Prezzo della casa (etichetta) |
---|---|---|---|
3 | 2 | 15 | $345.000 |
2 | 1 | 72 | $179.000 |
4 | 2 | 34 | $392.000 |
Nel machine learning supervisionato, i modelli vengono addestrati su esempi etichettati e fanno previsioni su esempi non etichettati.
Esempio con contrasto etichettato con esempi non etichettati.
Per saperne di più, consulta Apprendimento supervisionato in Introduzione al machine learning.
perdita di etichette
Un difetto di progettazione del modello in cui una caratteristica è un proxy per l'etichetta. Ad esempio, considera un modello di classificazione binaria che prevede se un potenziale cliente acquisterà o meno un determinato prodotto.
Supponiamo che una delle caratteristiche del modello sia un valore booleano denominato
SpokeToCustomerAgent
. Supponiamo inoltre che un agente del cliente venga assegnato solo dopo che il potenziale cliente ha effettivamente acquistato il prodotto. Durante l'addestramento, il modello apprenderà rapidamente l'associazione
tra SpokeToCustomerAgent
e l'etichetta.
Per saperne di più, consulta la sezione Monitoraggio delle pipeline in Machine Learning Crash Course.
lambda
Sinonimo di tasso di regolarizzazione.
Lambda è un termine sovraccarico. Qui ci concentriamo sulla definizione del termine all'interno della regolarizzazione.
LaMDA (Language Model for Dialogue Applications)
Un modello linguistico di grandi dimensioni basato su Transformer sviluppato da Google e addestrato su un ampio set di dati di dialoghi in grado di generare risposte conversazionali realistiche.
LaMDA: our breakthrough conversation technology fornisce una panoramica.
punti di riferimento
Sinonimo di keypoints.
modello linguistico
Un modello che stima la probabilità che un token o una sequenza di token si verifichi in una sequenza di token più lunga.
Per saperne di più, consulta Che cos'è un modello linguistico? in Machine Learning Crash Course.
modello linguistico di grandi dimensioni
Come minimo, un modello linguistico con un numero molto elevato di parametri. In termini più informali, qualsiasi modello linguistico basato su Transformer, come Gemini o GPT.
Per saperne di più, consulta la sezione Modelli linguistici di grandi dimensioni (LLM) di Machine Learning Crash Course.
latenza
Il tempo necessario a un modello per elaborare l'input e generare una risposta. Una risposta a latenza elevata richiede più tempo per essere generata rispetto a una risposta a latenza bassa.
I fattori che influenzano la latenza dei modelli linguistici di grandi dimensioni includono:
- Lunghezze dei token di input e output
- Complessità del modello
- L'infrastruttura su cui viene eseguito il modello
L'ottimizzazione per la latenza è fondamentale per creare applicazioni reattive e facili da usare.
spazio latente
Sinonimo di spazio di embedding.
livello
Un insieme di neuroni in una rete neurale. Di seguito sono riportati tre tipi comuni di livelli:
- Il livello di input, che fornisce i valori per tutte le funzionalità.
- Uno o più livelli nascosti, che trovano relazioni non lineari tra le caratteristiche e l'etichetta.
- Il livello di output, che fornisce la previsione.
Ad esempio, la seguente illustrazione mostra una rete neurale con uno strato di input, due strati nascosti e uno strato di output:
In TensorFlow, i livelli sono anche funzioni Python che accettano tensori e opzioni di configurazione come input e producono altri tensori come output.
API Layers (tf.layers)
Un'API TensorFlow per costruire una rete neurale profonda come composizione di livelli. L'API Layers ti consente di creare diversi tipi di livelli, ad esempio:
tf.layers.Dense
per un livello completamente connesso.tf.layers.Conv2D
per un livello convoluzionale.
L'API Layers segue le convenzioni dell'API Layers di Keras. Ciò significa che, a parte un prefisso diverso, tutte le funzioni dell'API Layers hanno gli stessi nomi e firme delle loro controparti nell'API Keras Layers.
foglia
Qualsiasi endpoint in un albero decisionale. A differenza di una condizione, una foglia non esegue un test. Una foglia è una possibile previsione. Una foglia è anche il nodo terminale di un percorso di inferenza.
Ad esempio, il seguente albero decisionale contiene tre foglie:
Per ulteriori informazioni, consulta la sezione Alberi decisionali del corso Decision Forests.
Learning Interpretability Tool (LIT)
Uno strumento visivo e interattivo per la comprensione dei modelli e la visualizzazione dei dati.
Puoi utilizzare LIT open source per interpretare i modelli o per visualizzare testo, immagini e dati tabulari.
tasso di apprendimento
Un numero in virgola mobile che indica all'algoritmo di discesa del gradiente con quale intensità regolare i pesi e i bias in ogni iterazione. Ad esempio, un tasso di apprendimento di 0,3 modifica i pesi e i bias tre volte più intensamente di un tasso di apprendimento di 0,1.
Il tasso di apprendimento è un iperparametro fondamentale. Se imposti il tasso di apprendimento troppo basso, l'addestramento richiederà troppo tempo. Se imposti il tasso di apprendimento troppo alto, la discesa del gradiente spesso ha difficoltà a raggiungere la convergenza.
Per saperne di più, consulta Regressione lineare: iperparametri in Machine Learning Crash Course.
regressione dei minimi quadrati
Un modello di regressione lineare addestrato minimizzando la perdita L2.
Distanza di Levenshtein
Una metrica di distanza di modifica che calcola il numero minimo di operazioni di eliminazione, inserimento e sostituzione necessarie per modificare una parola in un'altra. Ad esempio, la distanza di Levenshtein tra le parole "heart" e "darts" è pari a tre perché le tre modifiche seguenti sono le modifiche minime per trasformare una parola nell'altra:
- heart → deart (sostituisci "h" con "d")
- deart → dart (elimina "e")
- freccetta → freccette (inserisci "e")
Tieni presente che la sequenza precedente non è l'unico percorso di tre modifiche.
lineare
Una relazione tra due o più variabili che può essere rappresentata esclusivamente tramite addizione e moltiplicazione.
Il grafico di una relazione lineare è una retta.
Contrasto con non lineare.
modello lineare
Un modello che assegna un peso per caratteristica per fare previsioni. I modelli lineari incorporano anche un bias. Al contrario, la relazione tra le caratteristiche e le previsioni nei modelli deep è generalmente non lineare.
I modelli lineari sono in genere più facili da addestrare e più interpretabili rispetto ai modelli profondi. Tuttavia, i modelli profondi possono apprendere relazioni complesse tra le caratteristiche.
La regressione lineare e la regressione logistica sono due tipi di modelli lineari.
regressione lineare
Un tipo di modello di machine learning in cui sono vere entrambe le seguenti affermazioni:
- Il modello è un modello lineare.
- La previsione è un valore in virgola mobile. (Questa è la parte di regressione della regressione lineare.)
Confronta la regressione lineare con la regressione logistica. Inoltre, metti a confronto la regressione con la classificazione.
Per saperne di più, consulta Regressione lineare in Machine Learning Crash Course.
LIT
Abbreviazione di Learning Interpretability Tool (LIT), precedentemente noto come Language Interpretability Tool.
LLM
Abbreviazione di modello linguistico di grandi dimensioni.
Valutazioni LLM
Un insieme di metriche e benchmark per valutare le prestazioni dei modelli linguistici di grandi dimensioni (LLM). A livello generale, valutazioni LLM:
- Aiutare i ricercatori a identificare le aree in cui i modelli LLM devono essere migliorati.
- Sono utili per confrontare diversi LLM e identificare quello migliore per una determinata attività.
- Contribuire a garantire che gli LLM siano sicuri ed etici da usare.
Per saperne di più, consulta Modelli linguistici di grandi dimensioni (LLM) in Machine Learning Crash Course.
regressione logistica
Un tipo di modello di regressione che prevede una probabilità. I modelli di regressione logistica hanno le seguenti caratteristiche:
- L'etichetta è categorica. Il termine regressione logistica si riferisce in genere alla regressione logistica binaria, ovvero a un modello che calcola le probabilità per le etichette con due valori possibili. Una variante meno comune, la regressione logistica multinomiale, calcola le probabilità per le etichette con più di due valori possibili.
- La funzione di perdita durante l'addestramento è Log Loss. È possibile inserire più unità Log Loss in parallelo per le etichette con più di due valori possibili.
- Il modello ha un'architettura lineare, non una rete neurale profonda. Tuttavia, il resto di questa definizione si applica anche ai modelli di deep learning che prevedono probabilità per le etichette categoriche.
Ad esempio, considera un modello di regressione logistica che calcola la probabilità che un'email di input sia spam o meno. Durante l'inferenza, supponiamo che il modello preveda 0,72. Pertanto, il modello sta stimando:
- Una probabilità del 72% che l'email sia spam.
- Il 28% di probabilità che l'email non sia spam.
Un modello di regressione logistica utilizza la seguente architettura in due passaggi:
- Il modello genera una previsione non elaborata (y') applicando una funzione lineare delle caratteristiche di input.
- Il modello utilizza questa previsione non elaborata come input per una funzione sigmoide, che converte la previsione non elaborata in un valore compreso tra 0 e 1, esclusi.
Come qualsiasi modello di regressione, un modello di regressione logistica prevede un numero. Tuttavia, questo numero in genere diventa parte di un modello di classificazione binaria come segue:
- Se il numero previsto è maggiore della soglia di classificazione, il modello di classificazione binaria prevede la classe positiva.
- Se il numero previsto è inferiore alla soglia di classificazione, il modello di classificazione binaria prevede la classe negativa.
Per saperne di più, consulta la sezione Regressione logistica di Machine Learning Crash Course.
logit
Il vettore di previsioni non elaborate (non normalizzate) generate da un modello di classificazione, che di solito viene poi passato a una funzione di normalizzazione. Se il modello risolve un problema di classificazione multiclasse, i logit in genere diventano un input della funzione softmax. La funzione softmax genera quindi un vettore di probabilità (normalizzate) con un valore per ogni classe possibile.
Log Loss
La funzione di perdita utilizzata nella regressione logistica binaria.
Per saperne di più, consulta Regressione logistica: perdita e regolarizzazione in Machine Learning Crash Course.
log-odds
Il logaritmo dell'odds di un evento.
Long Short-Term Memory (LSTM)
Un tipo di cella in una rete neurale ricorrente utilizzata per elaborare sequenze di dati in applicazioni come il riconoscimento della scrittura a mano, la traduzione automatica e la creazione di didascalie per le immagini. Le LSTM risolvono il problema del gradiente che svanisce che si verifica durante l'addestramento delle RNN a causa di lunghe sequenze di dati, mantenendo la cronologia in uno stato di memoria interno basato sul nuovo input e sul contesto delle celle precedenti della RNN.
LoRA
Abbreviazione di adattabilità a basso ranking.
perdita
Durante l'addestramento di un modello supervisionato, una misura della distanza tra la previsione di un modello e la sua etichetta.
Una funzione di perdita calcola la perdita.
Per saperne di più, consulta Regressione lineare: perdita in Machine Learning Crash Course.
aggregatore di perdite
Un tipo di algoritmo di machine learning che migliora il rendimento di un modello combinando le previsioni di più modelli e utilizzando queste previsioni per fare una singola previsione. Di conseguenza, un aggregatore di perdite può ridurre la varianza delle previsioni e migliorarne l'accuratezza.
curva di perdita
Un grafico della perdita in funzione del numero di iterazioni di addestramento. Il seguente grafico mostra una tipica curva di perdita:
Le curve di perdita possono aiutarti a determinare quando il modello converge o quando si verifica l'overfitting.
Le curve di perdita possono tracciare tutti i seguenti tipi di perdita:
Vedi anche la curva di generalizzazione.
Per saperne di più, consulta Overfitting: interpretare le curve di perdita in Machine Learning Crash Course.
funzione di perdita
Durante l'addestramento o il test, una funzione matematica che calcola la perdita su un batch di esempi. Una funzione di perdita restituisce una perdita inferiore per i modelli che fanno buone previsioni rispetto a quelli che fanno previsioni errate.
L'obiettivo dell'addestramento è in genere quello di ridurre al minimo la perdita restituita da una funzione di perdita.
Esistono molti tipi diversi di funzioni di perdita. Scegli la funzione di perdita appropriata per il tipo di modello che stai creando. Ad esempio:
- La perdita L2 (o errore quadratico medio) è la funzione di perdita per la regressione lineare.
- Perdita logaritmica è la funzione di perdita per la regressione logistica.
superficie di perdita
Un grafico del peso o dei pesi rispetto alla perdita. La discesa del gradiente ha lo scopo di trovare il peso o i pesi per cui la superficie di perdita si trova a un minimo locale.
Adattabilità a basso ranking (LoRA)
Una tecnica efficiente in termini di parametri per l'ottimizzazione che"congela" i pesi preaddestrati del modello (in modo che non possano più essere modificati) e poi inserisce un piccolo insieme di pesi addestrabili nel modello. Questo insieme di pesi addestrabili (noto anche come "matrici di aggiornamento") è notevolmente più piccolo del modello di base ed è quindi molto più veloce da addestrare.
LoRA offre i seguenti vantaggi:
- Migliora la qualità delle previsioni di un modello per il dominio in cui viene applicato il fine tuning.
- Viene messo a punto più rapidamente rispetto alle tecniche che richiedono la messa a punto di tutti i parametri di un modello.
- Riduce il costo di calcolo dell'inferenza consentendo l'erogazione simultanea di più modelli specializzati che condividono lo stesso modello di base.
LSTM
Abbreviazione di Long Short-Term Memory.
M
machine learning
Un programma o un sistema che addestra un modello a partire dai dati di input. Il modello addestrato può fare previsioni utili a partire da dati nuovi (mai visti prima) estratti dalla stessa distribuzione di quelli utilizzati per addestrare il modello.
Il machine learning si riferisce anche al campo di studio che si occupa di questi programmi o sistemi.
Per saperne di più, consulta il corso Introduzione al machine learning.
traduzione automatica
Utilizzo di un software (in genere, un modello di machine learning) per convertire il testo da una lingua umana a un'altra, ad esempio dall'inglese al giapponese.
classe maggioritaria
L'etichetta più comune in un insieme di dati con sbilanciamento di classe. Ad esempio, dato un set di dati contenente il 99% di etichette negative e l'1% di etichette positive, le etichette negative sono la classe di maggioranza.
Contrasto con la classe di minoranza.
Per saperne di più, consulta Set di dati: set di dati non bilanciati in Machine Learning Crash Course.
Processo decisionale di Markov (MDP)
Un grafico che rappresenta il modello decisionale in cui le decisioni (o azioni) vengono prese per navigare in una sequenza di stati presupponendo che la proprietà di Markov sia valida. Nell'apprendimento per rinforzo, queste transizioni tra stati restituiscono una ricompensa numerica.
Proprietà di Markov
Una proprietà di determinati ambienti, in cui le transizioni di stato sono interamente determinate dalle informazioni implicite nello stato attuale e dall'azione dell'agente.
modello linguistico mascherato
Un modello linguistico che prevede la probabilità che i token candidati riempiano gli spazi vuoti in una sequenza. Ad esempio, un modello linguistico mascherato può calcolare le probabilità che una o più parole candidate sostituiscano il trattino nella seguente frase:
Il ____ nel cappello è tornato.
La letteratura in genere utilizza la stringa "MASK" anziché un trattino basso. Ad esempio:
La scritta "MASK" sul cappello è tornata.
La maggior parte dei moderni modelli linguistici mascherati sono bidirezionali.
matplotlib
Una libreria di tracciamento 2D open source di Python. matplotlib ti aiuta a visualizzare diversi aspetti del machine learning.
fattorizzazione matriciale
In matematica, un meccanismo per trovare le matrici il cui prodotto scalare approssima una matrice di destinazione.
Nei sistemi di consigli, la matrice di destinazione spesso contiene le valutazioni degli utenti sugli elementi. Ad esempio, la matrice di destinazione per un sistema di consigli sui film potrebbe avere un aspetto simile al seguente, in cui i numeri interi positivi sono le valutazioni degli utenti e 0 significa che l'utente non ha valutato il film:
Casablanca | Scandalo a Filadelfia | Black Panther | Wonder Woman | Pulp Fiction | |
---|---|---|---|---|---|
Utente 1 | 5,0 | 3,0 | 0.0 | 2.0 | 0.0 |
Utente 2 | 4.0 | 0.0 | 0.0 | 1,0 | 5,0 |
Utente 3 | 3,0 | 1,0 | 4.0 | 5,0 | 0.0 |
Il sistema di consigli sui film mira a prevedere le valutazioni degli utenti per i film senza valutazione. Ad esempio, all'Utente 1 piacerà Black Panther?
Un approccio per i sistemi di suggerimenti consiste nell'utilizzare la fattorizzazione matriciale per generare le seguenti due matrici:
- Una matrice utente, modellata come il numero di utenti X il numero di dimensioni di incorporamento.
- Una matrice degli elementi, con dimensioni pari al numero di dimensioni dell'incorporamento moltiplicato per il numero di elementi.
Ad esempio, l'utilizzo della fattorizzazione matriciale sui nostri tre utenti e cinque elementi potrebbe produrre la seguente matrice utente e matrice elemento:
User Matrix Item Matrix 1.1 2.3 0.9 0.2 1.4 2.0 1.2 0.6 2.0 1.7 1.2 1.2 -0.1 2.1 2.5 0.5
Il prodotto scalare della matrice utente e della matrice elemento genera una matrice di suggerimenti che contiene non solo le valutazioni originali degli utenti, ma anche le previsioni per i film che ogni utente non ha visto. Ad esempio, considera la valutazione di Casablanca dell'utente 1, che è pari a 5.0. Il prodotto corrispondente a quella cella nella matrice dei consigli dovrebbe essere intorno a 5.0, ed è:
(1.1 * 0.9) + (2.3 * 1.7) = 4.9
Ancora più importante, all'Utente 1 piacerà Black Panther? Il prodotto scalare corrispondente alla prima riga e alla terza colonna produce una valutazione prevista di 4,3:
(1.1 * 1.4) + (2.3 * 1.2) = 4.3
La fattorizzazione matriciale in genere produce una matrice utente e una matrice elemento che, insieme, sono molto più compatte della matrice target.
Errore assoluto medio (MAE)
La perdita media per esempio quando viene utilizzata la perdita L1. Calcola l'errore assoluto medio come segue:
- Calcola la perdita L1 per un batch.
- Dividi la perdita L1 per il numero di esempi nel batch.
Ad esempio, considera il calcolo della perdita L1 sul seguente batch di cinque esempi:
Valore effettivo dell'esempio | Valore previsto del modello | Perdita (differenza tra valore effettivo e previsto) |
---|---|---|
7 | 6 | 1 |
5 | 4 | 1 |
8 | 11 | 3 |
4 | 6 | 2 |
9 | 8 | 1 |
8 = L1 loss |
Quindi, la perdita L1 è 8 e il numero di esempi è 5. Pertanto, l'errore assoluto medio è:
Mean Absolute Error = L1 loss / Number of Examples Mean Absolute Error = 8/5 = 1.6
Confronta l'errore assoluto medio con l'errore quadratico medio e l'errore quadratico medio della radice.
precisione media a k (mAP@k)
La media statistica di tutti i punteggi di precisione media a k in un set di dati di convalida. Un utilizzo della precisione media media a k è quello di valutare la qualità dei suggerimenti generati da un sistema di suggerimenti.
Sebbene la frase "media aritmetica" sembri ridondante, il nome della metrica è appropriato. Dopo tutto, questa metrica trova la media di più valori di precisione media a k.
Errore quadratico medio (MSE)
La perdita media per esempio quando viene utilizzata la perdita L2. Calcola l'errore quadratico medio come segue:
- Calcola la perdita L2 per un batch.
- Dividi la perdita L2 per il numero di esempi nel batch.
Ad esempio, considera la perdita nel seguente batch di cinque esempi:
Valore effettivo | Previsione del modello | Perdita | Errore quadratico |
---|---|---|---|
7 | 6 | 1 | 1 |
5 | 4 | 1 | 1 |
8 | 11 | 3 | 9 |
4 | 6 | 2 | 4 |
9 | 8 | 1 | 1 |
16 = L2 loss |
Pertanto, l'errore quadratico medio è:
Mean Squared Error = L2 loss / Number of Examples Mean Squared Error = 16/5 = 3.2
L'errore quadratico medio è un ottimizzatore di addestramento molto diffuso, soprattutto per la regressione lineare.
Confronta l'errore quadratico medio con l'errore assoluto medio e l'errore quadratico medio della radice.
TensorFlow Playground utilizza l'errore quadratico medio per calcolare i valori di perdita.
mesh
Nella programmazione parallela ML, un termine associato all'assegnazione dei dati e del modello ai chip TPU e alla definizione di come questi valori verranno suddivisi o replicati.
Mesh è un termine sovraccarico che può significare una delle seguenti cose:
- Un layout fisico dei chip TPU.
- Un costrutto logico astratto per mappare i dati e il modello sui chip TPU.
In entrambi i casi, una mesh viene specificata come forma.
meta-learning
Un sottoinsieme del machine learning che scopre o migliora un algoritmo di apprendimento. Un sistema di meta-apprendimento può anche avere lo scopo di addestrare un modello ad apprendere rapidamente una nuova attività da una piccola quantità di dati o dall'esperienza acquisita in attività precedenti. Gli algoritmi di meta-apprendimento in genere cercano di ottenere quanto segue:
- Migliorare o apprendere le funzionalità progettate manualmente (ad esempio un inizializzatore o un ottimizzatore).
- Essere più efficienti in termini di dati e calcolo.
- Migliorare la generalizzazione.
Il meta-learning è correlato all'apprendimento few-shot.
metrica
Una statistica che ti interessa.
Un obiettivo è una metrica che un sistema di machine learning tenta di ottimizzare.
API Metrics (tf.metrics)
Un'API TensorFlow per valutare i modelli. Ad esempio, tf.metrics.accuracy
determina la frequenza con cui le previsioni di un modello corrispondono alle etichette.
mini-batch
Un piccolo sottoinsieme selezionato casualmente di un batch elaborato in una iterazione. La dimensione del batch di un mini-batch è in genere compresa tra 10 e 1000 esempi.
Ad esempio, supponiamo che l'intero set di addestramento (l'intero batch) sia composto da 1000 esempi. Supponiamo inoltre di impostare la dimensione del batch di ogni mini-batch su 20. Pertanto, ogni iterazione determina la perdita su 20 esempi casuali dei 1000 e poi modifica di conseguenza i pesi e i bias.
È molto più efficiente calcolare la perdita su un mini-batch rispetto alla perdita su tutti gli esempi nel batch completo.
Per saperne di più, consulta Regressione lineare: iperparametri in Machine Learning Crash Course.
discesa stocastica del gradiente in mini-batch
Un algoritmo di discesa del gradiente che utilizza mini-batch. In altre parole, la discesa del gradiente stocastico in mini batch stima il gradiente in base a un piccolo sottoinsieme dei dati di addestramento. La discesa stocastica del gradiente standard utilizza un mini-batch di dimensione 1.
Perdita minimax
Una funzione di perdita per le reti generative avversariali, basata sull'entropia incrociata tra la distribuzione dei dati generati e dei dati reali.
La perdita minimax viene utilizzata nel primo articolo per descrivere le reti generative avversariali.
Per saperne di più, consulta la sezione Funzioni di perdita del corso Generative Adversarial Networks.
classe minoritaria
L'etichetta meno comune in un insieme di dati con sbilanciamento di classe. Ad esempio, dato un set di dati contenente il 99% di etichette negative e l'1% di etichette positive, le etichette positive sono la classe di minoranza.
Contrasto con la classe maggioritaria.
Per saperne di più, consulta Set di dati: set di dati non bilanciati in Machine Learning Crash Course.
mix di esperti
Un sistema per aumentare l'efficienza della rete neurale utilizzando solo un sottoinsieme dei suoi parametri (noto come esperto) per elaborare un determinato token o esempio di input. Una rete di gating indirizza ogni token o esempio di input all'esperto o agli esperti giusti.
Per maggiori dettagli, consulta uno dei seguenti documenti:
- Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer
- Mixture-of-Experts con Expert Choice Routing
ML
Abbreviazione di machine learning.
MMIT
Abbreviazione di multimodal instruction-tuned.
MNIST
Un set di dati di pubblico dominio compilato da LeCun, Cortes e Burges contenente 60.000 immagini, ognuna delle quali mostra come una persona ha scritto manualmente una particolare cifra da 0 a 9. Ogni immagine viene memorizzata come una matrice di numeri interi 28x28, dove ogni numero intero è un valore in scala di grigi compreso tra 0 e 255 inclusi.
MNIST è un set di dati canonico per il machine learning, spesso utilizzato per testare nuovi approcci al machine learning. Per maggiori dettagli, consulta The MNIST Database of Handwritten Digits.
modalità
Una categoria di dati di primo livello. Ad esempio, numeri, testo, immagini, video e audio sono cinque modalità diverse.
modello
In generale, qualsiasi costrutto matematico che elabora i dati di input e restituisce l'output. In altre parole, un modello è l'insieme di parametri e della struttura necessari a un sistema per fare previsioni. Nel machine learning supervisionato, un modello prende un esempio come input e deduce una previsione come output. Nell'ambito del machine learning supervisionato, i modelli differiscono leggermente. Ad esempio:
- Un modello di regressione lineare è costituito da un insieme di pesi e un bias.
- Un modello di rete neurale è costituito da:
- Un insieme di strati nascosti, ognuno contenente uno o più neuroni.
- I pesi e il bias associati a ogni neurone.
- Un modello ad albero decisionale è costituito da:
- La forma dell'albero, ovvero il pattern in cui sono collegate le condizioni e le foglie.
- Le condizioni e le ferie.
Puoi salvare, ripristinare o creare copie di un modello.
L'apprendimento automatico non supervisionato genera anche modelli, in genere una funzione che può mappare un esempio di input al cluster più appropriato.
capacità del modello
La complessità dei problemi che un modello può apprendere. Più complessi sono i problemi che un modello può apprendere, maggiore è la sua capacità. La capacità di un modello aumenta in genere con il numero di parametri del modello. Per una definizione formale della capacità del modello di classificazione, vedi Dimensione VC.
cascata di modelli
Un sistema che sceglie il modello ideale per una query di inferenza specifica.
Immagina un gruppo di modelli, che vanno da molto grandi (molti parametri) a molto più piccoli (molti meno parametri). I modelli molto grandi consumano più risorse di calcolo in fase di inferenza rispetto ai modelli più piccoli. Tuttavia, i modelli molto grandi possono in genere dedurre richieste più complesse rispetto ai modelli più piccoli. La concatenazione dei modelli determina la complessità della query di inferenza e poi sceglie il modello appropriato per eseguire l'inferenza. La motivazione principale per la creazione a cascata dei modelli è ridurre i costi di inferenza selezionando in genere modelli più piccoli e selezionando un modello più grande solo per query più complesse.
Immagina che un modello piccolo venga eseguito su uno smartphone e una versione più grande su un server remoto. Una buona cascata di modelli riduce i costi e la latenza consentendo al modello più piccolo di gestire le richieste semplici e di chiamare il modello remoto solo per gestire le richieste complesse.
Vedi anche router modello.
parallelismo del modello
Un modo per scalare l'addestramento o l'inferenza che inserisce diverse parti di un modello su diversi dispositivi. Il parallelismo del modello consente di utilizzare modelli troppo grandi per essere contenuti in un singolo dispositivo.
Per implementare il parallelismo del modello, un sistema in genere esegue le seguenti operazioni:
- Suddivide il modello in parti più piccole.
- Distribuisce l'addestramento di queste parti più piccole su più processori. Ogni processore addestra la propria parte del modello.
- Combina i risultati per creare un unico modello.
Il parallelismo dei modelli rallenta l'addestramento.
Vedi anche parallelismo dei dati.
model router
L'algoritmo che determina il modello ideale per l'inferenza nella cascata di modelli. Un router di modelli è in genere un modello di machine learning che impara gradualmente a scegliere il modello migliore per un determinato input. Tuttavia, un router di modelli a volte potrebbe essere un algoritmo più semplice, non di machine learning.
addestramento del modello
Il processo di determinazione del miglior modello.
MOE
Abbreviazione di mixture of experts.
Momentum
Un sofisticato algoritmo di discesa del gradiente in cui un passaggio di apprendimento dipende non solo dalla derivata nel passaggio corrente, ma anche dalle derivate del passaggio o dei passaggi che lo hanno preceduto immediatamente. Il momento prevede il calcolo di una media mobile ponderata esponenzialmente dei gradienti nel tempo, analoga al momento in fisica. A volte il momento impedisce all'apprendimento di rimanere bloccato nei minimi locali.
MT
Abbreviazione di traduzione automatica.
classificazione multiclasse
Nell'apprendimento supervisionato, un problema di classificazione in cui il set di dati contiene più di due classi di etichette. Ad esempio, le etichette nel set di dati Iris devono appartenere a una delle seguenti tre classi:
- Iris setosa
- Iris virginica
- Iris versicolor
Un modello addestrato sul set di dati Iris che prevede il tipo di Iris su nuovi esempi esegue la classificazione multi-classe.
Al contrario, i problemi di classificazione che distinguono esattamente due classi sono modelli di classificazione binaria. Ad esempio, un modello di email che prevede spam o non spam è un modello di classificazione binaria.
Nei problemi di clustering, la classificazione multiclasse si riferisce a più di due cluster.
Per ulteriori informazioni, consulta Reti neurali: classificazione multiclasse in Machine Learning Crash Course.
regressione logistica multiclasse
Utilizzo della regressione logistica nei problemi di classificazione multiclasse.
self-attention multi-head
Un'estensione dell'auto-attenzione che applica il meccanismo di auto-attenzione più volte per ogni posizione nella sequenza di input.
Transformers ha introdotto l'auto-attenzione multi-testa.
multimodale ottimizzato per le istruzioni
Un modello ottimizzato per le istruzioni in grado di elaborare input oltre al testo, come immagini, video e audio.
modello multimodale
Un modello i cui input, output o entrambi includono più di una modalità. Ad esempio, considera un modello che prende sia un'immagine sia una didascalia di testo (due modalità) come caratteristiche e restituisce un punteggio che indica l'idoneità della didascalia di testo per l'immagine. Pertanto, gli input di questo modello sono multimodali e l'output è unimodale.
classificazione multinomiale
Sinonimo di classificazione multiclasse.
regressione multinomiale
Sinonimo di regressione logistica multiclasse.
multitasking
Una tecnica di machine learning in cui un singolo modello viene addestrato per eseguire più attività.
I modelli multitasking vengono creati eseguendo l'addestramento su dati appropriati per ciascuna delle diverse attività. In questo modo, il modello può imparare a condividere le informazioni tra le attività, il che lo aiuta ad apprendere in modo più efficace.
Un modello addestrato per più attività spesso ha capacità di generalizzazione migliorate e può essere più efficace nella gestione di diversi tipi di dati.
No
Nano
Un modello Gemini relativamente piccolo progettato per l'utilizzo sul dispositivo. Per maggiori dettagli, vedi Gemini Nano.
Trappola NaN
Quando un numero nel modello diventa NaN durante l'addestramento, molti o tutti gli altri numeri nel modello alla fine diventano NaN.
NaN è l'abbreviazione di Not a Number.
elaborazione del linguaggio naturale
Il campo dell'insegnamento ai computer di elaborare ciò che un utente ha detto o digitato utilizzando regole linguistiche. Quasi tutta l'elaborazione del linguaggio naturale moderna si basa sul machine learning.comprensione del linguaggio naturale
Un sottoinsieme dell'elaborazione del linguaggio naturale che determina le intenzioni di ciò che viene detto o digitato. La comprensione del linguaggio naturale può andare oltre l'elaborazione del linguaggio naturale per considerare aspetti complessi del linguaggio come contesto, sarcasmo e sentiment.
classe negativa
Nella classificazione binaria, una classe è definita positiva e l'altra è definita negativa. La classe positiva è l'elemento o l'evento che il modello sta testando, mentre la classe negativa è l'altra possibilità. Ad esempio:
- La classe negativa in un test medico potrebbe essere "non tumore".
- La classe negativa in un modello di classificazione delle email potrebbe essere "non spam".
Contrasto con la classe positiva.
campionamento negativo
Sinonimo di campionamento dei candidati.
Neural Architecture Search (NAS)
Una tecnica per progettare automaticamente l'architettura di una rete neurale. Gli algoritmi NAS possono ridurre la quantità di tempo e risorse necessarie per addestrare una rete neurale.
In genere, il NAS utilizza:
- Uno spazio di ricerca, ovvero un insieme di architetture possibili.
- Una funzione di idoneità, che è una misura del rendimento di una particolare architettura in una determinata attività.
Gli algoritmi NAS spesso iniziano con un piccolo insieme di possibili architetture ed espandono gradualmente lo spazio di ricerca man mano che l'algoritmo apprende di più su quali architetture sono efficaci. La funzione di idoneità si basa in genere sulle prestazioni dell'architettura su un set di addestramento e l'algoritmo viene in genere addestrato utilizzando una tecnica di apprendimento per rinforzo.
Gli algoritmi NAS si sono dimostrati efficaci nell'individuare architetture ad alto rendimento per una serie di attività, tra cui la classificazione delle immagini, la classificazione del testo e la traduzione automatica.
feed-forward
Un modello contenente almeno un livello nascosto. Una rete neurale profonda è un tipo di rete neurale che contiene più di uno strato nascosto. Ad esempio, il seguente diagramma mostra una rete neurale profonda contenente due livelli nascosti.
Ogni neurone di una rete neurale si connette a tutti i nodi del livello successivo. Ad esempio, nel diagramma precedente, nota che ciascuno dei tre neuroni nel primo strato nascosto si connette separatamente a entrambi i neuroni nel secondo strato nascosto.
Le reti neurali implementate sui computer sono a volte chiamate reti neurali artificiali per distinguerle dalle reti neurali presenti nel cervello e in altri sistemi nervosi.
Alcune reti neurali possono imitare relazioni non lineari estremamente complesse tra le diverse caratteristiche e l'etichetta.
Vedi anche rete neurale convoluzionale e rete neurale ricorrente.
Per saperne di più, consulta la sezione Reti neurali di Machine Learning Crash Course.
neurone
Nel machine learning, un'unità distinta all'interno di un livello nascosto di una rete neurale. Ogni neurone esegue la seguente azione in due passaggi:
- Calcola la somma ponderata dei valori di input moltiplicati per i pesi corrispondenti.
- Passa la somma ponderata come input a una funzione di attivazione.
Un neurone del primo strato nascosto accetta gli input dai valori delle caratteristiche nel strato di input. Un neurone in qualsiasi strato nascosto oltre il primo accetta input dai neuroni dello strato nascosto precedente. Ad esempio, un neurone del secondo strato nascosto accetta input dai neuroni del primo strato nascosto.
La seguente illustrazione mette in evidenza due neuroni e i relativi input.
Un neurone in una rete neurale imita il comportamento dei neuroni nel cervello e in altre parti del sistema nervoso.
N-gramma
Una sequenza ordinata di N parole. Ad esempio, truly madly è un 2-gramma. Poiché l'ordine è importante, madly truly è un 2-gramma diverso da truly madly.
No | Nome o nomi per questo tipo di N-gramma | Esempi |
---|---|---|
2 | bigramma o 2-grammi | to go, go to, eat lunch, eat dinner |
3 | trigramma | ate too much, happily ever after, the bell tolls |
4 | 4 grammi | walk in the park, dust in the wind, the boy ate lentils |
Molti modelli di comprensione del linguaggio naturale si basano sugli N-grammi per prevedere la parola successiva che l'utente digiterà o dirà. Ad esempio, supponiamo che un utente abbia digitato e vissero felici e. Un modello NLU basato su trigrammi probabilmente prevede che l'utente digiterà la parola dopo.
Contrasta gli n-grammi con il bag of words, che sono insiemi di parole non ordinate.
Per saperne di più, consulta Modelli linguistici di grandi dimensioni in Machine Learning Crash Course.
NLP
Abbreviazione di elaborazione del linguaggio naturale.
NLU
Abbreviazione di comprensione del linguaggio naturale.
nodo (albero decisionale)
In un albero decisionale, qualsiasi condizione o foglia.
Per ulteriori informazioni, consulta la sezione Alberi decisionali del corso Decision Forests.
nodo (rete neurale)
Un neurone in un livello nascosto.
Per saperne di più, consulta la sezione Reti neurali di Machine Learning Crash Course.
nodo (grafico TensorFlow)
Un'operazione in un grafico TensorFlow.
rumore
In termini generali, qualsiasi elemento che offuschi il segnale in un set di dati. Il rumore può essere introdotto nei dati in vari modi. Ad esempio:
- I valutatori umani commettono errori di etichettatura.
- Gli esseri umani e gli strumenti registrano o omettono erroneamente i valori delle funzionalità.
condizione non binaria
Una condizione contenente più di due risultati possibili. Ad esempio, la seguente condizione non binaria contiene tre possibili risultati:
Per ulteriori informazioni, consulta la sezione Tipi di condizioni del corso Decision Forests.
non lineare
Una relazione tra due o più variabili che non può essere rappresentata solo tramite addizione e moltiplicazione. Una relazione lineare può essere rappresentata come una linea, mentre una relazione non lineare non può essere rappresentata come una linea. Ad esempio, considera due modelli che mettono in relazione una singola caratteristica a una singola etichetta. Il modello a sinistra è lineare e quello a destra è non lineare:
Consulta la sezione Reti neurali: nodi e livelli nascosti del corso intensivo di machine learning per sperimentare diversi tipi di funzioni non lineari.
bias di non risposta
Consulta la sezione Bias di selezione.
non stazionarietà
Una funzionalità i cui valori cambiano in una o più dimensioni, in genere il tempo. Ad esempio, considera i seguenti esempi di non stazionarietà:
- Il numero di costumi da bagno venduti in un determinato negozio varia a seconda della stagione.
- La quantità di un determinato frutto raccolto in una regione specifica è pari a zero per gran parte dell'anno, ma elevata per un breve periodo.
- A causa dei cambiamenti climatici, le temperature medie annue stanno cambiando.
Contrasto con la stazionarietà.
nessuna risposta corretta (NORA)
Un prompt con più risposte appropriate. Ad esempio, il seguente prompt non ha una risposta corretta:
Raccontami una barzelletta sugli elefanti.
Valutare i prompt senza una risposta corretta può essere difficile.
NORA
Abbreviazione di nessuna risposta corretta.
normalizzazione
In generale, il processo di conversione dell'intervallo effettivo di valori di una variabile in un intervallo standard di valori, ad esempio:
- Da -1 a +1
- Da 0 a 1
- Punteggi z (approssimativamente da -3 a +3)
Ad esempio, supponiamo che l'intervallo effettivo di valori di una determinata caratteristica sia da 800 a 2400. Nell'ambito dell'ingegneria delle funzionalità, puoi normalizzare i valori effettivi in un intervallo standard, ad esempio da -1 a +1.
La normalizzazione è un'attività comune nell'ingegneria delle funzionalità. I modelli di solito vengono addestrati più velocemente (e producono previsioni migliori) quando ogni caratteristica numerica nel vettore delle caratteristiche ha all'incirca lo stesso intervallo.
Vedi anche Normalizzazione del punteggio Z.
Per saperne di più, consulta Dati numerici: normalizzazione in Machine Learning Crash Course.
NotebookLM
Uno strumento basato su Gemini che consente agli utenti di caricare documenti e poi utilizzare prompt per porre domande, riassumere o organizzare i documenti. Ad esempio, un autore potrebbe caricare diversi racconti e chiedere a NotebookLM di trovare i temi comuni o di identificare quale potrebbe essere il miglior film.
rilevamento di novità
Il processo per determinare se un nuovo esempio proviene dalla stessa distribuzione del set di addestramento. In altre parole, dopo l'addestramento sul set di addestramento, il rilevamento delle novità determina se un esempio nuovo (durante l'inferenza o l'addestramento aggiuntivo) è un valore anomalo.
Contrasto con il rilevamento outlier.
dati numerici
Caratteristiche rappresentate come numeri interi o reali. Ad esempio, un modello di valutazione di una casa rappresenterebbe probabilmente le dimensioni di una casa (in piedi quadrati o metri quadrati) come dati numerici. La rappresentazione di una caratteristica come dati numerici indica che i valori della caratteristica hanno una relazione matematica con l'etichetta. ovvero il numero di metri quadrati di una casa probabilmente ha una relazione matematica con il valore della casa.
Non tutti i dati interi devono essere rappresentati come dati numerici. Ad esempio,
i codici postali in alcune parti del mondo sono numeri interi; tuttavia, i codici postali
interi non devono essere rappresentati come dati numerici nei modelli. Questo perché un
codice postale di 20000
non è due volte (o la metà) più efficace di un codice postale di
10000. Inoltre, anche se codici postali diversi corrispondono a valori immobiliari diversi, non possiamo presumere che i valori immobiliari del codice postale 20000 siano il doppio di quelli del codice postale 10000.
I codici postali devono essere rappresentati come dati categorici.
Le caratteristiche numeriche sono a volte chiamate caratteristiche continue.
Per saperne di più, consulta la sezione Utilizzo dei dati numerici di Machine Learning Crash Course.
NumPy
Una libreria matematica open source che fornisce operazioni efficienti sugli array in Python. pandas è basato su NumPy.
O
scopo
Una metrica che l'algoritmo sta cercando di ottimizzare.
funzione obiettivo
La formula matematica o la metrica che un modello mira a ottimizzare. Ad esempio, la funzione obiettivo per la regressione lineare è di solito perdita quadratica media. Pertanto, quando si addestra un modello di regressione lineare, l'addestramento mira a minimizzare la perdita quadratica media.
In alcuni casi, l'obiettivo è massimizzare la funzione obiettivo. Ad esempio, se la funzione obiettivo è l'accuratezza, l'obiettivo è massimizzare l'accuratezza.
Vedi anche perdita.
condizione obliqua
In un albero decisionale, una condizione che coinvolge più di una caratteristica. Ad esempio, se altezza e larghezza sono entrambe caratteristiche, la seguente è una condizione obliqua:
height > width
Contrasto con la condizione allineata all'asse.
Per ulteriori informazioni, consulta la sezione Tipi di condizioni del corso Decision Forests.
offline
Sinonimo di static.
inferenza offline
Il processo di generazione di un batch di previsioni da parte di un modello e la successiva memorizzazione nella cache (salvataggio) di queste previsioni. Le app possono quindi accedere alla previsione inferita dalla cache anziché eseguire nuovamente il modello.
Ad esempio, considera un modello che genera previsioni meteo locali (previsioni) una volta ogni quattro ore. Dopo ogni esecuzione del modello, il sistema memorizza nella cache tutte le previsioni meteo locali. Le app meteo recuperano le previsioni dalla cache.
L'inferenza offline è chiamata anche inferenza statica.
Contrasto con l'inferenza online. Per saperne di più, consulta la sezione Sistemi ML di produzione: inferenza statica e dinamica di Machine Learning Crash Course.
codifica one-hot
Rappresentazione dei dati categorici come un vettore in cui:
- Un elemento è impostato su 1.
- Tutti gli altri elementi sono impostati su 0.
La codifica one-hot viene comunemente utilizzata per rappresentare stringhe o identificatori che
hanno un insieme finito di valori possibili.
Ad esempio, supponiamo che una determinata caratteristica categorica denominata
Scandinavia
abbia cinque valori possibili:
- "Danimarca"
- "Svezia"
- "Norvegia"
- "Finlandia"
- "Islanda"
La codifica one-hot potrebbe rappresentare ciascuno dei cinque valori nel seguente modo:
Paese | Vettoriale | ||||
---|---|---|---|---|---|
"Danimarca" | 1 | 0 | 0 | 0 | 0 |
"Svezia" | 0 | 1 | 0 | 0 | 0 |
"Norvegia" | 0 | 0 | 1 | 0 | 0 |
"Finlandia" | 0 | 0 | 0 | 1 | 0 |
"Islanda" | 0 | 0 | 0 | 0 | 1 |
Grazie alla codifica one-hot, un modello può apprendere connessioni diverse in base a ciascuno dei cinque paesi.
La rappresentazione di una caratteristica come dati numerici è un'alternativa alla codifica one-hot. Purtroppo, rappresentare i paesi scandinavi numericamente non è una buona scelta. Ad esempio, considera la seguente rappresentazione numerica:
- "Danimarca" è 0
- "Svezia" è 1
- "Norvegia" è 2
- "Finlandia" è 3
- "Islanda" è 4
Con la codifica numerica, un modello interpreterebbe i numeri grezzi matematicamente e tenterebbe di addestrarsi su questi numeri. Tuttavia, l'Islanda non è il doppio (o la metà) di qualcosa rispetto alla Norvegia, quindi il modello arriverebbe a conclusioni strane.
Per saperne di più, consulta Dati categorici: vocabolario e codifica one-hot in Machine Learning Crash Course.
apprendimento one-shot
Un approccio di machine learning, spesso utilizzato per la classificazione degli oggetti, progettato per apprendere un modello di classificazione efficace da un singolo esempio di addestramento.
Vedi anche apprendimento few-shot e apprendimento zero-shot.
prompting one-shot
Un prompt che contiene un esempio che mostra come deve rispondere il modello linguistico di grandi dimensioni. Ad esempio, il seguente prompt contiene un esempio che mostra a un modello linguistico di grandi dimensioni come deve rispondere a una query.
Parti di un prompt | Note |
---|---|
Qual è la valuta ufficiale del paese specificato? | La domanda a cui vuoi che l'LLM risponda. |
Francia: EUR | Un esempio. |
India: | La query effettiva. |
Confronta e contrapponi il prompt one-shot con i seguenti termini:
one-vs.-all
Dato un problema di classificazione con N classi, una soluzione costituita da N classificatori binari separati, uno per ogni risultato possibile. Ad esempio, dato un modello che classifica gli esempi come animale, vegetale o minerale, una soluzione uno contro tutti fornirebbe i seguenti tre classificatori binari separati:
- animale o non animale
- verdura o non verdura
- minerale o non minerale
online
Sinonimo di dinamico.
inferenza online
Generazione di previsioni on demand. Ad esempio, supponiamo che un'app passi l'input a un modello ed emetta una richiesta di previsione. Un sistema che utilizza l'inferenza online risponde alla richiesta eseguendo il modello (e restituendo la previsione all'app).
Contrasta con l'inferenza offline.
Per saperne di più, consulta la sezione Sistemi ML di produzione: inferenza statica e dinamica di Machine Learning Crash Course.
operazione (op)
In TensorFlow, qualsiasi procedura che crea, manipola o distrugge un Tensor. Ad esempio, una moltiplicazione matriciale è un'operazione che accetta due tensori come input e genera un tensore come output.
Optax
Una libreria di elaborazione e ottimizzazione dei gradienti per JAX. Optax facilita la ricerca fornendo blocchi di costruzione che possono essere ricombinati in modi personalizzati per ottimizzare modelli parametrici come le reti neurali profonde. Altri obiettivi includono:
- Fornire implementazioni leggibili, ben testate ed efficienti dei componenti principali.
- Migliorare la produttività consentendo di combinare ingredienti di basso livello in ottimizzatori personalizzati (o altri componenti di elaborazione del gradiente).
- Accelerare l'adozione di nuove idee semplificando il contributo di chiunque.
ottimizzatore
Un'implementazione specifica dell'algoritmo di discesa del gradiente. Gli ottimizzatori più utilizzati includono:
- AdaGrad, che sta per ADAptive GRADient descent (discesa del gradiente adattiva).
- Adam, che sta per ADAptive with Momentum.
bias di omogeneità del gruppo esterno
La tendenza a considerare i membri del gruppo esterno più simili tra loro rispetto a quelli del gruppo interno quando si confrontano atteggiamenti, valori, tratti della personalità e altre caratteristiche. Gruppo interno si riferisce alle persone con cui interagisci regolarmente; gruppo esterno si riferisce alle persone con cui non interagisci regolarmente. Se crei un set di dati chiedendo alle persone di fornire attributi relativi a outgroup, questi attributi potrebbero essere meno sfumati e più stereotipati rispetto a quelli che i partecipanti elencano per le persone del loro ingroup.
Ad esempio, i lillipuziani potrebbero descrivere le case di altri lillipuziani in modo molto dettagliato, citando piccole differenze negli stili architettonici, nelle finestre, nelle porte e nelle dimensioni. Tuttavia, gli stessi Lillipuziani potrebbero semplicemente dichiarare che tutti i Brobdingnagiani vivono in case identiche.
Il bias di omogeneità del gruppo esterno è una forma di bias di attribuzione di gruppo.
Vedi anche bias di affinità.
Rilevamento outlier
Il processo di identificazione dei valori anomali in un set di addestramento.
Contrasto con il rilevamento di novità.
le anomalie
Valori distanti dalla maggior parte degli altri valori. Nel machine learning, sono outlier tutti i seguenti valori:
- Inserisci dati i cui valori si discostano dalla media di più di tre deviazioni standard.
- Pesi con valori assoluti elevati.
- Valori previsti relativamente lontani dai valori effettivi.
Ad esempio, supponiamo che widget-price
sia una funzionalità di un determinato modello.
Supponiamo che la media widget-price
sia di 7 euro con una deviazione standard
di 1 euro. Gli esempi contenenti un widget-price
di 12 euro o 2 euro
sarebbero quindi considerati valori anomali perché ciascuno di questi prezzi
si discosta di cinque deviazioni standard dalla media.
Gli outlier sono spesso causati da errori di battitura o altri errori di inserimento. In altri casi, i valori anomali non sono errori; dopo tutto, i valori a cinque deviazioni standard dalla media sono rari ma non impossibili.
Gli outlier spesso causano problemi nell'addestramento del modello. Il clipping è un modo per gestire i valori anomali.
Per saperne di più, consulta la sezione Utilizzo dei dati numerici di Machine Learning Crash Course.
valutazione out-of-bag (valutazione OOB)
Un meccanismo per valutare la qualità di una foresta decisionale testando ogni albero decisionale rispetto agli esempi non utilizzati durante l'addestramento di quell'albero decisionale. Ad esempio, nel diagramma seguente, nota che il sistema addestra ogni albero decisionale su circa due terzi degli esempi e poi lo valuta in base al terzo rimanente degli esempi.
La valutazione out-of-bag è un'approssimazione efficiente dal punto di vista computazionale e conservativa del meccanismo di cross-validation. Nella convalida incrociata, viene addestrato un modello per ogni round di convalida incrociata (ad esempio, vengono addestrati 10 modelli in una convalida incrociata a 10 fold). Con la valutazione OOB, viene addestrato un singolo modello. Poiché il bagging esclude alcuni dati da ogni albero durante l'addestramento, la valutazione OOB può utilizzare questi dati per approssimare la convalida incrociata.
Per ulteriori informazioni, consulta Valutazione out-of-bag nel corso Decision Forests.
livello di output
Il livello "finale" di una rete neurale. Lo strato di output contiene la previsione.
La seguente illustrazione mostra una piccola rete neurale profonda con uno strato di input, due strati nascosti e uno strato di output:
overfitting
Creazione di un modello che corrisponde ai dati di addestramento in modo così preciso che il modello non riesce a fare previsioni corrette sui nuovi dati.
La regolarizzazione può ridurre l'overfitting. L'addestramento su un set di addestramento ampio e diversificato può anche ridurre l'overfitting.
Per saperne di più, consulta la sezione Overfitting di Machine Learning Crash Course.
sovrasampling
Riutilizzare gli esempi di una classe di minoranza in un set di dati con classi sbilanciate per creare un set di addestramento più bilanciato.
Ad esempio, considera un problema di classificazione binaria in cui il rapporto tra la classe maggioritaria e la classe minoritaria è 5000:1. Se il set di dati contiene un milione di esempi, allora contiene solo circa 200 esempi della classe minoritaria, che potrebbero essere troppo pochi per un addestramento efficace. Per superare questa carenza, potresti eseguire l'oversampling (riutilizzare) questi 200 esempi più volte, ottenendo così esempi sufficienti per un addestramento utile.
Devi fare attenzione all'overfitting quando esegui l'oversampling.
Contrasto con il sottocampionamento.
P
dati compressi
Un approccio per archiviare i dati in modo più efficiente.
I data store compressi memorizzano i dati utilizzando un formato compresso o in un altro modo che ne consenta l'accesso in modo più efficiente. I dati compressi riducono al minimo la quantità di memoria e di calcoli necessari per accedervi, il che comporta un addestramento più rapido e un'inferenza del modello più efficiente.
I dati compressi vengono spesso utilizzati con altre tecniche, come l'aumento dei dati e la regolarizzazione, migliorando ulteriormente le prestazioni dei modelli.
PaLM
Abbreviazione di Pathways Language Model.
panda
Un'API per l'analisi dei dati orientata alle colonne basata su numpy. Molti framework di machine learning, tra cui TensorFlow, supportano le strutture di dati pandas come input. Per informazioni dettagliate, consulta la documentazione di pandas.
parametro
Le ponderazioni e i bias che un modello apprende durante l'addestramento. Ad esempio, in un modello di regressione lineare, i parametri sono costituiti dal bias (b) e da tutti i pesi (w1, w2 e così via) nella seguente formula:
Al contrario, gli iperparametri sono i valori che tu (o un servizio di ottimizzazione degli iperparametri) fornisci al modello. Ad esempio, il tasso di apprendimento è un iperparametro.
ottimizzazione efficiente dei parametri
Un insieme di tecniche per ottimizzare un modello linguistico di grandi dimensioni preaddestrato (PLM) in modo più efficiente rispetto all'ottimizzazione completa. L'ottimizzazione efficiente dei parametri in genere ottimizza un numero molto inferiore di parametri rispetto all'ottimizzazione completa, ma in genere produce un modello linguistico di grandi dimensioni che ha un rendimento pari (o quasi pari) a quello di un modello linguistico di grandi dimensioni creato con l'ottimizzazione completa.
Confronta e contrapponi l'ottimizzazione efficiente dei parametri con:
L'ottimizzazione efficiente dei parametri è nota anche come ottimizzazione efficiente dei parametri.
Server dei parametri (PS)
Un job che tiene traccia dei parametri di un modello in un'impostazione distribuita.
aggiornamento dei parametri
L'operazione di aggiustamento dei parametri di un modello durante l'addestramento, in genere all'interno di una singola iterazione della discesa del gradiente.
derivata parziale
Una derivata in cui tutte le variabili tranne una sono considerate costanti. Ad esempio, la derivata parziale di f(x, y) rispetto a x è la derivata di f considerata come funzione solo di x (ovvero mantenendo y costante). La derivata parziale di f rispetto a x si concentra solo su come cambia x e ignora tutte le altre variabili nell'equazione.
bias di partecipazione
Sinonimo di bias di non risposta. Consulta la sezione Bias di selezione.
strategia di partizionamento
L'algoritmo in base al quale le variabili vengono suddivise tra i server dei parametri.
pass at k (pass@k)
Una metrica per determinare la qualità del codice (ad esempio Python) che genera un modello linguistico di grandi dimensioni. Più nello specifico, il valore di superamento a k indica la probabilità che almeno un blocco di codice generato su k blocchi di codice generati superi tutti i test delle unità.
I modelli linguistici di grandi dimensioni spesso faticano a generare codice valido per problemi di programmazione complessi. Gli ingegneri del software si adattano a questo problema chiedendo al modello linguistico di grandi dimensioni di generare più (k) soluzioni per lo stesso problema. Successivamente, gli ingegneri del software testano ciascuna delle soluzioni rispetto ai test delle unità. Il calcolo di pass at k dipende dal risultato dei test unitari:
- Se una o più di queste soluzioni superano il test unitario, il modello LLM supera la sfida di generazione del codice.
- Se nessuna delle soluzioni supera il test unitario, il modello LLM non supera la sfida di generazione di codice.
La formula per il passaggio a k è la seguente:
\[\text{pass at k} = \frac{\text{total number of passes}} {\text{total number of challenges}}\]
In generale, valori più elevati di k producono punteggi pass@k più elevati; tuttavia, valori più elevati di k richiedono più risorse per i test di unità e i modelli linguistici di grandi dimensioni.
Pathways Language Model (PaLM)
Un modello precedente e predecessore dei modelli Gemini.
Pax
Un framework di programmazione progettato per l'addestramento di modelli di reti neurali su larga scala così grandi da estendersi su più slice o pod di chip di accelerazione TPU.
Pax è basato su Flax, che a sua volta è basato su JAX.
percettrone
Un sistema (hardware o software) che accetta uno o più valori di input, esegue una funzione sulla somma ponderata degli input e calcola un singolo valore di output. Nel machine learning, la funzione è in genere non lineare, ad esempio ReLU, sigmoidea o tanh. Ad esempio, il seguente percettrone si basa sulla funzione sigmoide per elaborare tre valori di input:
Nell'illustrazione seguente, il percettrone accetta tre input, ognuno dei quali viene modificato da un peso prima di entrare nel percettrone:
I percettroni sono i neuroni nelle reti neurali.
prestazioni
Termine sovraccarico con i seguenti significati:
- Il significato standard nell'ingegneria del software. ovvero: quanto velocemente (o in modo efficiente) viene eseguito questo software?
- Il significato nel machine learning. In questo caso, il rendimento risponde alla seguente domanda: quanto è corretto questo modello? ovvero quanto sono accurate le previsioni del modello.
importanza delle variabili di permutazione
Un tipo di importanza delle variabili che valuta l'aumento dell'errore di previsione di un modello dopo la permutazione dei valori della caratteristica. L'importanza delle variabili di permutazione è una metrica indipendente dal modello.
perplessità
Una misura dell'efficacia di un modello nello svolgimento della sua attività. Ad esempio, supponiamo che il tuo compito sia leggere le prime lettere di una parola che un utente sta digitando sulla tastiera di uno smartphone e offrire un elenco di possibili parole di completamento. La perplessità, P, per questa attività è approssimativamente il numero di tentativi che devi offrire affinché il tuo elenco contenga la parola effettiva che l'utente sta cercando di digitare.
La perplessità è correlata all'entropia incrociata come segue:
pipeline
L'infrastruttura che circonda un algoritmo di machine learning. Una pipeline include la raccolta dei dati, l'inserimento dei dati nei file di dati di addestramento, l'addestramento di uno o più modelli e l'esportazione dei modelli in produzione.
Per saperne di più, consulta la sezione Pipeline ML del corso Gestione dei progetti ML.
pipelining
Una forma di parallelismo del modello in cui l'elaborazione di un modello è suddivisa in fasi consecutive e ogni fase viene eseguita su un dispositivo diverso. Mentre una fase elabora un batch, la fase precedente può lavorare sul batch successivo.
Vedi anche l'addestramento scaglionato.
pjit
Una funzione JAX che suddivide il codice da eseguire su più chip di accelerazione. L'utente passa una funzione a pjit, che restituisce una funzione con la stessa semantica, ma compilata in un calcolo XLA che viene eseguito su più dispositivi (come GPU o core TPU).
pjit consente agli utenti di partizionare i calcoli senza riscriverli utilizzando il partizionatore SPMD.
A partire da marzo 2023, pjit
è stato unito a jit
. Per ulteriori dettagli, consulta
Array distribuiti e parallelizzazione
automatica.
PLM
Abbreviazione di modello linguistico preaddestrato.
pmap
Una funzione JAX che esegue copie di una funzione di input su più dispositivi hardware sottostanti (CPU, GPU o TPU), con valori di input diversi. pmap si basa su SPMD.
policy
Nell'apprendimento per rinforzo, la mappatura probabilistica di un agente dagli stati alle azioni.
pooling
Riduzione di una o più matrici create da un precedente livello convoluzionale a una matrice più piccola. Il raggruppamento di solito comporta l'utilizzo del valore massimo o medio nell'area raggruppata. Ad esempio, supponiamo di avere la seguente matrice 3x3:
Un'operazione di pooling, proprio come un'operazione convoluzionale, divide la matrice in sezioni e poi fa scorrere l'operazione convoluzionale di passi. Ad esempio, supponiamo che l'operazione di pooling divida la matrice convoluzionale in sezioni 2x2 con un passo 1x1. Come illustrato nel seguente diagramma, vengono eseguite quattro operazioni di pooling. Immagina che ogni operazione di pooling scelga il valore massimo dei quattro in quella sezione:
Il pooling contribuisce a imporre l'invarianza traslazionale nella matrice di input.
Il pooling per le applicazioni di visione è noto più formalmente come pooling spaziale. Le applicazioni di serie temporali di solito si riferiscono al pooling come pooling temporale. In termini meno formali, il pooling viene spesso chiamato sottocampionamento o riduzione del campionamento.
Consulta la sezione Introduzione alle reti neurali convoluzionali nel corso ML Practicum: classificazione delle immagini.
codifica posizionale
Una tecnica per aggiungere informazioni sulla posizione di un token in una sequenza all'incorporamento del token. I modelli Transformer utilizzano la codifica posizionale per comprendere meglio la relazione tra le diverse parti della sequenza.
Un'implementazione comune della codifica posizionale utilizza una funzione sinusoidale. Nello specifico, la frequenza e l'ampiezza della funzione sinusoidale sono determinate dalla posizione del token nella sequenza. Questa tecnica consente a un modello Transformer di imparare a prestare attenzione a diverse parti della sequenza in base alla loro posizione.
classe positiva
Il corso per cui stai eseguendo il test.
Ad esempio, la classe positiva in un modello per il cancro potrebbe essere "tumore". La classe positiva in un modello di classificazione delle email potrebbe essere "spam".
Contrasta con la classe negativa.
post-elaborazione
Modifica dell'output di un modello dopo l'esecuzione. Il post-processing può essere utilizzato per applicare vincoli di equità senza modificare i modelli stessi.
Ad esempio, è possibile applicare il post-processing a un classificatore binario impostando una soglia di classificazione in modo che l'uguaglianza delle opportunità sia mantenuta per un determinato attributo verificando che il tasso di veri positivi sia lo stesso per tutti i valori di quell'attributo.
modello postaddestrato
Termine definito in modo generico che in genere si riferisce a un modello preaddestrato che è stato sottoposto a un'elaborazione post-elaborazione, ad esempio una o più delle seguenti:
AUC PR (area sotto la curva PR)
Area sotto la curva di precisione-richiamo interpolata, ottenuta tracciando i punti (richiamo, precisione) per diversi valori della soglia di classificazione.
Praxis
Una libreria ML di base ad alte prestazioni di Pax. Praxis viene spesso chiamata "Libreria dei livelli".
Praxis contiene non solo le definizioni per la classe Layer, ma anche la maggior parte dei suoi componenti di supporto, tra cui:
- input di dati
- librerie di configurazione (HParam e Fiddle)
- ottimizzatori
Praxis fornisce le definizioni per la classe Model.
precisione
Una metrica per i modelli di classificazione che risponde alla seguente domanda:
Quando il modello ha previsto la classe positiva, qual è stata la percentuale di previsioni corrette?
Ecco la formula:
dove:
- vero positivo significa che il modello ha previsto correttamente la classe positiva.
- Un falso positivo significa che il modello ha previsto erroneamente la classe positiva.
Ad esempio, supponiamo che un modello abbia effettuato 200 previsioni positive. Delle 200 previsioni positive:
- 150 erano veri positivi.
- 50 erano falsi positivi.
In questo caso:
Contrasto con accuratezza e richiamo.
Per saperne di più, consulta Classificazione: accuratezza, richiamo, precisione e metriche correlate in Machine Learning Crash Course.
precisione a k (precision@k)
Una metrica per valutare un elenco classificato (ordinato) di elementi. La precisione a k identifica la frazione dei primi k elementi dell'elenco che sono "pertinenti". Ossia:
\[\text{precision at k} = \frac{\text{relevant items in first k items of the list}} {\text{k}}\]
Il valore di k deve essere minore o uguale alla lunghezza dell'elenco restituito. Tieni presente che la lunghezza dell'elenco restituito non fa parte del calcolo.
La pertinenza è spesso soggettiva; anche gli evaluatori umani esperti spesso non sono d'accordo su quali elementi siano pertinenti.
Confronta con:
curva di precisione-richiamo
Una curva di precisione rispetto al richiamo in corrispondenza di diverse soglie di classificazione.
previsione
L'output di un modello. Ad esempio:
- La previsione di un modello di classificazione binaria è la classe positiva o la classe negativa.
- La previsione di un modello di classificazione multi-classe è una classe.
- La previsione di un modello di regressione lineare è un numero.
bias di previsione
Un valore che indica la distanza tra la media delle previsioni e la media delle etichette nel set di dati.
Da non confondere con il termine di bias nei modelli di machine learning o con il bias in etica ed equità.
ML predittivo
Qualsiasi sistema di machine learning standard ("classico").
Il termine ML predittivo non ha una definizione formale. Il termine distingue una categoria di sistemi ML non basata sull'AI generativa.
parità predittiva
Una metrica di equità che controlla se, per un determinato classificatore, i tassi di precisione sono equivalenti per i sottogruppi in esame.
Ad esempio, un modello che prevede l'ammissione all'università soddisferebbe la parità predittiva per nazionalità se il suo tasso di precisione è lo stesso per i lillipuziani e i brobdingnagiani.
La parità predittiva è talvolta chiamata anche parità predittiva delle tariffe.
Consulta la sezione "Spiegazione delle definizioni di equità" (sezione 3.2.1) per una discussione più dettagliata della parità predittiva.
parità tariffaria predittiva
Un altro nome per la parità predittiva.
pre-elaborazione
Elaborazione dei dati prima che vengano utilizzati per addestrare un modello. Il pre-elaborazione potrebbe essere semplice come rimuovere le parole da un corpus di testo in inglese che non sono presenti nel dizionario inglese oppure complessa come la rielaborazione dei punti dati in modo da eliminare il maggior numero possibile di attributi correlati ad attributi sensibili. Il pre-elaborazione può contribuire a soddisfare i vincoli di equità.modello preaddestrato
Sebbene questo termine possa riferirsi a qualsiasi modello o vettore di incorporamento addestrato, ora il modello preaddestrato in genere si riferisce a un modello linguistico di grandi dimensioni o a un'altra forma di modello di AI generativa addestrato.
Vedi anche modello di base e foundation model.
pre-training
L'addestramento iniziale di un modello su un grande set di dati. Alcuni modelli pre-addestrati sono giganti goffi e in genere devono essere perfezionati tramite un addestramento aggiuntivo. Ad esempio, gli esperti di ML potrebbero pre-addestrare un modello linguistico di grandi dimensioni su un vasto set di dati di testo, come tutte le pagine in inglese di Wikipedia. Dopo il pre-addestramento, il modello risultante può essere ulteriormente perfezionato mediante una delle seguenti tecniche:
- distillation
- ottimizzazione
- Ottimizzazione delle istruzioni
- Ottimizzazione efficiente dei parametri
- prompt-tuning
credenza a priori
Ciò che pensi dei dati prima di iniziare l'addestramento. Ad esempio, la regolarizzazione L2 si basa su una convinzione a priori che i pesi debbano essere piccoli e distribuiti normalmente intorno allo zero.
Pro
Un modello Gemini con meno parametri di Ultra, ma più parametri di Nano. Per maggiori dettagli, consulta la pagina Gemini Pro.
modello di regressione probabilistico
Un modello di regressione che utilizza non solo i pesi per ogni caratteristica, ma anche l'incertezza di questi pesi. Un modello di regressione probabilistico genera una previsione e l'incertezza di questa previsione. Ad esempio, un modello di regressione probabilistica potrebbe produrre una previsione di 325 con una deviazione standard di 12. Per ulteriori informazioni sui modelli di regressione probabilistica, consulta questo Colab su tensorflow.org.
funzione di densità di probabilità
Una funzione che identifica la frequenza dei campioni di dati che hanno esattamente un
determinato valore. Quando i valori di un set di dati sono numeri
in virgola mobile continui, raramente si verificano corrispondenze esatte. Tuttavia, integrando una funzione di densità di probabilità dal valore x
al valore y
si ottiene la frequenza prevista dei campioni di dati compresi tra x
e y
.
Ad esempio, considera una distribuzione normale con una media di 200 e una deviazione standard di 30. Per determinare la frequenza prevista dei campioni di dati che rientrano nell'intervallo da 211,4 a 218,7, puoi integrare la funzione di densità di probabilità per una distribuzione normale da 211,4 a 218,7.
prompt
Qualsiasi testo inserito come input in un modello linguistico di grandi dimensioni per condizionare il modello a comportarsi in un determinato modo. I prompt possono essere brevi come una frase o arbitrariamente lunghi (ad esempio, l'intero testo di un romanzo). I prompt rientrano in più categorie, tra cui quelle mostrate nella tabella seguente:
Categoria di prompt | Esempio | Note |
---|---|---|
Domanda | A che velocità può volare un piccione? | |
Istruzione | Scrivi una poesia divertente sull'arbitraggio. | Un prompt che chiede al modello linguistico di grandi dimensioni (LLM) di fare qualcosa. |
Esempio | Traduci il codice Markdown in HTML. Ad esempio:
Markdown: * list item HTML: <ul> <li>list item</li> </ul> |
La prima frase di questo prompt di esempio è un'istruzione. Il resto del prompt è l'esempio. |
Ruolo | Spiega perché la discesa del gradiente viene utilizzata nell'addestramento del machine learning a un dottorato in fisica. | La prima parte della frase è un'istruzione; la frase "to a PhD in Physics" è la parte relativa al ruolo. |
Input parziale da completare per il modello | Il Primo Ministro del Regno Unito vive a | Un prompt di input parziale può terminare bruscamente (come in questo esempio) o con un trattino basso. |
Un modello di AI generativa può rispondere a un prompt con testo, codice, immagini, incorporamenti, video… quasi qualsiasi cosa.
apprendimento basato su prompt
Una funzionalità di alcuni modelli che consente loro di adattare il proprio comportamento in risposta a input di testo arbitrari (prompt). In un tipico paradigma di apprendimento basato sui prompt, un modello linguistico di grandi dimensioni risponde a un prompt generando testo. Ad esempio, supponiamo che un utente inserisca il seguente prompt:
Riassumi il terzo principio della dinamica di Newton.
Un modello in grado di apprendere in base ai prompt non è addestrato in modo specifico per rispondere al prompt precedente. Il modello "conosce" molti fatti sulla fisica, molte regole linguistiche generali e molti elementi che costituiscono risposte generalmente utili. Queste informazioni sono sufficienti per fornire una risposta (si spera) utile. Ulteriori feedback umani ("Questa risposta era troppo complicata" o "Che cos'è una reazione?") consentono ad alcuni sistemi di apprendimento basati su prompt di migliorare gradualmente l'utilità delle loro risposte.
progettazione dei prompt
Sinonimo di prompt engineering.
ingegneria del prompt
L'arte di creare prompt che generano le risposte desiderate da un modello linguistico di grandi dimensioni. Gli esseri umani eseguono l'ingegneria dei prompt. Scrivere prompt ben strutturati è una parte essenziale per garantire risposte utili da un modello linguistico di grandi dimensioni. L'ingegneria dei prompt dipende da molti fattori, tra cui:
- Il set di dati utilizzato per il preaddestramento e, possibilmente, per l'ottimizzazione del modello linguistico di grandi dimensioni.
- La temperatura e altri parametri di decodifica che il modello utilizza per generare risposte.
Progettazione dei prompt è un sinonimo di prompt engineering.
Per saperne di più su come scrivere prompt utili, consulta Introduzione alla progettazione dei prompt.
ottimizzazione dei prompt
Un meccanismo di ottimizzazione efficiente dei parametri che apprende un "prefisso" che il sistema antepone al prompt effettivo.
Una variante della messa a punto del prompt, a volte chiamata messa a punto del prefisso, consiste nell'anteporre il prefisso a ogni livello. Al contrario, la maggior parte della messa a punto dei prompt aggiunge solo un prefisso al livello di input.
proxy (attributi sensibili)
Un attributo utilizzato come sostituto di un attributo sensibile. Ad esempio, il codice postale di una persona potrebbe essere utilizzato come proxy per il suo reddito, la sua razza o la sua etnia.proxy labels
Dati utilizzati per approssimare le etichette non disponibili direttamente in un set di dati.
Ad esempio, supponiamo di dover addestrare un modello per prevedere il livello di stress dei dipendenti. Il tuo set di dati contiene molte funzionalità predittive, ma non contiene un'etichetta denominata livello di stress. Senza scoraggiarti, scegli "incidenti sul lavoro" come etichetta proxy per il livello di stress. Dopo tutto, i dipendenti sotto forte stress sono più soggetti a incidenti rispetto a quelli tranquilli. O no? Forse gli incidenti sul lavoro aumentano e diminuiscono per diversi motivi.
Come secondo esempio, supponiamo che tu voglia che is it raining? sia un'etichetta booleana per il tuo set di dati, ma il tuo set di dati non contiene dati sulla pioggia. Se sono disponibili fotografie, potresti stabilire immagini di persone che portano ombrelli come etichetta proxy per sta piovendo? È un'etichetta proxy valida? Probabilmente, ma le persone di alcune culture potrebbero portare con sé l'ombrello più per proteggersi dal sole che dalla pioggia.
Le etichette proxy spesso non sono perfette. Se possibile, scegli etichette effettive anziché etichette proxy. Detto questo, quando un'etichetta effettiva è assente, scegli l'etichetta proxy con molta attenzione, selezionando il candidato meno orribile.
Per saperne di più, consulta Set di dati: etichette in Machine Learning Crash Course.
funzione pura
Una funzione i cui output si basano solo sui suoi input e che non ha effetti collaterali. Nello specifico, una funzione pura non utilizza né modifica alcuno stato globale, come il contenuto di un file o il valore di una variabile al di fuori della funzione.
Le funzioni pure possono essere utilizzate per creare codice thread-safe, il che è utile quando si esegue lo sharding del codice del modello su più chip di accelerazione.
I metodi di trasformazione delle funzioni di JAX richiedono che le funzioni di input siano pure.
Q
Funzione Q
Nell'apprendimento per rinforzo, la funzione che prevede il rendimento previsto dall'esecuzione di un'azione in uno stato e dal rispetto di una determinata norma.
La funzione Q è nota anche come funzione di valore stato-azione.
Q-learning
Nel reinforcement learning, un algoritmo che consente a un agente di apprendere la funzione Q ottimale di un processo decisionale di Markov applicando l'equazione di Bellman. Il processo decisionale di Markov modella un ambiente.
quantile
Ogni bucket nel raggruppamento per quantili.
bucketing quantile
Distribuzione dei valori di una caratteristica in bucket in modo che ogni bucket contenga lo stesso numero (o quasi) di esempi. Ad esempio, la figura seguente divide 44 punti in 4 bucket, ognuno dei quali contiene 11 punti. Affinché ogni bucket della figura contenga lo stesso numero di punti, alcuni bucket coprono una larghezza diversa di valori x.
Per saperne di più, consulta Dati numerici: binning in Machine Learning Crash Course.
quantizzazione
Termine sovraccarico che può essere utilizzato in uno dei seguenti modi:
- Implementazione del raggruppamento per quantili su una determinata funzionalità.
- Trasformare i dati in zeri e uno per archiviarli, addestrarli e dedurli più rapidamente. Poiché i dati booleani sono più resistenti al rumore e agli errori rispetto ad altri formati, la quantizzazione può migliorare la correttezza del modello. Le tecniche di quantizzazione includono l'arrotondamento, il troncamento e il binning.
Riduzione del numero di bit utilizzati per memorizzare i parametri di un modello. Ad esempio, supponiamo che i parametri di un modello siano memorizzati come numeri in virgola mobile a 32 bit. La quantizzazione converte questi parametri da 32 bit a 4, 8 o 16 bit. La quantizzazione riduce quanto segue:
- Utilizzo di calcolo, memoria, disco e rete
- Tempo per dedurre una previsione
- Consumo energetico
Tuttavia, a volte la quantizzazione riduce la correttezza delle previsioni di un modello.
coda
Un'operazione TensorFlow che implementa una struttura di dati di coda. Utilizzato in genere in I/O.
R
RAG
Abbreviazione di retrieval-augmented generation.
foresta casuale
Un insieme di alberi decisionali in cui ogni albero decisionale viene addestrato con un rumore casuale specifico, ad esempio il bagging.
Le foreste casuali sono un tipo di foresta decisionale.
Per ulteriori informazioni, consulta la sezione Random Forest del corso Decision Forests.
norma casuale
Nell'apprendimento per rinforzo, una policy che sceglie un'azione in modo casuale.
rank (ordinality)
La posizione ordinale di una classe in un problema di machine learning che categorizza le classi dalla più alta alla più bassa. Ad esempio, un sistema di classificazione del comportamento potrebbe classificare le ricompense di un cane dalla più alta (una bistecca) alla più bassa (cavolo nero appassito).
rank (tensore)
Il numero di dimensioni in un Tensor. Ad esempio, uno scalare ha rango 0, un vettore ha rango 1 e una matrice ha rango 2.
Da non confondere con il ranking (ordinalità).
ranking
Un tipo di apprendimento supervisionato il cui obiettivo è ordinare un elenco di elementi.
valutatore
Una persona che fornisce etichette per gli esempi. "Annotatore" è un altro nome per valutatore.
Per saperne di più, consulta Dati categorici: problemi comuni in Machine Learning Crash Course.
richiamo
Una metrica per i modelli di classificazione che risponde alla seguente domanda:
Quando la verità di riferimento era la classe positiva, quale percentuale di previsioni è stata identificata correttamente dal modello come classe positiva?
Ecco la formula:
\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]
dove:
- vero positivo significa che il modello ha previsto correttamente la classe positiva.
- Un falso negativo significa che il modello ha previsto erroneamente la classe negativa.
Ad esempio, supponiamo che il modello abbia effettuato 200 previsioni su esempi per i quali la verità di base era la classe positiva. Di queste 200 previsioni:
- 180 erano veri positivi.
- 20 erano falsi negativi.
In questo caso:
\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]
Per saperne di più, consulta Classificazione: accuratezza, richiamo, precisione e metriche correlate.
richiamo a k (recall@k)
Una metrica per valutare i sistemi che restituiscono un elenco classificato (ordinato) di elementi. Il richiamo a k identifica la frazione di elementi pertinenti nei primi k elementi di questo elenco rispetto al numero totale di elementi pertinenti restituiti.
\[\text{recall at k} = \frac{\text{relevant items in first k items of the list}} {\text{total number of relevant items in the list}}\]
Contrasto con precisione a k.
sistema di suggerimenti
Un sistema che seleziona per ogni utente un insieme relativamente piccolo di elementi desiderabili da un corpus di grandi dimensioni. Ad esempio, un sistema di consigli sui video potrebbe consigliare due video da un corpus di 100.000 video, selezionando Casablanca e Scandalo a Filadelfia per un utente e Wonder Woman e Black Panther per un altro. Un sistema di consigli sui video potrebbe basare i suoi consigli su fattori quali:
- Film che utenti simili hanno valutato o guardato.
- Genere, registi, attori, gruppo demografico target…
Per saperne di più, consulta il corso sui sistemi di raccomandazione.
Unità lineare rettificata (ReLU)
Una funzione di attivazione con il seguente comportamento:
- Se l'input è negativo o pari a zero, l'output è 0.
- Se l'input è positivo, l'output è uguale all'input.
Ad esempio:
- Se l'input è -3, l'output è 0.
- Se l'input è +3, l'output è 3.0.
Ecco un grafico della ReLU:
ReLU è una funzione di attivazione molto popolare. Nonostante il suo comportamento semplice, ReLU consente comunque a una rete neurale di apprendere relazioni non lineari tra le caratteristiche e l'etichetta.
rete neurale ricorrente
Una rete neurale che viene eseguita intenzionalmente più volte, in cui parti di ogni esecuzione vengono inserite nell'esecuzione successiva. Nello specifico, i livelli nascosti dell'esecuzione precedente forniscono parte dell'input allo stesso livello nascosto nell'esecuzione successiva. Le reti neurali ricorrenti sono particolarmente utili per valutare le sequenze, in modo che gli strati nascosti possano apprendere dalle esecuzioni precedenti della rete neurale sulle parti precedenti della sequenza.
Ad esempio, la figura seguente mostra una rete neurale ricorrente che viene eseguita quattro volte. Tieni presente che i valori appresi nei livelli nascosti della prima esecuzione diventano parte dell'input degli stessi livelli nascosti nella seconda esecuzione. Allo stesso modo, i valori appresi nel livello nascosto della seconda esecuzione diventano parte dell'input dello stesso livello nascosto nella terza esecuzione. In questo modo, la rete neurale ricorrente si addestra gradualmente e prevede il significato dell'intera sequenza anziché solo il significato delle singole parole.
testo di riferimento
La risposta di un esperto a un prompt. Ad esempio, dato il seguente prompt:
Traduci la domanda "Come ti chiami?" dall'inglese al francese.
La risposta di un esperto potrebbe essere:
Comment vous appelez-vous?
Varie metriche (come ROUGE) misurano il grado di corrispondenza tra il testo di riferimento e il testo generato di un modello ML.
modello di regressione
Informalmente, un modello che genera una previsione numerica. Al contrario, un modello di classificazione genera una previsione di classe. Ad esempio, i seguenti sono tutti modelli di regressione:
- Un modello che prevede il valore di una determinata casa in euro, ad esempio 423.000.
- Un modello che prevede l'aspettativa di vita di un determinato albero in anni, ad esempio 23,2.
- Un modello che prevede la quantità di pioggia in pollici che cadrà in una determinata città nelle sei ore successive, ad esempio 0,18.
Due tipi comuni di modelli di regressione sono:
- Regressione lineare, che trova la linea che meglio si adatta ai valori delle etichette alle caratteristiche.
- Regressione logistica, che genera una probabilità compresa tra 0.0 e 1.0 che un sistema in genere mappa a una previsione di classe.
Non tutti i modelli che restituiscono previsioni numeriche sono modelli di regressione. In alcuni casi, una previsione numerica è in realtà solo un modello di classificazione che ha nomi di classe numerici. Ad esempio, un modello che prevede un codice postale numerico è un modello di classificazione, non un modello di regressione.
regolarizzazione
Qualsiasi meccanismo che riduce l'overfitting. I tipi più comuni di regolarizzazione includono:
- Regolarizzazione L1
- Regolarizzazione L2
- Regolarizzazione dropout
- interruzione anticipata (non è un metodo di regolarizzazione formale, ma può limitare efficacemente l'overfitting)
La regolarizzazione può anche essere definita come la penalità per la complessità di un modello.
Per saperne di più, consulta Overfitting: complessità del modello in Machine Learning Crash Course.
tasso di regolarizzazione
Un numero che specifica l'importanza relativa della regolarizzazione durante l'addestramento. L'aumento del tasso di regolarizzazione riduce l'overfitting, ma potrebbe ridurre il potere predittivo del modello. Al contrario, la riduzione o l'omissione del tasso di regolarizzazione aumenta l'overfitting.
Per saperne di più, consulta Overfitting: regolarizzazione L2 in Machine Learning Crash Course.
apprendimento per rinforzo (RL)
Una famiglia di algoritmi che apprendono una norma ottimale, il cui obiettivo è massimizzare il rendimento quando interagiscono con un ambiente. Ad esempio, la ricompensa finale della maggior parte dei giochi è la vittoria. I sistemi di apprendimento per rinforzo possono diventare esperti nel giocare a giochi complessi valutando sequenze di mosse precedenti che hanno portato a vittorie e sequenze che hanno portato a sconfitte.
Apprendimento per rinforzo con feedback umano (RLHF)
Utilizzo del feedback dei valutatori umani per migliorare la qualità delle risposte di un modello. Ad esempio, un meccanismo RLHF può chiedere agli utenti di valutare la qualità della risposta di un modello con un'emoji 👍 o 👎. Il sistema può quindi modificare le risposte future in base a questo feedback.
ReLU
Abbreviazione di Rectified Linear Unit.
replay buffer
Negli algoritmi simili a DQN, la memoria utilizzata dall'agente per memorizzare le transizioni di stato da utilizzare nella replay dell'esperienza.
Cloud SQL
Una copia (o parte) di un set di addestramento o di un modello, in genere archiviata su un'altra macchina. Ad esempio, un sistema potrebbe utilizzare la seguente strategia per implementare il parallelismo dei dati:
- Posiziona le repliche di un modello esistente su più macchine.
- Invia diversi sottoinsiemi del set di addestramento a ogni replica.
- Aggrega gli aggiornamenti dei parametri.
Una replica può anche fare riferimento a un'altra copia di un server di inferenza. L'aumento del numero di repliche aumenta il numero di richieste che il sistema può gestire simultaneamente, ma anche i costi di pubblicazione.
bias di segnalazione
Il fatto che la frequenza con cui le persone scrivono di azioni, risultati o proprietà non riflette la loro frequenza nel mondo reale o il grado in cui una proprietà è caratteristica di una classe di individui. Il bias di segnalazione può influenzare la composizione dei dati da cui apprendono i sistemi di machine learning.
Ad esempio, nei libri la parola rise è più frequente di breathed. Un modello di machine learning che stima la frequenza relativa di risate e respirazione da un corpus di libri probabilmente determinerebbe che le risate sono più comuni della respirazione.
Per saperne di più, consulta Equità: tipi di distorsione in Machine Learning Crash Course.
vettoriale prima che arrivassero
Il processo di mappatura dei dati in funzionalità utili.
riposizionamento
La fase finale di un sistema di consigli, durante la quale gli elementi con punteggio possono essere riclassificati in base a un altro algoritmo (in genere non ML). Il ranking valuta l'elenco degli elementi generati dalla fase di assegnazione del punteggio, intraprendendo azioni quali:
- Eliminando gli articoli che l'utente ha già acquistato.
- Aumentare il punteggio degli elementi più recenti.
Per saperne di più, consulta la sezione Riorganizzazione del corso sui sistemi di raccomandazione.
Retrieval-augmented generation (RAG)
Una tecnica per migliorare la qualità dell'output di un modello linguistico di grandi dimensioni (LLM) ancorandolo a fonti di conoscenza recuperate dopo l'addestramento del modello. La RAG migliora l'accuratezza delle risposte dell'LLM fornendo all'LLM addestrato l'accesso alle informazioni recuperate da knowledge base o documenti attendibili.
I motivi più comuni per utilizzare la generazione aumentata dal recupero includono:
- Aumentare l'accuratezza oggettiva delle risposte generate da un modello.
- Consentire al modello di accedere a conoscenze su cui non è stato addestrato.
- Modificare le conoscenze utilizzate dal modello.
- Consentire al modello di citare le fonti.
Ad esempio, supponiamo che un'app di chimica utilizzi l'API PaLM per generare riepiloghi relativi alle query degli utenti. Quando il backend dell'app riceve una query, esegue le seguenti operazioni:
- Cerca ("recupera") i dati pertinenti alla query dell'utente.
- Aggiunge ("aumenta") i dati chimici pertinenti alla query dell'utente.
- Indica all'LLM di creare un riepilogo basato sui dati aggiunti.
invio
Nell'apprendimento per rinforzo, dato un determinato criterio e un determinato stato, il rendimento è la somma di tutte le ricompense che l'agente prevede di ricevere seguendo il criterio dallo stato alla fine dell'episodio. L'agente tiene conto della natura ritardata dei premi previsti scontando i premi in base alle transizioni di stato necessarie per ottenere il premio.
Pertanto, se il fattore di sconto è \(\gamma\)e \(r_0, \ldots, r_{N}\) indica i premi fino alla fine dell'episodio, il calcolo del rendimento è il seguente:
premio
Nell'apprendimento per rinforzo, il risultato numerico dell'esecuzione di un'azione in uno stato, come definito dall'ambiente.
regolarizzazione ridge
Sinonimo di regolarizzazione L2. Il termine regolarizzazione ridge viene utilizzato più spesso in contesti di statistica pura, mentre regolarizzazione L2 viene utilizzato più spesso nel machine learning.
RNN
Abbreviazione di reti neurali ricorrenti.
Curva ROC (caratteristica operativa del ricevitore)
Un grafico della percentuale di veri positivi rispetto alla percentuale di falsi positivi per diverse soglie di classificazione nella classificazione binaria.
La forma di una curva ROC suggerisce la capacità di un modello di classificazione binaria di separare le classi positive da quelle negative. Supponiamo, ad esempio, che un modello di classificazione binaria separi perfettamente tutte le classi negative da tutte le classi positive:
La curva ROC per il modello precedente ha il seguente aspetto:
Al contrario, il grafico dell'illustrazione seguente mostra i valori di regressione logistica grezzi per un modello pessimo che non riesce a separare le classi negative da quelle positive:
La curva ROC per questo modello ha il seguente aspetto:
Nel frattempo, nel mondo reale, la maggior parte dei modelli di classificazione binaria separa le classi positive e negative in una certa misura, ma di solito non in modo perfetto. Pertanto, una tipica curva ROC si trova a metà strada tra i due estremi:
Il punto su una curva ROC più vicino a (0.0,1.0) identifica teoricamente la soglia di classificazione ideale. Tuttavia, diversi altri problemi del mondo reale influenzano la selezione della soglia di classificazione ideale. Ad esempio, forse i falsi negativi causano molto più dolore dei falsi positivi.
Una metrica numerica chiamata AUC riassume la curva ROC in un singolo valore in virgola mobile.
richiesta di ruolo
Parte facoltativa di un prompt che identifica un pubblico di destinazione per la risposta di un modello di AI generativa. Senza un prompt di ruolo, un modello linguistico di grandi dimensioni fornisce una risposta che potrebbe essere utile o meno per la persona che pone le domande. Con un prompt di ruolo, un modello linguistico di grandi dimensioni può rispondere in modo più appropriato e utile per un pubblico di destinazione specifico. Ad esempio, la parte della richiesta relativa al ruolo delle seguenti richieste è in grassetto:
- Riassumi questo documento per un dottorato in economia.
- Descrivi come funzionano le maree per un bambino di 10 anni.
- Spiega la crisi finanziaria del 2008. Parla come faresti con un bambino piccolo o con un golden retriever.
root
Il nodo iniziale (la prima condizione) in un albero decisionale. Per convenzione, i diagrammi posizionano la radice nella parte superiore dell'albero decisionale. Ad esempio:
directory root
La directory che specifichi per ospitare le sottodirectory dei file di checkpoint ed eventi TensorFlow di più modelli.
Errore quadratico medio (RMSE)
La radice quadrata dell'errore quadratico medio.
invarianza rotazionale
In un problema di classificazione delle immagini, la capacità di un algoritmo di classificare correttamente le immagini anche quando l'orientamento dell'immagine cambia. Ad esempio, l'algoritmo può comunque identificare una racchetta da tennis sia che sia rivolta verso l'alto, di lato o verso il basso. Tieni presente che l'invarianza rotazionale non è sempre auspicabile; ad esempio, un 9 capovolto non deve essere classificato come 9.
Vedi anche invarianza alla traslazione e invarianza alla dimensione.
ROUGE (Recall-Oriented Understudy for Gisting Evaluation)
Una famiglia di metriche che valutano i modelli di riepilogo automatico e di traduzione automatica. Le metriche ROUGE determinano il grado di sovrapposizione di un testo di riferimento con il testo generato di un modello di ML. Ogni membro della famiglia ROUGE misura la sovrapposizione in modo diverso. Punteggi ROUGE più elevati indicano una maggiore somiglianza tra il testo di riferimento e il testo generato rispetto a punteggi ROUGE più bassi.
Ogni membro della famiglia ROUGE genera in genere le seguenti metriche:
- Precisione
- Richiamo
- F1
Per dettagli ed esempi, vedi:
ROUGE-L
Un membro della famiglia ROUGE incentrato sulla lunghezza della sottosequenza comune più lunga nel testo di riferimento e nel testo generato. Le seguenti formule calcolano il richiamo e la precisione per ROUGE-L:
Puoi quindi utilizzare F1 per riepilogare il richiamo ROUGE-L e la precisione ROUGE-L in un'unica metrica:
ROUGE-L ignora i nuovi caratteri di fine riga nel testo di riferimento e nel testo generato, quindi la sottosequenza comune più lunga potrebbe attraversare più frasi. Quando il testo di riferimento e il testo generato coinvolgono più frasi, una variante di ROUGE-L chiamata ROUGE-Lsum è generalmente una metrica migliore. ROUGE-Lsum determina la sottosequenza comune più lunga per ogni frase in un passaggio e poi calcola la media di queste sottosequenze comuni più lunghe.
ROUGE-N
Un insieme di metriche della famiglia ROUGE che confronta gli N-gram condivisi di una determinata dimensione nel testo di riferimento e nel testo generato. Ad esempio:
- ROUGE-1 misura il numero di token condivisi nel testo di riferimento e nel testo generato.
- ROUGE-2 misura il numero di bigrammi (2-grammi) nel testo di riferimento e nel testo generato.
- ROUGE-3 misura il numero di trigrammi (3-grammi) nel testo di riferimento e nel testo generato.
Puoi utilizzare le seguenti formule per calcolare il richiamo ROUGE-N e la precisione ROUGE-N per qualsiasi membro della famiglia ROUGE-N:
Puoi quindi utilizzare F1 per riepilogare il richiamo ROUGE-N e la precisione ROUGE-N in un'unica metrica:
ROUGE-S
Una forma di ROUGE-N che consente la corrispondenza di skip-gram. ovvero ROUGE-N conta solo gli n-grammi che corrispondono esattamente, mentre ROUGE-S conta anche gli n-grammi separati da una o più parole. Ad esempio, prendi in considerazione quanto indicato di seguito.
- reference text: White clouds
- Testo generato: White billowing clouds
Quando viene calcolato ROUGE-N, il 2-gramma White clouds non corrisponde a White billowing clouds. Tuttavia, quando si calcola ROUGE-S, Nuvole bianche corrisponde a Nuvole bianche e gonfie.
R al quadrato
Una metrica di regressione che indica la variazione di un'etichetta dovuta a una singola caratteristica o a un insieme di caratteristiche. R al quadrato è un valore compreso tra 0 e 1, che puoi interpretare nel seguente modo:
- Un valore R quadrato pari a 0 indica che nessuna variazione di un'etichetta è dovuta al set di funzionalità.
- Un valore R quadrato pari a 1 indica che tutta la variazione di un'etichetta è dovuta al set di funzionalità.
- Un valore R quadrato compreso tra 0 e 1 indica la misura in cui la variazione dell'etichetta può essere prevista da una determinata caratteristica o dal set di caratteristiche. Ad esempio, un valore R quadrato di 0,10 significa che il 10% della varianza nell'etichetta è dovuto al set di funzionalità, un valore R quadrato di 0,20 significa che il 20% è dovuto al set di funzionalità e così via.
R al quadrato è il quadrato del coefficiente di correlazione Pearson tra i valori previsti da un modello e i dati empirici reali.
S
bias di campionamento
Consulta la sezione Bias di selezione.
campionamento con reinserimento
Un metodo di selezione di elementi da un insieme di elementi candidati in cui lo stesso elemento può essere selezionato più volte. La frase "con reintegro" significa che dopo ogni selezione, l'elemento selezionato viene restituito al pool di elementi candidati. Il metodo inverso, campionamento senza reinserimento, significa che un elemento candidato può essere scelto una sola volta.
Ad esempio, considera il seguente insieme di frutti:
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
Supponiamo che il sistema scelga casualmente fig
come primo elemento.
Se utilizzi il campionamento con reinserimento, il sistema sceglie il secondo elemento dal seguente insieme:
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
Sì, è lo stesso set di prima, quindi il sistema potrebbe potenzialmente
scegliere di nuovo fig
.
Se utilizzi il campionamento senza reinserimento, una volta scelto, un campione non può essere
scelto di nuovo. Ad esempio, se il sistema sceglie in modo casuale fig
come
primo campione, fig
non può essere scelto di nuovo. Pertanto, il sistema
sceglie il secondo campione dal seguente insieme (ridotto):
fruit = {kiwi, apple, pear, cherry, lime, mango}
SavedModel
Il formato consigliato per salvare e recuperare i modelli TensorFlow. SavedModel è un formato di serializzazione recuperabile e indipendente dal linguaggio, che consente a sistemi e strumenti di livello superiore di produrre, utilizzare e trasformare i modelli TensorFlow.
Per tutti i dettagli, consulta la sezione Salvataggio e ripristino della Guida per i programmatori di TensorFlow.
Economico
Un oggetto TensorFlow responsabile del salvataggio dei checkpoint del modello.
scalare
Un singolo numero o una singola stringa che può essere rappresentata come un tensore di rango 0. Ad esempio, le seguenti righe di codice creano ciascuna uno scalare in TensorFlow:
breed = tf.Variable("poodle", tf.string) temperature = tf.Variable(27, tf.int16) precision = tf.Variable(0.982375101275, tf.float64)
scalabilità
Qualsiasi trasformazione o tecnica matematica che sposta l'intervallo di un'etichetta, un valore di funzionalità o entrambi. Alcune forme di scalabilità sono molto utili per trasformazioni come la normalizzazione.
Le forme comuni di scalabilità utili nel machine learning includono:
- il ridimensionamento lineare, che in genere utilizza una combinazione di sottrazione e divisione per sostituire il valore originale con un numero compreso tra -1 e +1 o tra 0 e 1.
- scala logaritmica, che sostituisce il valore originale con il suo logaritmo.
- Normalizzazione Z-score, che sostituisce il valore originale con un valore in virgola mobile che rappresenta il numero di deviazioni standard dalla media di quella caratteristica.
scikit-learn
Una piattaforma di machine learning open source molto diffusa. Visita scikit-learn.org.
calcolo punteggio
La parte di un sistema di consigli che fornisce un valore o una classificazione per ogni elemento prodotto dalla fase di generazione dei candidati.
bias di selezione
Errori nelle conclusioni tratte dai dati campionati a causa di un processo di selezione che genera differenze sistematiche tra i campioni osservati nei dati e quelli non osservati. Esistono i seguenti tipi di bias di selezione:
- Bias di copertura: la popolazione rappresentata nel set di dati non corrisponde alla popolazione su cui il modello di machine learning sta facendo previsioni.
- Bias di campionamento: i dati non vengono raccolti in modo casuale dal gruppo target.
- Bias di mancata risposta (chiamato anche bias di partecipazione): gli utenti di determinati gruppi non partecipano ai sondaggi a tassi diversi rispetto agli utenti di altri gruppi.
Ad esempio, supponiamo di creare un modello di machine learning che preveda il gradimento di un film da parte delle persone. Per raccogliere i dati di addestramento, distribuisci un sondaggio a tutte le persone sedute in prima fila di un cinema che proietta il film. A prima vista, questo potrebbe sembrare un modo ragionevole per raccogliere un set di dati; tuttavia, questa forma di raccolta dei dati potrebbe introdurre le seguenti forme di bias di selezione:
- bias di copertura: campionando una popolazione che ha scelto di vedere il film, le previsioni del tuo modello potrebbero non essere generalizzabili alle persone che non hanno già espresso quel livello di interesse per il film.
- distorsione del campionamento: anziché campionare in modo casuale dalla popolazione prevista (tutte le persone al cinema), hai campionato solo le persone in prima fila. È possibile che le persone sedute in prima fila fossero più interessate al film rispetto a quelle sedute in altre file.
- Bias di mancata risposta: in generale, le persone con opinioni forti tendono a rispondere ai sondaggi facoltativi più frequentemente rispetto alle persone con opinioni moderate. Poiché il sondaggio sul film è facoltativo, le risposte hanno maggiori probabilità di formare una distribuzione bimodale rispetto a una distribuzione normale (a campana).
auto-attenzione (chiamato anche livello di auto-attenzione)
Un livello di rete neurale che trasforma una sequenza di embedding (ad esempio, embedding di token) in un'altra sequenza di embedding. Ogni incorporamento nella sequenza di output viene costruito integrando le informazioni degli elementi della sequenza di input tramite un meccanismo di attenzione.
La parte self di self-attention si riferisce alla sequenza che si occupa di se stessa anziché di un altro contesto. L'auto-attenzione è uno dei principali elementi costitutivi dei Transformer e utilizza la terminologia di ricerca nel dizionario, come "query", "chiave" e "valore".
Un livello di auto-attenzione inizia con una sequenza di rappresentazioni di input, una per ogni parola. La rappresentazione di input per una parola può essere un semplice incorporamento. Per ogni parola in una sequenza di input, la rete valuta la pertinenza della parola rispetto a ogni elemento dell'intera sequenza di parole. I punteggi di pertinenza determinano in che misura la rappresentazione finale della parola incorpora le rappresentazioni di altre parole.
Ad esempio, considera la seguente frase:
L'animale non ha attraversato la strada perché era troppo stanco.
La seguente illustrazione (tratta da Transformer: A Novel Neural Network Architecture for Language Understanding) mostra il pattern di attenzione di un livello di auto-attenzione per il pronome it, con l'intensità di ogni linea che indica il contributo di ogni parola alla rappresentazione:
Il livello di auto-attenzione evidenzia le parole pertinenti a "it". In questo caso, il livello di attenzione ha imparato a evidenziare le parole a cui si potrebbe riferire, assegnando il peso più elevato alla parola animale.
Per una sequenza di n token, l'auto-attenzione trasforma una sequenza di embedding n volte separate, una volta in ogni posizione della sequenza.
Consulta anche attenzione e auto-attenzione multi-testa.
apprendimento auto-supervisionato
Una famiglia di tecniche per convertire un problema di machine learning non supervisionato in un problema di machine learning supervisionato creando etichette surrogate da esempi non etichettati.
Alcuni modelli basati su Transformer, come BERT, utilizzano l'apprendimento auto-supervisionato.
L'addestramento auto-supervisionato è un approccio di apprendimento semi-supervisionato.
autoformazione
Una variante dell'apprendimento auto-supervisionato particolarmente utile quando si verificano tutte le seguenti condizioni:
- Il rapporto tra esempi senza etichetta ed esempi con etichetta nel set di dati è elevato.
- Si tratta di un problema di classificazione.
L'autoaddestramento funziona ripetendo i due passaggi seguenti finché il modello non smette di migliorare:
- Utilizza l'apprendimento supervisionato per addestrare un modello sugli esempi etichettati.
- Utilizza il modello creato nel passaggio 1 per generare previsioni (etichette) sugli esempi senza etichetta, spostando quelli in cui c'è un'alta affidabilità negli esempi con etichetta con l'etichetta prevista.
Nota che ogni iterazione del passaggio 2 aggiunge altri esempi etichettati per il passaggio 1 per l'addestramento.
apprendimento semi-supervisionato
Addestramento di un modello su dati in cui alcuni esempi di addestramento hanno etichette, ma altri no. Una tecnica per l'apprendimento semi-supervisionato consiste nell'inferire le etichette per gli esempi non etichettati e poi addestrare il modello con le etichette inferite per creare un nuovo modello. L'apprendimento semi-supervisionato può essere utile se le etichette sono costose da ottenere, ma gli esempi non etichettati sono abbondanti.
L'autoapprendimento è una tecnica per l'apprendimento semi-supervisionato.
attributo sensibile
Un attributo umano a cui può essere data una considerazione speciale per motivi legali, etici, sociali o personali.analisi del sentiment
Utilizzo di algoritmi statistici o di machine learning per determinare l'atteggiamento generale di un gruppo, positivo o negativo, nei confronti di un servizio, un prodotto, un'organizzazione o un argomento. Ad esempio, utilizzando la comprensione del linguaggio naturale, un algoritmo potrebbe eseguire l'analisi del sentiment sul feedback testuale di un corso universitario per determinare il grado di gradimento o meno degli studenti nei confronti del corso.
Per ulteriori informazioni, consulta la guida alla classificazione del testo.
sequence model
Un modello i cui input hanno una dipendenza sequenziale. Ad esempio, prevedere il prossimo video guardato da una sequenza di video guardati in precedenza.
attività da sequenza a sequenza
Un'attività che converte una sequenza di input di token in una sequenza di output di token. Ad esempio, due tipi comuni di attività di sequenza-sequenza sono:
- Traduttori:
- Sequenza di input di esempio: "Ti voglio bene".
- Sequenza di output di esempio: "Je t'aime."
- Question answering:
- Sequenza di input di esempio: "Mi servirà l'auto a New York City?"
- Sequenza di output di esempio: "No. Tieni la macchina a casa."
del modello.
Il processo di rendere disponibile un modello addestrato per fornire previsioni tramite inferenza online o inferenza offline.
shape (tensore)
Il numero di elementi in ogni dimensione di un tensore. La forma è rappresentata come un elenco di numeri interi. Ad esempio, il seguente tensore bidimensionale ha una forma di [3,4]:
[[5, 7, 6, 4], [2, 9, 4, 8], [3, 6, 5, 1]]
TensorFlow utilizza il formato row-major (stile C) per rappresentare l'ordine delle dimensioni, motivo per cui la forma in TensorFlow è [3,4]
anziché [4,3]
. In altre parole, in un tensore TensorFlow bidimensionale, la forma
è [
numero di righe, numero di colonne]
.
Una forma statica è una forma del tensore nota al momento della compilazione.
Una forma dinamica è sconosciuta al momento della compilazione ed è
quindi dipende dai dati di runtime. Questo tensore potrebbe essere rappresentato con una
dimensione segnaposto in TensorFlow, come in [3, ?]
.
shard
Una divisione logica del set di addestramento o del modello. In genere, un processo crea gli shard dividendo gli esempi o i parametri in blocchi (di solito) di dimensioni uguali. Ogni shard viene quindi assegnato a una macchina diversa.
Lo sharding di un modello è chiamato parallelismo dei modelli; lo sharding dei dati è chiamato parallelismo dei dati.
restringimento
Un iperparametro in gradient boosting che controlla l'overfitting. La contrazione nel boosting del gradiente è analoga al tasso di apprendimento nella discesa del gradiente. Il restringimento è un valore decimale compreso tra 0,0 e 1,0. Un valore di contrazione più basso riduce l'overfitting più di un valore di contrazione più alto.
valutazione affiancata
Confrontare la qualità di due modelli giudicando le loro risposte allo stesso prompt. Ad esempio, supponiamo che il seguente prompt venga fornito a due modelli diversi:
Crea un'immagine di un simpatico cane che fa giocoleria con tre palline.
In una valutazione affiancata, un valutatore sceglie l'immagine "migliore" (più accurata? Più bello? Più carino?).
funzione sigmoidea
Una funzione matematica che "comprime" un valore di input in un intervallo vincolato, in genere da 0 a 1 o da -1 a +1. ovvero puoi passare qualsiasi numero (2, un milione, un miliardo negativo, quello che vuoi) a una sigmoide e l'output sarà comunque nell'intervallo vincolato. Un grafico della funzione di attivazione sigmoidea è il seguente:
La funzione sigmoide ha diversi utilizzi nel machine learning, tra cui:
- Conversione dell'output non elaborato di un modello di regressione logistica o di regressione multinomiale in una probabilità.
- che funge da funzione di attivazione in alcune reti neurali.
misura di similarità
Negli algoritmi di clustering, la metrica utilizzata per determinare il grado di somiglianza tra due esempi.
singolo programma / più dati (SPMD)
Una tecnica di parallelismo in cui lo stesso calcolo viene eseguito su dati di input diversi in parallelo su dispositivi diversi. Lo scopo di SPMD è ottenere risultati più rapidamente. È lo stile più comune di programmazione parallela.
invarianza di scala
In un problema di classificazione delle immagini, la capacità di un algoritmo di classificare correttamente le immagini anche quando le dimensioni dell'immagine cambiano. Ad esempio, l'algoritmo può comunque identificare un gatto indipendentemente dal fatto che consumi 2 milioni di pixel o 200.000 pixel. Tieni presente che anche i migliori algoritmi di classificazione delle immagini hanno ancora limiti pratici di invarianza delle dimensioni. Ad esempio, è improbabile che un algoritmo (o un essere umano) classifichi correttamente un'immagine di un gatto che occupa solo 20 pixel.
Vedi anche invarianza traslazionale e invarianza rotazionale.
Per saperne di più, consulta il corso sul clustering.
schizzi
Nell'apprendimento non supervisionato, una categoria di algoritmi che eseguono un'analisi preliminare della somiglianza sugli esempi. Gli algoritmi di sketching utilizzano una funzione hash sensibile alla località per identificare i punti che potrebbero essere simili e poi raggrupparli in bucket.
Lo sketching riduce il calcolo necessario per i calcoli di similarità su set di dati di grandi dimensioni. Invece di calcolare la somiglianza per ogni singola coppia di esempi nel set di dati, la calcoliamo solo per ogni coppia di punti all'interno di ogni bucket.
skip-gram
Un n-gramma che può omettere (o "saltare") parole dal contesto originale, il che significa che le N parole potrebbero non essere state originariamente adiacenti. Più precisamente, un "k-skip-n-gramma" è un n-gramma per il quale è possibile saltare fino a k parole.
Ad esempio, "la rapida volpe marrone" ha i seguenti possibili 2-grammi:
- "the quick"
- "quick brown"
- "brown fox"
Un "1-skip-2-gram" è una coppia di parole tra cui è presente al massimo una parola. Pertanto, "la rapida volpe marrone" ha i seguenti 2-grammi con 1 skip:
- "the brown"
- "quick fox"
Inoltre, tutti i 2-grammi sono anche 1-skip-2-grammi, poiché è possibile saltare meno di una parola.
Gli skip-gram sono utili per comprendere meglio il contesto circostante di una parola. Nell'esempio, "fox" è stato associato direttamente a "quick" nel set di 1-skip-2-grammi, ma non nel set di 2-grammi.
Gli skip-grammi aiutano ad addestrare i modelli di word embedding.
softmax
Una funzione che determina le probabilità per ogni classe possibile in un modello di classificazione multiclasse. La somma delle probabilità è esattamente 1.0. Ad esempio, la tabella seguente mostra come la funzione softmax distribuisce varie probabilità:
L'immagine è un/una… | Probabilità |
---|---|
cane | 0,85 |
gatto | ,13 |
cavallo | .02 |
Softmax è anche chiamata softmax completa.
Contrasta con il campionamento dei candidati.
Per ulteriori informazioni, consulta Reti neurali: classificazione multiclasse in Machine Learning Crash Course.
ottimizzazione dei prompt soft
Una tecnica per ottimizzare un modello linguistico di grandi dimensioni per un'attività specifica, senza un'ottimizzazione che richieda molte risorse. Anziché riaddestrare tutti i pesi nel modello, la messa a punto del prompt soft regola automaticamente un prompt per raggiungere lo stesso obiettivo.
Dato un prompt testuale, l'ottimizzazione del soft prompt in genere aggiunge incorporamenti di token aggiuntivi al prompt e utilizza la retropropagazione per ottimizzare l'input.
Un prompt "hard" contiene token effettivi anziché incorporamenti di token.
caratteristica sparsa
Una caratteristica i cui valori sono prevalentemente zero o vuoti. Ad esempio, una caratteristica contenente un singolo valore 1 e un milione di valori 0 è scarsa. Al contrario, una caratteristica densa ha valori che non sono prevalentemente zero o vuoti.
Nel machine learning, un numero sorprendente di caratteristiche sono caratteristiche sparse. Le caratteristiche categoriche sono in genere caratteristiche sparse. Ad esempio, delle 300 specie di alberi possibili in una foresta, un singolo esempio potrebbe identificare solo un acero. Oppure, tra i milioni di video possibili in una raccolta video, un singolo esempio potrebbe identificare solo "Casablanca".
In un modello, in genere le caratteristiche sparse vengono rappresentate con la codifica one-hot. Se la codifica one-hot è grande, potresti inserire un livello di incorporamento sopra la codifica one-hot per una maggiore efficienza.
rappresentazione sparsa
Memorizzazione solo delle posizioni degli elementi diversi da zero in una funzionalità sparsa.
Ad esempio, supponiamo che una funzionalità categorica denominata species
identifichi le 36
specie di alberi in una determinata foresta. Supponiamo inoltre che ogni
esempio identifichi una sola specie.
Potresti utilizzare un vettore one-hot per rappresentare le specie di alberi in ogni esempio.
Un vettore one-hot conterrebbe un singolo 1
(per rappresentare
la particolare specie di albero nell'esempio) e 35 0
(per rappresentare le
35 specie di alberi non presenti nell'esempio). Pertanto, la rappresentazione one-hot
di maple
potrebbe avere un aspetto simile al seguente:
In alternativa, la rappresentazione sparsa identificherebbe semplicemente la posizione della specie specifica. Se maple
si trova nella posizione 24, la rappresentazione sparsa
di maple
sarebbe semplicemente:
24
Tieni presente che la rappresentazione sparsa è molto più compatta di quella one-hot.
Per saperne di più, consulta la sezione Lavorare con dati categorici in Machine Learning Crash Course.
vettore sparso
Un vettore i cui valori sono per lo più zeri. Vedi anche funzionalità sparse e sparsità.
sparsità
Il numero di elementi impostati su zero (o null) in un vettore o una matrice diviso per il numero totale di voci nel vettore o nella matrice. Ad esempio, considera una matrice di 100 elementi in cui 98 celle contengono zero. Il calcolo della sparsità è il seguente:
La sparsità delle caratteristiche si riferisce alla sparsità di un vettore delle caratteristiche; la sparsità del modello si riferisce alla sparsità dei pesi del modello.
pooling spaziale
Consulta la sezione raggruppamento.
Spalato
In un albero decisionale, un altro nome per una condizione.
splitter
Durante l'addestramento di un albero decisionale, la routine (e l'algoritmo) responsabile della ricerca della migliore condizione in ogni nodo.
SPMD
Abbreviazione di programma singolo / dati multipli.
errore quadratico medio della cerniera
Il quadrato della perdita hinge. La perdita hinge al quadrato penalizza i valori anomali in modo più severo rispetto alla perdita hinge normale.
perdita quadratica
Sinonimo di perdita L2.
addestramento graduale
Una tattica di addestramento di un modello in una sequenza di fasi discrete. L'obiettivo può essere accelerare il processo di addestramento o ottenere una migliore qualità del modello.
Di seguito è riportata un'illustrazione dell'approccio di stacking progressivo:
- La fase 1 contiene 3 livelli nascosti, la fase 2 ne contiene 6 e la fase 3 ne contiene 12.
- La fase 2 inizia l'addestramento con i pesi appresi nei tre livelli nascosti della fase 1. La fase 3 inizia l'addestramento con i pesi appresi nei 6 livelli nascosti della fase 2.
Vedi anche il pipelining.
stato
Nell'apprendimento per rinforzo, i valori dei parametri che descrivono la configurazione attuale dell'ambiente, che l'agente utilizza per scegliere un'azione.
funzione valore stato-azione
Sinonimo di funzione Q.
static
Qualcosa fatto una volta anziché in modo continuo. I termini statico e offline sono sinonimi. Di seguito sono riportati gli utilizzi comuni di statico e offline nel machine learning:
- Un modello statico (o modello offline) è un modello addestrato una sola volta e poi utilizzato per un po' di tempo.
- L'addestramento statico (o addestramento offline) è il processo di addestramento di un modello statico.
- L'inferenza statica (o inferenza offline) è un processo in cui un modello genera un batch di previsioni alla volta.
Contrasta con dinamico.
inferenza statica
Sinonimo di inferenza offline.
stazionarietà
Una funzionalità i cui valori non cambiano in una o più dimensioni, in genere il tempo. Ad esempio, una caratteristica i cui valori appaiono più o meno uguali nel 2021 e nel 2023 mostra stazionarietà.
Nel mondo reale, pochissime caratteristiche mostrano stazionarietà. Anche le caratteristiche sinonimo di stabilità (come il livello del mare) cambiano nel tempo.
Contrasto con la non stazionarietà.
a terra
Un passaggio in avanti e uno indietro di un batch.
Per saperne di più sulla propagazione in avanti e all'indietro, consulta la sezione Backpropagation.
dimensione passo
Sinonimo di tasso di apprendimento.
discesa stocastica del gradiente (SGD)
Un algoritmo di discesa del gradiente in cui la dimensione del batch è pari a uno. In altre parole, SGD esegue l'addestramento su un singolo esempio scelto in modo uniforme e casuale da un set di addestramento.
Per saperne di più, consulta Regressione lineare: iperparametri in Machine Learning Crash Course.
stride
In un'operazione di convoluzione o pooling, il delta in ogni dimensione della successiva serie di sezioni di input. Ad esempio, la seguente animazione mostra un passo (1,1) durante un'operazione di convoluzione. Pertanto, la successiva porzione di input inizia una posizione a destra della precedente. Quando l'operazione raggiunge il bordo destro, la fetta successiva si trova completamente a sinistra, ma una posizione più in basso.
L'esempio precedente mostra un passo bidimensionale. Se la matrice di input è tridimensionale, anche lo stride sarà tridimensionale.
riduzione al minimo del rischio strutturale (SRM)
Un algoritmo che bilancia due obiettivi:
- La necessità di creare il modello più predittivo (ad esempio, con la perdita più bassa).
- La necessità di mantenere il modello il più semplice possibile (ad esempio, una forte regolarizzazione).
Ad esempio, una funzione che minimizza la perdita e la regolarizzazione sul set di addestramento è un algoritmo di minimizzazione del rischio strutturale.
Contrasto con la minimizzazione empirica del rischio.
sottocampionamento
Consulta la sezione raggruppamento.
token di subword
Nei modelli linguistici, un token è una sottostringa di una parola, che può essere l'intera parola.
Ad esempio, una parola come "dettagliare" potrebbe essere suddivisa in "dettaglio" (una parola radice) e "are" (un suffisso), ognuno dei quali è rappresentato dal proprio token. La suddivisione di parole non comuni in parti, chiamate subword, consente ai modelli linguistici di operare sulle parti costituenti più comuni della parola, come prefissi e suffissi.
Al contrario, parole comuni come "andando" potrebbero non essere suddivise e potrebbero essere rappresentate da un singolo token.
riepilogo
In TensorFlow, un valore o un insieme di valori calcolati in un determinato passaggio, in genere utilizzato per monitorare le metriche del modello durante l'addestramento.
machine learning supervisionato
Addestramento di un modello a partire dalle funzionalità e dalle relative etichette. L'apprendimento supervisionato nel machine learning è analogo all'apprendimento di una materia studiando una serie di domande e le risposte corrispondenti. Dopo aver acquisito la mappatura tra domande e risposte, uno studente può fornire risposte a nuove domande (mai viste prima) sullo stesso argomento.
Confronta con machine learning non supervisionato.
Per saperne di più, consulta la sezione Apprendimento supervisionato del corso Introduzione al machine learning.
funzionalità sintetica
Una caratteristica non presente tra le caratteristiche di input, ma assemblata a partire da una o più di queste. I metodi per creare funzionalità sintetiche includono quanto segue:
- Suddivisione in bucket di una caratteristica continua in bin di intervallo.
- Creazione di un incrocio di caratteristiche.
- Moltiplicando (o dividendo) un valore di una caratteristica per altri valori di caratteristiche
o per se stesso. Ad esempio, se
a
eb
sono caratteristiche di input, di seguito sono riportati alcuni esempi di caratteristiche sintetiche:- ab
- a2
- Applicazione di una funzione trascendentale a un valore della funzionalità. Ad esempio, se
c
è una caratteristica di input, di seguito sono riportati alcuni esempi di caratteristiche sintetiche:- sin(c)
- ln(c)
Le caratteristiche create solo mediante normalizzazione o scalabilità non sono considerate caratteristiche sintetiche.
T
T5
Un modello transfer learning da testo a testo introdotto da Google AI nel 2020. T5 è un modello encoder-decoder, basato sull'architettura Transformer, addestrato su un set di dati estremamente ampio. È efficace in una serie di attività di elaborazione del linguaggio naturale, come la generazione di testo, la traduzione di lingue e la risposta a domande in modo colloquiale.
T5 prende il nome dalle cinque T di "Text-to-Text Transfer Transformer".
T5X
T5X
Un framework di machine learning open source progettato per creare e addestrare modelli di elaborazione del linguaggio naturale (NLP) su larga scala. T5 è implementato nel codebase T5X (che è basato su JAX e Flax).
Q-learning tabellare
Nell'apprendimento per rinforzo, l'implementazione dell'apprendimento Q utilizzando una tabella per memorizzare le funzioni Q per ogni combinazione di stato e azione.
target
Sinonimo di etichetta.
rete target
Nel deep Q-learning, una rete neurale che è un'approssimazione stabile della rete neurale principale, in cui la rete neurale principale implementa una funzione Q o un criterio. Dopodiché, puoi addestrare la rete principale sui valori Q previsti dalla rete target. In questo modo, eviti il ciclo di feedback che si verifica quando la rete principale si addestra sui valori Q previsti da se stessa. Evitando questo feedback, la stabilità dell'allenamento aumenta.
attività
Un problema che può essere risolto utilizzando tecniche di machine learning, ad esempio:
temperatura
Un iperparametro che controlla il grado di casualità dell'output di un modello. Temperature più alte generano un output più casuale, mentre temperature più basse generano un output meno casuale.
La scelta della temperatura migliore dipende dall'applicazione specifica e/o dai valori delle stringhe.
dati temporali
Dati registrati in momenti diversi. Ad esempio, le vendite di cappotti invernali registrate per ogni giorno dell'anno sarebbero dati temporali.
Tensore
La struttura di dati principale nei programmi TensorFlow. I tensori sono strutture di dati N-dimensionali (dove N può essere molto grande), più comunemente scalari, vettori o matrici. Gli elementi di un tensore possono contenere valori interi, in virgola mobile o stringa.
TensorBoard
La dashboard che mostra i riepiloghi salvati durante l'esecuzione di uno o più programmi TensorFlow.
TensorFlow
Una piattaforma di machine learning distribuita su larga scala. Il termine si riferisce anche al livello API di base nello stack TensorFlow, che supporta il calcolo generale sui grafici Dataflow.
Anche se TensorFlow viene utilizzato principalmente per il machine learning, puoi utilizzarlo anche per attività non di ML che richiedono calcoli numerici utilizzando grafi di flusso di dati.
TensorFlow Playground
Un programma che visualizza in che modo diversi iperparametri influenzano l'addestramento (principalmente di reti neurali) del modello. Vai su http://playground.tensorflow.org per fare esperimenti con TensorFlow Playground.
TensorFlow Serving
Una piattaforma per il deployment dei modelli addestrati in produzione.
Tensor Processing Unit (TPU)
Un circuito integrato specifico per applicazioni (ASIC) che ottimizza le prestazioni dei carichi di lavoro di machine learning. Questi ASIC vengono implementati come più chip TPU su un dispositivo TPU.
Rank del tensore
Vedi rank (tensore).
Forma del tensore
Il numero di elementi contenuti in un Tensor in varie dimensioni.
Ad esempio, un tensore [5, 10]
ha una forma di 5 in una dimensione e 10 in un'altra.
Dimensioni tensore
Il numero totale di scalari contenuti in un Tensor. Ad esempio, un
tensore [5, 10]
ha una dimensione di 50.
TensorStore
Una libreria per leggere e scrivere in modo efficiente grandi array multidimensionali.
condizione di terminazione
Nell'apprendimento per rinforzo, le condizioni che determinano quando termina un episodio, ad esempio quando l'agente raggiunge un determinato stato o supera una soglia di transizioni di stato. Ad esempio, nel gioco del tris, un episodio termina quando un giocatore segna tre spazi consecutivi o quando tutti gli spazi sono contrassegnati.
test
In un albero decisionale, un altro nome per una condizione.
test loss
Una metrica che rappresenta la perdita di un modello rispetto al set di test. Quando crei un modello, in genere cerchi di ridurre al minimo la perdita del test. Questo perché una perdita dei dati di test bassa è un indicatore di qualità più forte rispetto a una perdita di addestramento bassa o una perdita di convalida bassa.
Un ampio divario tra la perdita di test e la perdita di addestramento o la perdita di convalida a volte suggerisce di aumentare il tasso di regolarizzazione.
test set
Un sottoinsieme del set di dati riservato per testare un modello addestrato.
Tradizionalmente, gli esempi nel set di dati vengono suddivisi nei seguenti tre sottoinsiemi distinti:
- un set di addestramento
- un set di convalida
- un test set
Ogni esempio in un set di dati deve appartenere a uno solo dei sottoinsiemi precedenti. Ad esempio, un singolo esempio non deve appartenere sia al set di addestramento sia al set di test.
Il set di addestramento e il set di convalida sono entrambi strettamente correlati all'addestramento di un modello. Poiché il set di test è associato all'addestramento solo indirettamente, la perdita dei dati di test è una metrica di qualità superiore e meno distorta rispetto alla perdita dei dati di addestramento o alla perdita dei dati di convalida.
Per saperne di più, consulta la sezione Set di dati: divisione del set di dati originale in Machine Learning Crash Course.
intervallo di testo
L'intervallo di indici dell'array associato a una sezione specifica di una stringa di testo.
Ad esempio, la parola good
nella stringa Python s="Be good now"
occupa
l'intervallo di testo da 3 a 6.
tf.Example
Un protocol buffer standard per descrivere i dati di input per l'addestramento o l'inferenza di modelli di machine learning.
tf.keras
Un'implementazione di Keras integrata in TensorFlow.
soglia (per gli alberi decisionali)
In una condizione allineata all'asse, il valore con cui viene confrontata una caratteristica. Ad esempio, 75 è il valore soglia nella seguente condizione:
grade >= 75
Per saperne di più, consulta Splitter esatto per la classificazione binaria con funzionalità numeriche nel corso Decision Forests.
analisi delle serie temporali
Un sottocampo del machine learning e della statistica che analizza i dati temporali. Molti tipi di problemi di machine learning richiedono l'analisi delle serie temporali, tra cui classificazione, clustering, previsione e rilevamento di anomalie. Ad esempio, potresti utilizzare l'analisi delle serie temporali per prevedere le vendite future di cappotti invernali per mese in base ai dati storici di vendita.
timestep
Una cella "srotolata" all'interno di una rete neurale ricorrente. Ad esempio, la figura seguente mostra tre intervalli di tempo (contrassegnati con gli indici t-1, t e t+1):
token
In un modello linguistico, l'unità atomica su cui il modello viene addestrato e su cui fa previsioni. Un token è in genere uno dei seguenti:
- una parola, ad esempio la frase "i cani amano i gatti" è composta da tre token di parole: "i", "cani", "amano", "i", "gatti".
- un carattere. Ad esempio, la frase "pesce in bicicletta" è composta da nove token di caratteri. Tieni presente che lo spazio vuoto viene conteggiato come uno dei token.
- sottoparole, in cui una singola parola può essere un singolo token o più token. Una parola secondaria è costituita da una parola radice, un prefisso o un suffisso. Ad esempio, un modello linguistico che utilizza le subword come token potrebbe visualizzare la parola "cani" come due token (la parola radice "cane" e il suffisso plurale "i"). Lo stesso modello linguistico potrebbe considerare la singola parola "più alto" come due sottoparole (la parola radice "alto" e il suffisso "er").
Nei domini al di fuori dei modelli linguistici, i token possono rappresentare altri tipi di unità atomiche. Ad esempio, nella computer vision, un token potrebbe essere un sottoinsieme di un'immagine.
Per saperne di più, consulta Modelli linguistici di grandi dimensioni in Machine Learning Crash Course.
tokenizzatore
Un sistema o un algoritmo che traduce una sequenza di dati di input in token.
La maggior parte dei modelli di base moderni sono multimodali. Un tokenizer per un sistema multimodale deve tradurre ogni tipo di input nel formato appropriato. Ad esempio, dati di input costituiti da testo e grafica, il tokenizer potrebbe tradurre il testo di input in sottoparole e le immagini di input in piccole patch. Il tokenizer deve quindi convertire tutti i token in un unico spazio di incorporamento unificato, che consente al modello di "comprendere" un flusso di input multimodali.
precisione top-k
La percentuale di volte in cui un'etichetta target viene visualizzata nelle prime k posizioni degli elenchi generati. Gli elenchi potrebbero essere consigli personalizzati o un elenco di elementi ordinati in base alla funzione softmax.
L'accuratezza Top-k è anche nota come accuratezza a k.
torre
Un componente di una rete neurale profonda che è a sua volta una rete neurale profonda. In alcuni casi, ogni torre legge da un'origine dati indipendente e queste torri rimangono indipendenti finché il loro output non viene combinato in un livello finale. In altri casi, ad esempio nella torre encoder e decoder di molti Transformer, le torri hanno interconnessioni tra loro.
tossicità
Il livello di offensività, minaccia o abuso dei contenuti. Molti modelli di machine learning possono identificare e misurare la tossicità. La maggior parte di questi modelli identifica la tossicità in base a più parametri, ad esempio il livello di linguaggio offensivo e il livello di linguaggio minaccioso.
TPU
Abbreviazione di Tensor Processing Unit.
Chip TPU
Un acceleratore di algebra lineare programmabile con memoria ad alta larghezza di banda on-chip ottimizzato per i workload di machine learning. Più chip TPU vengono implementati su un dispositivo TPU.
Dispositivo TPU
Una scheda per circuiti stampati (PCB) con più chip TPU, interfacce di rete a larghezza di banda elevata e hardware di raffreddamento del sistema.
Nodo TPU
Una risorsa TPU su Google Cloud con un tipo di TPU specifico. Il nodo TPU si connette alla tua rete VPC da una rete VPC peer. I nodi TPU sono una risorsa definita nell'API Cloud TPU.
pod di TPU
Una configurazione specifica di dispositivi TPU in un data center di Google. Tutti i dispositivi di un pod TPU sono connessi tra loro tramite una rete dedicata ad alta velocità. Un pod TPU è la configurazione più grande di dispositivi TPU disponibile per una versione specifica della TPU.
Risorsa TPU
Un'entità TPU su Google Cloud che crei, gestisci o utilizzi. Ad esempio, nodi TPU e tipi di TPU sono risorse TPU.
Sezione TPU
Una sezione TPU è una porzione frazionaria dei dispositivi TPU in un pod TPU. Tutti i dispositivi di una sezione TPU sono connessi tra loro tramite una rete dedicata ad alta velocità.
Tipo di TPU
Una configurazione di uno o più dispositivi TPU con una versione hardware TPU specifica. Selezioni un tipo di TPU quando crei
un nodo TPU su Google Cloud. Ad esempio, un tipo di TPU v2-8
è un singolo dispositivo TPU v2 con 8 core. Un tipo di TPU v3-2048
ha 256
dispositivi TPU v3 in rete e un totale di 2048 core. I tipi di TPU sono una risorsa
definita nell'API Cloud TPU.
worker TPU
Un processo che viene eseguito su una macchina host ed esegue programmi di machine learning su dispositivi TPU.
formazione
Il processo di determinazione dei parametri (pesi e bias) che compongono un modello. Durante l'addestramento, un sistema legge esempi e regola gradualmente i parametri. L'addestramento utilizza ogni esempio da poche volte a miliardi di volte.
Per saperne di più, consulta la sezione Apprendimento supervisionato del corso Introduzione al machine learning.
perdita di addestramento
Una metrica che rappresenta la perdita di un modello durante una particolare iterazione di addestramento. Ad esempio, supponiamo che la funzione di perdita sia l'errore quadratico medio. Forse la perdita di addestramento (l'errore quadratico medio) per la decima iterazione è 2,2 e la perdita di addestramento per la centesima iterazione è 1,9.
Una curva di perdita traccia la perdita di addestramento rispetto al numero di iterazioni. Una curva di perdita fornisce i seguenti suggerimenti sull'addestramento:
- Una pendenza verso il basso implica che il modello sta migliorando.
- Una pendenza verso l'alto implica che il modello sta peggiorando.
- Una pendenza piatta implica che il modello ha raggiunto la convergenza.
Ad esempio, la seguente curva di perdita un po' idealizzata mostra:
- Una pendenza ripida verso il basso durante le iterazioni iniziali, il che implica un rapido miglioramento del modello.
- Una pendenza che si appiattisce gradualmente (ma sempre verso il basso) fino quasi alla fine dell'addestramento, il che implica un miglioramento continuo del modello a un ritmo un po' più lento rispetto alle iterazioni iniziali.
- Una pendenza piatta verso la fine dell'addestramento, che suggerisce la convergenza.
Sebbene la perdita di addestramento sia importante, consulta anche la generalizzazione.
disallineamento addestramento/produzione
La differenza tra il rendimento di un modello durante l'addestramento e quello dello stesso modello durante la produzione.
training set
Il sottoinsieme del set di dati utilizzato per addestrare un modello.
Tradizionalmente, gli esempi nel set di dati sono suddivisi nei seguenti tre sottoinsiemi distinti:
- un training set
- un set di convalida
- un set di test
Idealmente, ogni esempio nel set di dati dovrebbe appartenere a uno solo dei sottoinsiemi precedenti. Ad esempio, un singolo esempio non deve appartenere sia al set di addestramento sia al set di convalida.
Per saperne di più, consulta la sezione Set di dati: divisione del set di dati originale in Machine Learning Crash Course.
traiettoria
Nell'apprendimento per rinforzo, una sequenza di tuple che rappresentano una sequenza di transizioni di stato dell'agente, dove ogni tupla corrisponde allo stato, all'azione, alla ricompensa e allo stato successivo per una determinata transizione di stato.
transfer learning
Trasferimento di informazioni da un'attività di machine learning a un'altra. Ad esempio, nell'apprendimento multi-task, un singolo modello risolve più attività, come un modello profondo che ha nodi di output diversi per attività diverse. Il Transfer Learning può comportare il trasferimento di conoscenze dalla soluzione di un'attività più semplice a una più complessa oppure il trasferimento di conoscenze da un'attività in cui sono disponibili più dati a una in cui sono disponibili meno dati.
La maggior parte dei sistemi di machine learning risolve una singola attività. Il transfer learning è un piccolo passo verso l'intelligenza artificiale in cui un singolo programma può risolvere più attività.
Transformer
Un'architettura di rete neurale sviluppata da Google che si basa su meccanismi di auto-attenzione per trasformare una sequenza di incorporamenti di input in una sequenza di incorporamenti di output senza fare affidamento su convoluzioni o reti neurali ricorrenti. Un Transformer può essere visto come uno stack di livelli di auto-attenzione.
Un Transformer può includere uno dei seguenti elementi:
- un codificatore
- un decoder
- sia un encoder che un decoder
Un encoder trasforma una sequenza di embedding in una nuova sequenza della stessa lunghezza. Un codificatore include N livelli identici, ognuno dei quali contiene due livelli secondari. Questi due sottolivelli vengono applicati a ogni posizione della sequenza di embedding di input, trasformando ogni elemento della sequenza in un nuovo embedding. Il primo sottolivello dell'encoder aggrega le informazioni dell'intera sequenza di input. Il secondo sottolivello del codificatore trasforma le informazioni aggregate in un embedding di output.
Un decoder trasforma una sequenza di incorporamenti di input in una sequenza di incorporamenti di output, possibilmente di lunghezza diversa. Un decoder include anche N livelli identici con tre sottolivelli, due dei quali sono simili ai sottolivelli dell'encoder. Il terzo livello secondario del decoder prende l'output dell'encoder e applica il meccanismo di auto-attenzione per raccogliere informazioni.
Il post del blog Transformer: A Novel Neural Network Architecture for Language Understanding fornisce una buona introduzione ai Transformer.
Per saperne di più, consulta LLM: che cos'è un modello linguistico di grandi dimensioni? in Machine Learning Crash Course.
invarianza traslazionale
In un problema di classificazione delle immagini, la capacità di un algoritmo di classificare correttamente le immagini anche quando la posizione degli oggetti all'interno dell'immagine cambia. Ad esempio, l'algoritmo può comunque identificare un cane, sia che si trovi al centro dell'inquadratura sia all'estremità sinistra dell'inquadratura.
Vedi anche invarianza di scala e invarianza di rotazione.
trigramma
Un n-gramma in cui N=3.
vero negativo (VN)
Un esempio in cui il modello prevede correttamente la classe negativa. Ad esempio, il modello deduce che un determinato messaggio email non è spam e che il messaggio email in questione non è spam.
vero positivo (VP)
Un esempio in cui il modello prevede correttamente la classe positiva. Ad esempio, il modello deduce che un determinato messaggio email è spam e questo messaggio email è effettivamente spam.
tasso di veri positivi (TPR)
Sinonimo di ritiro. Ossia:
La percentuale di veri positivi è l'asse Y di una curva ROC.
TTL
Abbreviazione di durata.
U
Ultra
Il modello Gemini con il maggior numero di parametri. Per maggiori dettagli, vedi Gemini Ultra.
inconsapevolezza (rispetto a un attributo sensibile)
Una situazione in cui sono presenti attributi sensibili, ma non inclusi nei dati di addestramento. Poiché gli attributi sensibili sono spesso correlati ad altri attributi dei dati, un modello addestrato senza consapevolezza di un attributo sensibile potrebbe comunque avere un impatto disparato rispetto a quell'attributo o violare altri vincoli di equità.
underfitting
Produzione di un modello con scarsa capacità predittiva perché il modello non ha acquisito completamente la complessità dei dati di addestramento. Molti problemi possono causare un adattamento insufficiente, tra cui:
- Addestramento sul set errato di funzionalità.
- Addestramento per un numero troppo basso di epoche o a un tasso di apprendimento troppo basso.
- Addestramento con un tasso di regolarizzazione troppo elevato.
- Fornire un numero troppo basso di strati nascosti in una rete neurale profonda.
Per saperne di più, consulta la sezione Overfitting di Machine Learning Crash Course.
sottocampionamento
Rimozione di esempi dalla classe maggioritaria in un set di dati con sbilanciamento di classe per creare un set di addestramento più bilanciato.
Ad esempio, considera un set di dati in cui il rapporto tra la classe maggioritaria e la classe minoritaria è 20:1. Per superare questo squilibrio di classe, potresti creare un set di addestramento costituito da tutti gli esempi della classe di minoranza, ma solo da un decimo degli esempi della classe di maggioranza, il che creerebbe un rapporto tra le classi del set di addestramento di 2:1. Grazie al sottocampionamento, questo set di addestramento più bilanciato potrebbe produrre un modello migliore. In alternativa, questo set di addestramento più bilanciato potrebbe contenere esempi insufficienti per addestrare un modello efficace.
Contrasto con l'oversampling.
unidirezionale
Un sistema che valuta solo il testo che precede una sezione di testo di destinazione. Al contrario, un sistema bidirezionale valuta sia il testo che precede sia quello che segue una sezione di testo di destinazione. Per maggiori dettagli, consulta la sezione bidirezionale.
modello linguistico unidirezionale
Un modello linguistico che basa le sue probabilità solo sui token che compaiono prima, non dopo, i token di destinazione. Contrasto con il modello linguistico bidirezionale.
esempio senza etichetta
Un esempio che contiene funzionalità, ma nessuna etichetta. Ad esempio, la tabella seguente mostra tre esempi senza etichetta di un modello di valutazione di una casa, ognuno con tre caratteristiche ma senza valore della casa:
Numero di camere | Numero di bagni | Età della casa |
---|---|---|
3 | 2 | 15 |
2 | 1 | 72 |
4 | 2 | 34 |
Nel machine learning supervisionato, i modelli vengono addestrati su esempi etichettati e fanno previsioni su esempi non etichettati.
Nell'apprendimento semi-supervisionato e non supervisionato, vengono utilizzati esempi non etichettati durante l'addestramento.
Confronta l'esempio senza etichetta con l'esempio con etichetta.
machine learning non supervisionato
Addestramento di un modello per trovare pattern in un set di dati, in genere un set di dati senza etichette.
L'utilizzo più comune del machine learning non supervisionato è quello di raggruppare i dati in gruppi di esempi simili. Ad esempio, un algoritmo di machine learning non supervisionato può raggruppare i brani in base a varie proprietà della musica. I cluster risultanti possono diventare un input per altri algoritmi di machine learning (ad esempio, per un servizio di consigli musicali). Il clustering può essere utile quando le etichette utili sono scarse o assenti. Ad esempio, in domini come la prevenzione di abusi e frodi, i cluster possono aiutare le persone a comprendere meglio i dati.
Contrasto con il machine learning supervisionato.
Per saperne di più, consulta Che cos'è il machine learning? nel corso Introduction to ML.
modellazione dell'impatto
Una tecnica di modellazione, comunemente utilizzata nel marketing, che modella l'"effetto causale" (noto anche come "impatto incrementale") di un "trattamento" su un "individuo". Di seguito sono riportati due esempi:
- I medici potrebbero utilizzare la modellazione dell'uplift per prevedere la diminuzione della mortalità (effetto causale) di una procedura medica (trattamento) a seconda dell'età e dell'anamnesi di un paziente (individuo).
- I professionisti del marketing potrebbero utilizzare la modellazione dell'impatto incrementale per prevedere l'aumento della probabilità di un acquisto (effetto causale) dovuto a una pubblicità (trattamento) su una persona (individuo).
La modellazione dell'uplift è diversa dalla classificazione o dalla regressione in quanto alcune etichette (ad esempio, la metà delle etichette nei trattamenti binari) sono sempre mancanti nella modellazione dell'uplift. Ad esempio, un paziente può ricevere o non ricevere un trattamento; pertanto, possiamo osservare se il paziente guarirà o non guarirà solo in una di queste due situazioni (ma mai in entrambe). Il vantaggio principale di un modello di impatto è che può generare previsioni per la situazione non osservata (il controfattuale) e utilizzarle per calcolare l'effetto causale.
ponderazione verso l'alto
Applicare un peso alla classe sottocampionata uguale al fattore di sottocampionamento.
matrice degli utenti
Nei sistemi di suggerimenti, un vettore di incorporamento generato dalla fattorizzazione matriciale che contiene segnali latenti sulle preferenze degli utenti. Ogni riga della matrice utente contiene informazioni sulla forza relativa di vari indicatori latenti per un singolo utente. Ad esempio, considera un sistema di consigli sui film. In questo sistema, i segnali latenti nella matrice degli utenti potrebbero rappresentare l'interesse di ogni utente per generi particolari oppure potrebbero essere segnali più difficili da interpretare che coinvolgono interazioni complesse tra più fattori.
La matrice degli utenti ha una colonna per ogni funzionalità latente e una riga per ogni utente. ovvero la matrice utente ha lo stesso numero di righe della matrice target che viene fattorizzata. Ad esempio, dato un sistema di consigli per film per 1.000.000 di utenti, la matrice degli utenti avrà 1.000.000 di righe.
V
convalida
La valutazione iniziale della qualità di un modello. La convalida verifica la qualità delle previsioni di un modello rispetto al set di convalida.
Poiché il set di convalida è diverso dal set di addestramento, la convalida aiuta a evitare l'overfitting.
Puoi considerare la valutazione del modello rispetto al set di convalida come il primo round di test e la valutazione del modello rispetto al set di test come il secondo round di test.
perdita di convalida
Una metrica che rappresenta la perdita di un modello sul set di convalida durante una particolare iterazione dell'addestramento.
Vedi anche la curva di generalizzazione.
set di convalida
Il sottoinsieme del set di dati che esegue la valutazione iniziale rispetto a un modello addestrato. In genere, valuti il modello addestrato rispetto al set di convalida più volte prima di valutare il modello rispetto al set di test.
Tradizionalmente, gli esempi nel set di dati vengono suddivisi nei seguenti tre sottoinsiemi distinti:
- un set di addestramento
- un set di convalida
- un set di test
Idealmente, ogni esempio nel set di dati dovrebbe appartenere a uno solo dei sottoinsiemi precedenti. Ad esempio, un singolo esempio non deve appartenere sia al set di addestramento sia al set di convalida.
Per saperne di più, consulta la sezione Set di dati: divisione del set di dati originale in Machine Learning Crash Course.
imputazione del valore
Il processo di sostituzione di un valore mancante con un sostituto accettabile. Quando manca un valore, puoi scartare l'intero esempio o utilizzare l'imputazione dei valori per recuperarlo.
Ad esempio, considera un set di dati contenente una caratteristica temperature
che
deve essere registrata ogni ora. Tuttavia, la lettura della temperatura non era
disponibile per un'ora specifica. Ecco una sezione del set di dati:
Timestamp | Temperatura |
---|---|
1680561000 | 10 |
1680564600 | 12 |
1680568200 | mancante |
1680571800 | 20 |
1680575400 | 21 |
1680579000 | 21 |
Un sistema potrebbe eliminare l'esempio mancante o imputare la temperatura mancante come 12, 16, 18 o 20, a seconda dell'algoritmo di imputazione.
problema di scomparsa del gradiente
La tendenza dei gradienti dei primi livelli nascosti di alcune reti neurali profonde a diventare sorprendentemente piatti (bassi). Gradienti sempre più bassi comportano modifiche sempre più piccole ai pesi dei nodi in una rete neurale profonda, con conseguente apprendimento scarso o nullo. I modelli che soffrono del problema di scomparsa del gradiente diventano difficili o impossibili da addestrare. Le celle Long Short-Term Memory risolvono questo problema.
Confrontalo con il problema del gradiente esplosivo.
importanza delle variabili
Un insieme di punteggi che indica l'importanza relativa di ciascuna caratteristica per il modello.
Ad esempio, considera un albero decisionale che stima i prezzi delle case. Supponiamo che questo albero decisionale utilizzi tre caratteristiche: taglia, età e stile. Se un insieme di importanze delle variabili per le tre caratteristiche viene calcolato come {size=5.8, age=2.5, style=4.7}, la taglia è più importante per l'albero decisionale rispetto all'età o allo stile.
Esistono diverse metriche di importanza delle variabili, che possono fornire agli esperti di ML informazioni su diversi aspetti dei modelli.
autoencoder variazionale (VAE)
Un tipo di autoencoder che sfrutta la discrepanza tra input e output per generare versioni modificate degli input. Gli autoencoder variazionali sono utili per l'AI generativa.
I VAE si basano sull'inferenza variazionale, una tecnica per stimare i parametri di un modello probabilistico.
vettore
Termine molto sovraccarico il cui significato varia a seconda dei diversi campi matematici e scientifici. Nel machine learning, un vettore ha due proprietà:
- Tipo di dati: i vettori nel machine learning in genere contengono numeri in virgola mobile.
- Numero di elementi: la lunghezza del vettore o la sua dimensione.
Ad esempio, considera un vettore delle caratteristiche che contiene otto numeri in virgola mobile. Questo vettore di caratteristiche ha una lunghezza o una dimensione di otto. Tieni presente che i vettori di machine learning hanno spesso un numero elevatissimo di dimensioni.
Puoi rappresentare molti tipi diversi di informazioni come un vettore. Ad esempio:
- Qualsiasi posizione sulla superficie della Terra può essere rappresentata come un vettore bidimensionale, in cui una dimensione è la latitudine e l'altra è la longitudine.
- I prezzi attuali di ciascuna delle 500 azioni possono essere rappresentati come un vettore a 500 dimensioni.
- Una distribuzione di probabilità su un numero finito di classi può essere rappresentata
come un vettore. Ad esempio, un sistema di classificazione multiclasse che prevede uno dei tre colori di output (rosso, verde o giallo) potrebbe restituire il vettore
(0.3, 0.2, 0.5)
per indicareP[red]=0.3, P[green]=0.2, P[yellow]=0.5
.
I vettori possono essere concatenati, pertanto una varietà di contenuti multimediali diversi può essere rappresentata come un unico vettore. Alcuni modelli operano direttamente sulla concatenazione di molte codifiche one-hot.
Processori specializzati come le TPU sono ottimizzati per eseguire operazioni matematiche sui vettori.
Un vettore è un tensore di rango 1.
Vertex
La piattaforma di Google Cloud per l'IA e il machine learning. Vertex fornisce strumenti e infrastrutture per creare, implementare e gestire applicazioni di AI, incluso l'accesso ai modelli Gemini.M
Perdita di Wasserstein
Una delle funzioni di perdita comunemente utilizzate nelle reti generative avversariali, basata sulla distanza di Wasserstein tra la distribuzione dei dati generati e i dati reali.
peso
Un valore che un modello moltiplica per un altro valore. L'addestramento è il processo di determinazione dei pesi ideali di un modello; l'inferenza è il processo di utilizzo di questi pesi appresi per fare previsioni.
Per saperne di più, consulta Regressione lineare in Machine Learning Crash Course.
Weighted Alternating Least Squares (WALS)
Un algoritmo per ridurre al minimo la funzione obiettivo durante la fattorizzazione matriciale nei sistemi di suggerimenti, che consente una riduzione della ponderazione degli esempi mancanti. WALS minimizza l'errore quadratico ponderato tra la matrice originale e la ricostruzione alternando la fattorizzazione delle righe e delle colonne. Ciascuna di queste ottimizzazioni può essere risolta mediante l'ottimizzazione convessa dei minimi quadrati . Per maggiori dettagli, consulta il corso sui sistemi di raccomandazione.
somma ponderata
La somma di tutti i valori di input pertinenti moltiplicati per i pesi corrispondenti. Ad esempio, supponiamo che gli input pertinenti siano i seguenti:
valore di input | peso dell'input |
2 | -1,3 |
-1 | 0,6 |
3 | 0,4 |
La somma ponderata è quindi:
weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0
Una somma ponderata è l'argomento di input di una funzione di attivazione.
modello wide
Un modello lineare che in genere ha molte caratteristiche di input sparse. Lo chiamiamo "ampio" perché questo modello è un tipo speciale di rete neurale con un gran numero di input che si collegano direttamente al nodo di output. I modelli larghi sono spesso più facili da eseguire il debug e da ispezionare rispetto ai modelli profondi. Sebbene i modelli larghi non possano esprimere non linearità tramite livelli nascosti, possono utilizzare trasformazioni come incrocio di funzionalità e raggruppamento per modellare le non linearità in modi diversi.
Contrasta con il modello profondo.
larghezza
Il numero di neuroni in un determinato livello di una rete neurale.
saggezza della folla
L'idea che la media delle opinioni o delle stime di un ampio gruppo di persone ("la folla") spesso produca risultati sorprendentemente buoni. Ad esempio, considera un gioco in cui le persone devono indovinare il numero di caramelle gommose contenute in un grande barattolo. Anche se la maggior parte delle stime individuali sarà imprecisa, la media di tutte le stime si è dimostrata empiramente sorprendentemente vicina al numero effettivo di caramelle nel barattolo.
Gli ensemble sono l'equivalente software della saggezza della folla. Anche se i singoli modelli fanno previsioni molto imprecise, la media delle previsioni di molti modelli spesso genera previsioni sorprendentemente buone. Ad esempio, anche se un albero decisionale individuale potrebbe fare previsioni errate, una foresta decisionale spesso fa previsioni molto accurate.
word embedding
Rappresentazione di ogni parola in un insieme di parole all'interno di un vettore di incorporamento, ovvero rappresentazione di ogni parola come un vettore di valori a rappresentazione in virgola mobile compresi tra 0,0 e 1,0. Le parole con significati simili hanno rappresentazioni più simili rispetto alle parole con significati diversi. Ad esempio, carote, sedano e cetrioli avrebbero rappresentazioni relativamente simili, che sarebbero molto diverse da quelle di aereo, occhiali da sole e dentifricio.
X
XLA (Accelerated Linear Algebra)
Un compilatore di machine learning open source per GPU, CPU e acceleratori ML.
Il compilatore XLA prende i modelli dai framework di ML più diffusi, come PyTorch, TensorFlow e JAX, e li ottimizza per l'esecuzione ad alte prestazioni su diverse piattaforme hardware, tra cui GPU, CPU e acceleratori ML.
Z
apprendimento zero-shot
Un tipo di addestramento di machine learning in cui il modello deduce una previsione per un'attività su cui non è stato già addestrato in modo specifico. In altre parole, al modello non vengono forniti esempi di addestramento specifici per l'attività, ma gli viene chiesto di eseguire l'inferenza per quell'attività.
prompting zero-shot
Un prompt che non fornisce un esempio di come vuoi che risponda il modello linguistico di grandi dimensioni. Ad esempio:
Parti di un prompt | Note |
---|---|
Qual è la valuta ufficiale del paese specificato? | La domanda a cui vuoi che l'LLM risponda. |
India: | La query effettiva. |
Il modello linguistico di grandi dimensioni potrebbe rispondere con uno dei seguenti messaggi:
- Rupia
- INR
- ₹
- Rupia indiana
- La rupia
- Rupia indiana
Tutte le risposte sono corrette, anche se potresti preferire un formato particolare.
Confronta e contrapponi il prompt zero-shot con i seguenti termini:
Normalizzazione del punteggio z
Una tecnica di scalabilità che sostituisce un valore caratteristica grezzo con un valore in virgola mobile che rappresenta il numero di deviazioni standard dalla media di quella caratteristica. Ad esempio, considera una funzionalità la cui media è 800 e la cui deviazione standard è 100. La tabella seguente mostra come la normalizzazione Z-score mapperebbe il valore non elaborato al suo Z-score:
Valore non elaborato | Z-score |
---|---|
800 | 0 |
950 | +1,5 |
575 | -2,25 |
Il modello di machine learning viene quindi addestrato sugli Z-score di questa funzionalità anziché sui valori non elaborati.
Per saperne di più, consulta Dati numerici: normalizzazione in Machine Learning Crash Course.
Questo glossario definisce i termini del machine learning.