Glossario del machine learning

Questo glossario definisce i termini del machine learning.

A

ablazione

Una tecnica per valutare l'importanza di una caratteristica o di un componente rimuovendolo temporaneamente da un modello. A questo punto, riaddestra il modello senza quella funzionalità o componente e, se il modello riaddestrato ha prestazioni significativamente peggiori, la funzionalità o il componente rimossi erano probabilmente importanti.

Ad esempio, supponiamo di addestrare un modello di classificazione su 10 funzionalità e di ottenere una precisione dell'88% sul set di test. Per controllare l'importanza della prima funzionalità, puoi eseguire di nuovo l'addestramento del modello utilizzando solo le altre nove funzionalità. Se il modello riaddestrato ha prestazioni significativamente peggiori (ad esempio, precisione del 55%), la funzionalità rimossa era probabilmente importante. Al contrario, se il modello riaddestrato funziona altrettanto bene, allora la funzionalità probabilmente non era così importante.

L'ablazione può anche contribuire a determinare l'importanza di:

  • Componenti più grandi, ad esempio un intero sottosistema di un sistema ML più grande
  • Processi o tecniche, ad esempio un passaggio di pre-elaborazione dei dati

In entrambi i casi, osserverai come cambia (o non cambia) il rendimento del sistema dopo aver rimosso il componente.

Test A/B

Un modo statistico per confrontare due (o più) tecniche: la A e la B. In genere, A è una tecnica esistente, mentre B è una nuova tecnica. Il test A/B non solo determina quale tecnica ha un rendimento migliore, ma anche se la differenza è statisticamente significativa.

In genere, i test A/B confrontano una singola metrica su due tecniche; ad esempio, come si confronta l'accuratezza del modello per due tecniche? Tuttavia, il test A/B può anche confrontare un numero finito di metriche.

chip dell'acceleratore

#GoogleCloud

Una categoria di componenti hardware specializzati progettati per eseguire i calcoli chiave necessari per gli algoritmi di deep learning.

I chip di accelerazione (o semplicemente acceleratori) possono aumentare notevolmente la velocità e l'efficienza delle attività di addestramento e inferenza rispetto a una CPU generica. Sono ideali per l'addestramento di reti neurali e attività simili ad alta intensità di calcolo.

Ecco alcuni esempi di chip di accelerazione:

  • Tensor Processing Unit (TPU) di Google con hardware dedicato per il deep learning.
  • Le GPU di NVIDIA, sebbene inizialmente progettate per l'elaborazione grafica, sono progettate per consentire l'elaborazione parallela, che può aumentare significativamente la velocità di elaborazione.

accuracy

#fundamentals
#Metric

Il numero di previsioni di classificazione corrette diviso per il numero totale di previsioni. Ossia:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Ad esempio, un modello che ha effettuato 40 previsioni corrette e 10 errate avrebbe un'accuratezza pari a:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

La classificazione binaria fornisce nomi specifici per le diverse categorie di previsioni corrette e previsioni errate. Pertanto, la formula per l'accuratezza della classificazione binaria è la seguente:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

dove:

Confronta e contrapponi l'accuratezza con la precisione e il richiamo.

Per saperne di più, consulta Classificazione: accuratezza, richiamo, precisione e metriche correlate in Machine Learning Crash Course.

azione

#rl

Nel reinforcement learning, il meccanismo con cui l'agente passa da uno stato all'altro dell'ambiente. L'agente sceglie l'azione utilizzando un'norma.

funzione di attivazione

#fundamentals

Una funzione che consente alle reti neurali di apprendere relazioni non lineari (complesse) tra le caratteristiche e l'etichetta.

Le funzioni di attivazione più comuni includono:

I grafici delle funzioni di attivazione non sono mai singole linee rette. Ad esempio, il grafico della funzione di attivazione ReLU è costituito da due linee rette:

Un grafico cartesiano di due linee. La prima linea ha un valore
          y costante pari a 0 e si estende lungo l'asse x da -infinito,0 a 0,-0.
          La seconda riga inizia da 0,0. Questa retta ha una pendenza di +1, quindi
          va da 0,0 a +infinito,+infinito.

Un grafico della funzione di attivazione sigmoidea è il seguente:

Un grafico curvo bidimensionale con valori x che coprono il dominio
          da -infinito a +positivo, mentre i valori y coprono l'intervallo da quasi 0 a
          quasi 1. Quando x è 0, y è 0,5. La pendenza della curva è sempre
          positiva, con la pendenza più alta a 0,0,5 e pendenze che diminuiscono gradualmente
          all'aumentare del valore assoluto di x.

Per saperne di più, consulta Reti neurali: funzioni di attivazione in Machine Learning Crash Course.

apprendimento attivo

Un approccio di addestramento in cui l'algoritmo sceglie alcuni dei dati da cui apprende. L'apprendimento attivo è particolarmente utile quando gli esempi etichettati sono scarsi o costosi da ottenere. Invece di cercare ciecamente una gamma diversificata di esempi etichettati, un algoritmo di apprendimento attivo cerca selettivamente la gamma particolare di esempi di cui ha bisogno per l'apprendimento.

AdaGrad

Un sofisticato algoritmo di discesa del gradiente che ridimensiona i gradienti di ogni parametro, assegnando di fatto a ogni parametro un tasso di apprendimento indipendente. Per una spiegazione completa, vedi Adaptive Subgradient Methods for Online Learning and Stochastic Optimization.

adattamento

#language
#image
#generativeAI

Sinonimo di ottimizzazione o ottimizzazione avanzata.

agente

#rl

Software in grado di ragionare sugli input multimodali dell'utente per pianificare ed eseguire azioni per suo conto.

Nel reinforcement learning, un agente è l'entità che utilizza una policy per massimizzare il rendimento previsto ottenuto dal passaggio tra gli stati dell'ambiente.

clustering agglomerativo

#clustering

Vedi clustering gerarchico.

rilevamento di anomalie

Il processo di identificazione degli outlier. Ad esempio, se la media per una determinata caratteristica è 100 con una deviazione standard di 10, il rilevamento di anomalie dovrebbe segnalare un valore di 200 come sospetto.

AR

Abbreviazione di realtà aumentata.

area sotto la curva PR

#Metric

Vedi AUC PR (area sotto la curva PR).

area sotto la curva ROC

#Metric

Consulta la sezione AUC (Area sotto la curva ROC).

intelligenza artificiale generale

Un meccanismo non umano che dimostra un'ampia gamma di capacità di risoluzione dei problemi, creatività e adattabilità. Ad esempio, un programma che dimostra un'intelligenza artificiale generale potrebbe tradurre testi, comporre sinfonie e eccellere in giochi che non sono ancora stati inventati.

intelligenza artificiale

#fundamentals

Un programma o un modello non umano in grado di risolvere attività sofisticate. Ad esempio, un programma o un modello che traduce il testo o un programma o un modello che identifica le malattie dalle immagini radiologiche mostrano entrambi intelligenza artificiale.

Formalmente, il machine learning è un sottocampo dell'intelligenza artificiale. Tuttavia, negli ultimi anni, alcune organizzazioni hanno iniziato a utilizzare i termini intelligenza artificiale e machine learning in modo intercambiabile.

Attention,

#language

Un meccanismo utilizzato in una rete neurale che indica l'importanza di una determinata parola o parte di una parola. L'attenzione comprime la quantità di informazioni di cui un modello ha bisogno per prevedere il token/la parola successivi. Un tipico meccanismo di attenzione potrebbe consistere in una somma ponderata su un insieme di input, in cui il peso per ogni input viene calcolato da un'altra parte della rete neurale.

Fai riferimento anche a auto-attenzione e auto-attenzione multi-head, che sono i componenti di base dei Transformer.

Per saperne di più sull'auto-attenzione, consulta LLM: che cos'è un modello linguistico di grandi dimensioni? in Machine Learning Crash Course.

attributo

#responsible

Sinonimo di funzionalità.

Nell'equità del machine learning, gli attributi si riferiscono spesso a caratteristiche relative agli individui.

campionamento degli attributi

#df

Una tattica per l'addestramento di una foresta decisionale in cui ogni albero decisionale considera solo un sottoinsieme casuale di possibili caratteristiche durante l'apprendimento della condizione. In genere, per ogni nodo viene campionato un sottoinsieme diverso di funzionalità. Al contrario, quando si addestra un albero decisionale senza campionamento degli attributi, vengono prese in considerazione tutte le funzionalità possibili per ogni nodo.

AUC (area sotto la curva ROC)

#fundamentals
#Metric

Un numero compreso tra 0,0 e 1,0 che rappresenta la capacità di un modello di classificazione binaria di separare le classi positive dalle classi negative. Più l'AUC è vicino a 1,0, migliore è la capacità del modello di separare le classi tra loro.

Ad esempio, la seguente illustrazione mostra un modello di classificazione che separa perfettamente le classi positive (ovali verdi) da quelle negative (rettangoli viola). Questo modello perfetto in modo non realistico ha un'AUC pari a 1,0:

Una retta numerica con 8 esempi positivi da un lato e
          9 esempi negativi dall'altro.

Al contrario, la seguente illustrazione mostra i risultati per un modello di classificazione che ha generato risultati casuali. Questo modello ha un AUC di 0,5:

Una retta numerica con 6 esempi positivi e 6 esempi negativi.
          La sequenza di esempi è positiva, negativa,
          positiva, negativa, positiva, negativa, positiva, negativa, positiva
          negativa, positiva, negativa.

Sì, il modello precedente ha un'AUC di 0,5, non di 0.

La maggior parte dei modelli si trova a metà strada tra i due estremi. Ad esempio, il seguente modello separa in qualche modo i positivi dai negativi e pertanto ha un'AUC compresa tra 0,5 e 1,0:

Una retta numerica con 6 esempi positivi e 6 esempi negativi.
          La sequenza di esempi è negativo, negativo, negativo, negativo,
          positivo, negativo, positivo, positivo, negativo, positivo, positivo,
          positivo.

L'AUC ignora qualsiasi valore impostato per la soglia di classificazione. L'AUC, invece, prende in considerazione tutte le possibili soglie di classificazione.

Per saperne di più, consulta Classificazione: ROC e AUC in Machine Learning Crash Course.

realtà aumentata

#image

Una tecnologia che sovrappone un'immagine generata al computer alla visualizzazione del mondo reale di un utente, fornendo così una visualizzazione composita.

autoencoder

#language
#image

Un sistema che impara a estrarre le informazioni più importanti dall'input. Gli autoencoder sono una combinazione di un encoder e di un decoder. Gli autoencoder si basano sul seguente processo in due passaggi:

  1. L'encoder mappa l'input in un formato (intermedio) a dimensioni inferiori (in genere) con perdita.
  2. Il decodificatore crea una versione con perdita dell'input originale mappando il formato a dimensionalità inferiore al formato di input originale a dimensionalità superiore.

Gli autoencoder vengono addestrati end-to-end facendo in modo che il decodificatore tenti di ricostruire l'input originale dal formato intermedio dell'encoder nel modo più fedele possibile. Poiché il formato intermedio è più piccolo (con meno dimensioni) rispetto al formato originale, l'autoencoder è costretto a imparare quali informazioni nell'input sono essenziali e l'output non sarà perfettamente identico all'input.

Ad esempio:

  • Se i dati di input sono un grafico, la copia non esatta sarà simile al grafico originale, ma leggermente modificata. Forse la copia non esatta rimuove il rumore dal grafico originale o riempie alcuni pixel mancanti.
  • Se i dati di input sono di tipo testuale, un autoencoder genererà un nuovo testo che imita (ma non è identico a) il testo originale.

Vedi anche autoencoder variazionali.

valutazione automatica

#language
#generativeAI

Utilizzo di software per valutare la qualità dell'output di un modello.

Quando l'output del modello è relativamente semplice, uno script o un programma può confrontare l'output del modello con una risposta di riferimento. Questo tipo di valutazione automatica è talvolta chiamato valutazione programmatica. Metriche come ROUGE o BLEU sono spesso utili per la valutazione programmatica.

Quando l'output del modello è complesso o non ha una risposta corretta, a volte la valutazione automatica viene eseguita da un programma ML separato chiamato valutatore automatico.

Contrasto con la valutazione umana.

bias di automazione

#responsible

Quando un decisore umano favorisce i consigli forniti da un sistema decisionale automatizzato rispetto alle informazioni fornite senza automazione, anche quando il sistema decisionale automatizzato commette errori.

Per saperne di più, consulta Equità: tipi di bias in Machine Learning Crash Course.

AutoML

Qualsiasi processo automatizzato per la creazione di modelli di machine learning. AutoML può svolgere automaticamente attività come le seguenti:

  • Cerca il modello più appropriato.
  • Ottimizza gli iperparametri.
  • Prepara i dati (inclusa l'esecuzione del feature engineering).
  • Esegui il deployment del modello risultante.

AutoML è utile per i data scientist perché può far risparmiare tempo e impegno nello sviluppo di pipeline di machine learning e migliorare la precisione delle previsioni. È utile anche ai non esperti, in quanto rende più accessibili le complicate attività di machine learning.

Per saperne di più, consulta Machine Learning automatizzato (AutoML) in Machine Learning Crash Course.

autorater evaluation

#language
#generativeAI
Un meccanismo ibrido per giudicare la qualità dell'output di un modello di AI generativa che combina la valutazione umana con la valutazione automatica. Un autorater è un modello ML addestrato su dati creati tramite valutazione umana. Idealmente, uno strumento di valutazione automatica impara a imitare un valutatore umano.

Sono disponibili valutatori automatici predefiniti, ma i migliori sono ottimizzati in modo specifico per l'attività che stai valutando.

modello autoregressivo

#language
#image
#generativeAI

Un modello che deduce una previsione in base alle proprie previsioni precedenti. Ad esempio, i modelli linguistici autoregressivi prevedono il successivo token in base ai token previsti in precedenza. Tutti i modelli linguistici di grandi dimensioni basati su Transformer sono autoregressivi.

Al contrario, i modelli di immagini basati su GAN di solito non sono autoregressivi, in quanto generano un'immagine in un singolo passaggio in avanti e non in modo iterativo in passaggi. Tuttavia, alcuni modelli di generazione delle immagini sono autoregressivi perché generano un'immagine in più passaggi.

perdita ausiliaria

Una funzione di perdita, utilizzata insieme a una rete neurale modello principale funzione di perdita, che contribuisce ad accelerare l'addestramento durante le prime iterazioni, quando i pesi vengono inizializzati in modo casuale.

Le funzioni di perdita ausiliari inviano gradienti efficaci ai livelli precedenti. Ciò facilita la convergenza durante l'addestramento contrastando il problema di scomparsa del gradiente.

precisione media a k

#language
#Metric

Una metrica per riassumere il rendimento di un modello su un singolo prompt che genera risultati classificati, ad esempio un elenco numerato di consigli di libri. La precisione media a k è la media dei valori di precisione a k per ogni risultato pertinente. La formula per la precisione media a k è quindi:

\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]

dove:

  • \(n\) è il numero di elementi pertinenti nell'elenco.

Contrasto con il richiamo a k.

condizione allineata all'asse

#df

In un albero decisionale, una condizione che coinvolge una sola caratteristica. Ad esempio, se area è una funzionalità, la seguente è una condizione allineata all'asse:

area > 200

Contrasto con la condizione obliqua.

B

backpropagation

#fundamentals

L'algoritmo che implementa la discesa del gradiente nelle reti neurali.

L'addestramento di una rete neurale prevede molte iterazioni del seguente ciclo a due passaggi:

  1. Durante la propagazione in avanti, il sistema elabora un batch di esempi per generare una o più previsioni. Il sistema confronta ogni previsione con ogni valore dell'etichetta. La differenza tra la previsione e il valore dell'etichetta è la perdita per quell'esempio. Il sistema aggrega le perdite per tutti gli esempi per calcolare la perdita totale per il batch corrente.
  2. Durante il passaggio all'indietro (retropropagazione), il sistema riduce la perdita modificando i pesi di tutti i neuroni in tutti gli strati nascosti.

Le reti neurali spesso contengono molti neuroni in molti strati nascosti. Ciascuno di questi neuroni contribuisce alla perdita complessiva in modi diversi. La retropropagazione determina se aumentare o diminuire i pesi applicati a particolari neuroni.

Il tasso di apprendimento è un moltiplicatore che controlla il grado in cui ogni passaggio all'indietro aumenta o diminuisce ogni peso. Un tasso di apprendimento elevato aumenterà o diminuirà ogni peso più di un tasso di apprendimento basso.

In termini di calcolo, la retropropagazione implementa la regola della catena del calcolo. ovvero la retropropagazione calcola la derivata parziale dell'errore rispetto a ogni parametro.

Anni fa, i professionisti del machine learning dovevano scrivere codice per implementare la retropropagazione. Le moderne API ML come Keras ora implementano la backpropagation per te. Finalmente.

Per saperne di più, consulta la sezione Reti neurali di Machine Learning Crash Course.

bagging

#df

Un metodo per addestrare un ensemble in cui ogni modello costituente viene addestrato su un sottoinsieme casuale di esempi di addestramento campionati con reinserimento. Ad esempio, una foresta casuale è un insieme di alberi decisionali addestrati con il bagging.

Il termine bagging è l'abbreviazione di bootstrap aggregating.

Per ulteriori informazioni, consulta la sezione Foreste casuali del corso Decision Forests.

bag of words

#language

Una rappresentazione delle parole in una frase o in un passaggio, indipendentemente dall'ordine. Ad esempio, il modello bag of words rappresenta le tre frasi seguenti in modo identico:

  • il cane salta
  • salta il cane
  • dog jumps the

Ogni parola viene mappata a un indice in un vettore sparso, dove il vettore ha un indice per ogni parola del vocabolario. Ad esempio, la frase the dog jumps viene mappata in un vettore delle caratteristiche con valori diversi da zero nei tre indici corrispondenti alle parole the, dog e jumps. Il valore diverso da zero può essere uno dei seguenti:

  • 1 per indicare la presenza di una parola.
  • Un conteggio del numero di volte in cui una parola compare nel sacchetto. Ad esempio, se la frase fosse the maroon dog is a dog with maroon fur, sia maroon che dog sarebbero rappresentati come 2, mentre le altre parole sarebbero rappresentate come 1.
  • Un altro valore, ad esempio il logaritmo del conteggio del numero di volte in cui una parola appare nel bag.

base di riferimento

#Metric

Un modello utilizzato come punto di riferimento per confrontare le prestazioni di un altro modello (in genere, uno più complesso). Ad esempio, un modello di regressione logistica potrebbe fungere da buona base di riferimento per un modello profondo.

Per un problema specifico, la baseline aiuta gli sviluppatori di modelli a quantificare il rendimento minimo previsto che un nuovo modello deve raggiungere per essere utile.

modello base

#language
#generativeAI

Un modello preaddestrato che può fungere da punto di partenza per l'ottimizzazione per svolgere attività o applicazioni specifiche.

Vedi anche modello preaddestrato e modello di base.

batch

#fundamentals

L'insieme di esempi utilizzati in un'iterazione di addestramento . La dimensione del batch determina il numero di esempi in un batch.

Consulta la sezione Epoca per una spiegazione della relazione tra un batch e un'epoca.

Per saperne di più, consulta Regressione lineare: iperparametri in Machine Learning Crash Course.

inferenza batch

#GoogleCloud

Il processo di inferenza delle previsioni su più esempi senza etichetta suddivisi in sottoinsiemi più piccoli ("batch").

L'inferenza batch può sfruttare le funzionalità di parallelizzazione dei chip di accelerazione. ovvero più acceleratori possono dedurre simultaneamente le previsioni su batch diversi di esempi senza etichetta, aumentando notevolmente il numero di inferenze al secondo.

Per saperne di più, consulta Sistemi ML di produzione: inferenza statica e dinamica in Machine Learning Crash Course.

normalizzazione batch

Normalizzazione dell'input o dell'output delle funzioni di attivazione in un livello nascosto. La normalizzazione dei batch può offrire i seguenti vantaggi:

dimensione del batch

#fundamentals

Il numero di esempi in un batch. Ad esempio, se la dimensione del batch è 100, il modello elabora 100 esempi per iterazione.

Di seguito sono riportate le strategie più comuni per le dimensioni del batch:

  • Discesa stocastica del gradiente (SGD), in cui la dimensione del batch è 1.
  • Batch completo, in cui la dimensione del batch è il numero di esempi nell'intero set di addestramento. Ad esempio, se il set di addestramento contiene un milione di esempi, la dimensione del batch sarà di un milione di esempi. Il caricamento completo del batch è in genere una strategia inefficiente.
  • Mini-batch in cui la dimensione del batch è generalmente compresa tra 10 e 1000. Il mini-batch è in genere la strategia più efficiente.

Per ulteriori informazioni, consulta le seguenti risorse:

Rete neurale bayesiana

Una rete neurale probabilistica che tiene conto dell'incertezza nei pesi e negli output. Un modello di regressione di rete neurale standard in genere prevede un valore scalare; ad esempio, un modello standard prevede un prezzo della casa di 853.000. Al contrario, una rete neurale bayesiana prevede una distribuzione di valori; ad esempio, un modello bayesiano prevede un prezzo della casa di 853.000 con una deviazione standard di 67.200.

Una rete neurale bayesiana si basa sul teorema di Bayes per calcolare le incertezze relative a ponderazioni e previsioni. Una rete neurale bayesiana può essere utile quando è importante quantificare l'incertezza, ad esempio nei modelli correlati ai prodotti farmaceutici. Le reti neurali bayesiane possono anche contribuire a prevenire l'overfitting.

Ottimizzazione bayesiana

Una tecnica di modello di regressione probabilistica per ottimizzare le funzioni obiettivo computazionalmente costose ottimizzando invece un surrogato che quantifica l'incertezza utilizzando una tecnica di apprendimento bayesiano. Poiché l'ottimizzazione bayesiana è di per sé molto costosa, viene solitamente utilizzata per ottimizzare attività costose da valutare che hanno un numero ridotto di parametri, ad esempio la selezione degli iperparametri.

Equazione di Bellman

#rl

Nell'apprendimento per rinforzo, la seguente identità soddisfatta dalla funzione Q ottimale:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Gli algoritmi di apprendimento per rinforzo applicano questa identità per creare l'apprendimento Q utilizzando la seguente regola di aggiornamento:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

Oltre al reinforcement learning, l'equazione di Bellman ha applicazioni nella programmazione dinamica. Consulta la voce di Wikipedia relativa all'equazione di Bellman.

BERT (Bidirectional Encoder Representations from Transformers)

#language

Un'architettura del modello per la rappresentazione del testo. Un modello BERT addestrato può far parte di un modello più grande per la classificazione del testo o altre attività di ML.

BERT ha le seguenti caratteristiche:

Le varianti di BERT includono:

Consulta la pagina Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing per una panoramica di BERT.

bias (etica/equità)

#responsible
#fundamentals

1. Stereotipare, mostrare preconcetti o favoritismi verso determinate cose, persone o gruppi rispetto ad altri. Questi bias possono influire sulla raccolta e sull'interpretazione dei dati, sulla progettazione di un sistema e sul modo in cui gli utenti interagiscono con un sistema. Le forme di questo tipo di bias includono:

2. Errore sistematico introdotto da una procedura di campionamento o reporting. Le forme di questo tipo di bias includono:

Da non confondere con il termine di bias nei modelli di machine learning o con il bias di previsione.

Per saperne di più, consulta Equità: tipi di bias in Machine Learning Crash Course.

bias (matematica) o termine di bias

#fundamentals

Un'intercettazione o un offset da un'origine. Il bias è un parametro nei modelli di machine learning, che è simboleggiato da uno dei seguenti:

  • b
  • w0

Ad esempio, il bias è il b nella seguente formula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

In una semplice retta bidimensionale, il bias indica semplicemente l'intercetta sull'asse y. Ad esempio, la pendenza della retta nell'illustrazione seguente è 2.

Il grafico di una retta con pendenza 0,5 e bias (intercetta sull'asse y) pari a 2.

Il bias esiste perché non tutti i modelli iniziano dall'origine (0,0). Ad esempio, supponiamo che l'ingresso in un parco divertimenti costi 2 euro e che vengano addebitati 0,50 euro per ogni ora di permanenza di un cliente. Pertanto, un modello che mappa il costo totale ha una distorsione di 2 perché il costo più basso è di 2 euro.

Il bias non deve essere confuso con il bias in etica ed equità o con il bias di previsione.

Per saperne di più, consulta Regressione lineare in Machine Learning Crash Course.

bidirezionale

#language

Termine utilizzato per descrivere un sistema che valuta il testo che precede e segue una sezione di testo di destinazione. Al contrario, un sistema unidirezionale valuta solo il testo che precede una sezione di testo di destinazione.

Ad esempio, considera un modello linguistico mascherato che deve determinare le probabilità per la parola o le parole che rappresentano la sottolineatura nella seguente domanda:

Qual è il tuo _____?

Un modello linguistico unidirezionale dovrebbe basare le sue probabilità solo sul contesto fornito dalle parole "Che", "cosa" e "è". Al contrario, un modello linguistico bidirezionale potrebbe acquisire contesto anche da "con" e "te", il che potrebbe aiutarlo a generare previsioni migliori.

modello linguistico bidirezionale

#language

Un modello linguistico che determina la probabilità che un determinato token sia presente in una determinata posizione in un estratto di testo in base al testo precedente e successivo.

bigram

#seq
#language

Un bigramma in cui N=2.

classificazione binaria

#fundamentals

Un tipo di attività di classificazione che prevede una delle due classi reciprocamente esclusive:

Ad esempio, i seguenti due modelli di machine learning eseguono ciascuno la classificazione binaria:

  • Un modello che determina se i messaggi email sono spam (la classe positiva) o non spam (la classe negativa).
  • Un modello che valuta i sintomi medici per determinare se una persona ha una determinata malattia (la classe positiva) o non ha quella malattia (la classe negativa).

Contrasta con la classificazione multiclasse.

Vedi anche regressione logistica e soglia di classificazione.

Per saperne di più, consulta la sezione Classificazione del corso intensivo di machine learning.

condizione binaria

#df

In un albero decisionale, una condizione che ha solo due possibili risultati, in genere o no. Ad esempio, la seguente è una condizione binaria:

temperature >= 100

Contrasto con la condizione non binaria.

Per ulteriori informazioni, consulta la sezione Tipi di condizioni del corso Decision Forests.

binning

Sinonimo di raggruppamento.

BLEU (Bilingual Evaluation Understudy)

#language

Una metrica compresa tra 0,0 e 1,0 per valutare le traduzioni automatiche, ad esempio dallo spagnolo al giapponese.

Per calcolare un punteggio, BLEU in genere confronta la traduzione di un modello ML (testo generato) con la traduzione di un esperto umano (testo di riferimento). Il grado di corrispondenza tra gli n-grammi nel testo generato e nel testo di riferimento determina il punteggio BLEU.

Il documento originale su questa metrica è BLEU: a Method for Automatic Evaluation of Machine Translation.

Vedi anche BLEURT.

BLEURT (Bilingual Evaluation Understudy from Transformers)

#language

Una metrica per valutare le traduzioni automatiche da una lingua all'altra, in particolare da e verso l'inglese.

Per le traduzioni da e verso l'inglese, BLEURT è più in linea con le valutazioni umane rispetto a BLEU. A differenza di BLEU, BLEURT enfatizza le somiglianze semantiche (di significato) e può adattarsi alla parafrasi.

BLEURT si basa su un modello linguistico di grandi dimensioni preaddestrato (BERT per l'esattezza) che viene poi ottimizzato su testi di traduttori umani.

Il documento originale su questa metrica è BLEURT: Learning Robust Metrics for Text Generation.

aumentare

Una tecnica di machine learning che combina in modo iterativo un insieme di classificatori semplici e non molto accurati (definiti classificatori "deboli") in un classificatore con elevata precisione (un classificatore "forte") aumentando il peso degli esempi che il modello sta attualmente classificando in modo errato.

Per ulteriori informazioni, consulta la sezione Gradient Boosted Decision Trees? del corso Decision Forests.

riquadro di delimitazione

#image

In un'immagine, le coordinate (x, y) di un rettangolo attorno a un'area di interesse, ad esempio il cane nell'immagine seguente.

Fotografia di un cane seduto su un divano. Un riquadro di selezione verde
          con coordinate in alto a sinistra (275, 1271) e in basso a destra (2954, 2761) circoscrive il corpo del cane

trasmissione

Espandere la forma di un operando in un'operazione matematica con matrici a dimensioni compatibili per l'operazione. Ad esempio, l'algebra lineare richiede che i due operandi in un'operazione di addizione matriciale abbiano le stesse dimensioni. Di conseguenza, non puoi aggiungere una matrice di forma (m, n) a un vettore di lunghezza n. La trasmissione consente questa operazione espandendo virtualmente il vettore di lunghezza n in una matrice di forma (m, n) replicando gli stessi valori in ogni colonna.

Per ulteriori dettagli, consulta la seguente descrizione della trasmissione in NumPy.

il bucketing

#fundamentals

Conversione di una singola caratteristica in più caratteristiche binarie chiamate bucket o bin, in genere in base a un intervallo di valori. La caratteristica troncata è in genere una caratteristica continua.

Ad esempio, anziché rappresentare la temperatura come una singola caratteristica continua in virgola mobile, potresti dividere gli intervalli di temperature in bucket discreti, ad esempio:

  • <= 10 gradi Celsius corrisponde al bucket "freddo".
  • 11-24 gradi Celsius rientrano nella categoria "temperato".
  • >= 25 gradi Celsius sarebbe il bucket "caldo".

Il modello tratterà ogni valore nello stesso bucket in modo identico. Ad esempio, i valori 13 e 22 si trovano entrambi nel bucket temperato, quindi il modello tratta i due valori in modo identico.

Per saperne di più, consulta Dati numerici: binning in Machine Learning Crash Course.

C

livello di calibrazione

Un aggiustamento post-previsione, in genere per tenere conto del bias di previsione. Le previsioni e le probabilità aggiustate devono corrispondere alla distribuzione di un insieme di etichette osservate.

generazione di candidati

#recsystems

Il set iniziale di consigli scelti da un sistema di consigli. Ad esempio, considera una libreria che offre 100.000 titoli. La fase di generazione dei candidati crea un elenco molto più piccolo di libri adatti a un determinato utente, ad esempio 500. Ma anche 500 libri sono troppi da consigliare a un utente. Le fasi successive e più costose di un sistema di consigli (come l'assegnazione del punteggio e il riposizionamento) riducono questi 500 a un insieme molto più piccolo e utile di consigli.

Per ulteriori informazioni, consulta la panoramica della generazione di candidati nel corso sui sistemi di raccomandazione.

campionamento dei candidati

Un'ottimizzazione in fase di addestramento che calcola una probabilità per tutte le etichette positive, utilizzando, ad esempio, softmax, ma solo per un campione casuale di etichette negative. Ad esempio, dato un esempio etichettato beagle e dog, il campionamento dei candidati calcola le probabilità previste e i termini di perdita corrispondenti per:

  • beagle
  • cane
  • un sottoinsieme casuale delle classi negative rimanenti (ad esempio, gatto, lecca-lecca, recinzione).

L'idea è che le classi negative possono imparare da un rinforzo negativo meno frequente, a condizione che le classi positive ricevano sempre un rinforzo positivo adeguato, e questo è effettivamente osservato empiricamente.

Il campionamento dei candidati è più efficiente dal punto di vista computazionale rispetto agli algoritmi di addestramento che calcolano le previsioni per tutte le classi negative, in particolare quando il numero di classi negative è molto elevato.

dati categorici

#fundamentals

Caratteristiche con un insieme specifico di valori possibili. Ad esempio, considera una funzionalità categorica denominata traffic-light-state, che può avere solo uno dei seguenti tre valori possibili:

  • red
  • yellow
  • green

Rappresentando traffic-light-state come una caratteristica categorica, un modello può apprendere i diversi impatti di red, green e yellow sul comportamento del conducente.

Le caratteristiche categoriche sono a volte chiamate caratteristiche discrete.

Contrasto con i dati numerici.

Per saperne di più, consulta la sezione Lavorare con dati categorici di Machine Learning Crash Course.

modello linguistico causale

#language

Sinonimo di modello linguistico unidirezionale.

Consulta la sezione Modello linguistico bidirezionale per confrontare i diversi approcci direzionali nella modellazione linguistica.

centroide

#clustering

Il centro di un cluster determinato da un algoritmo k-means o k-mediana. Ad esempio, se k è 3, l'algoritmo k-means o k-medie trova 3 centroidi.

Per saperne di più, consulta la sezione Algoritmi di clustering del corso Clustering.

clustering basato sui centroidi

#clustering

Una categoria di algoritmi di clustering che organizzano i dati in cluster non gerarchici. k-means è l'algoritmo di clustering basato sui centroidi più utilizzato.

Contrasto con gli algoritmi di clustering gerarchico.

Per saperne di più, consulta la sezione Algoritmi di clustering del corso Clustering.

chain-of-thought prompting

#language
#generativeAI

Una tecnica di prompt engineering che incoraggia un modello linguistico di grandi dimensioni (LLM) a spiegare il suo ragionamento, passo dopo passo. Ad esempio, considera il seguente prompt, prestando particolare attenzione alla seconda frase:

Quante forze G sperimenterebbe un conducente in un'auto che passa da 0 a 96 km/h in 7 secondi? Nella risposta, mostra tutti i calcoli pertinenti.

La risposta del LLM probabilmente:

  • Mostra una sequenza di formule di fisica, inserendo i valori 0, 60 e 7 nei punti appropriati.
  • Spiega perché ha scelto queste formule e cosa significano le varie variabili.

La Chain-of-Thought Prompting costringe l'LLM a eseguire tutti i calcoli, il che potrebbe portare a una risposta più corretta. Inoltre, il prompting chain-of-thought consente all'utente di esaminare i passaggi del LLM per determinare se la risposta è sensata o meno.

chat

#language
#generativeAI

I contenuti di un dialogo bot e utente con un sistema ML, in genere un modello linguistico di grandi dimensioni. L'interazione precedente in una chat (ciò che hai digitato e come ha risposto il modello linguistico di grandi dimensioni) diventa il contesto per le parti successive della chat.

Un chatbot è un'applicazione di un modello linguistico di grandi dimensioni.

posto di blocco

Dati che acquisiscono lo stato dei parametri di un modello durante l'addestramento o al termine dell'addestramento. Ad esempio, durante l'addestramento, puoi:

  1. Interrompere l'addestramento, intenzionalmente o a causa di determinati errori.
  2. Acquisisci il checkpoint.
  3. In un secondo momento, ricarica il checkpoint, possibilmente su un hardware diverso.
  4. Riavvia l'addestramento.

classe

#fundamentals

Una categoria a cui può appartenere un'etichetta. Ad esempio:

  • In un modello di classificazione binaria che rileva lo spam, le due classi potrebbero essere spam e non spam.
  • In un modello di classificazione multi-classe che identifica le razze di cani, le classi potrebbero essere barboncino, beagle, carlino e così via.

Un modello di classificazione prevede una classe. Al contrario, un modello di regressione prevede un numero anziché una classe.

Per saperne di più, consulta la sezione Classificazione del corso intensivo di machine learning.

modello di classificazione

#fundamentals

Un modello la cui previsione è una classe. Ad esempio, i seguenti sono tutti modelli di classificazione:

  • Un modello che prevede la lingua di una frase di input (francese? Spagnolo? ?).
  • Un modello che prevede le specie di alberi (acero? Quercia? Baobab?).
  • Un modello che prevede la classe positiva o negativa per una particolare condizione medica.

Al contrario, i modelli di regressione prevedono numeri anziché classi.

Due tipi comuni di modelli di classificazione sono:

soglia di classificazione

#fundamentals

In una classificazione binaria, un numero compreso tra 0 e 1 che converte l'output non elaborato di un modello di regressione logistica in una previsione della classe positiva o della classe negativa. Tieni presente che la soglia di classificazione è un valore scelto da un essere umano, non un valore scelto dall'addestramento del modello.

Un modello di regressione logistica restituisce un valore grezzo compreso tra 0 e 1. Quindi:

  • Se questo valore grezzo è maggiore della soglia di classificazione, viene prevista la classe positiva.
  • Se questo valore grezzo è inferiore alla soglia di classificazione, viene prevista la classe negativa.

Ad esempio, supponiamo che la soglia di classificazione sia 0,8. Se il valore non elaborato è 0,9, il modello prevede la classe positiva. Se il valore non elaborato è 0,7, il modello prevede la classe negativa.

La scelta della soglia di classificazione influisce notevolmente sul numero di falsi positivi e falsi negativi.

Per saperne di più, consulta Soglie e matrice di confusione in Machine Learning Crash Course.

classificatore

#fundamentals

Un termine informale per un modello di classificazione.

set di dati sbilanciato per classe

#fundamentals

Un set di dati per un problema di classificazione in cui il numero totale di etichette di ogni classe è molto diverso. Ad esempio, considera un set di dati di classificazione binaria le cui due etichette sono suddivise come segue:

  • 1.000.000 di etichette negative
  • 10 etichette positive

Il rapporto tra etichette negative e positive è di 100.000 a 1, quindi si tratta di un set di dati con classi sbilanciate.

Al contrario, il seguente set di dati non è sbilanciato in termini di classi perché il rapporto tra etichette negative ed etichette positive è relativamente vicino a 1:

  • 517 etichette negative
  • 483 etichette positive

I set di dati multiclasse possono anche essere sbilanciati. Ad esempio, il seguente set di dati di classificazione multiclasse è anche sbilanciato perché un'etichetta ha molti più esempi rispetto alle altre due:

  • 1.000.000 di etichette con la classe "verde"
  • 200 etichette con la classe "viola"
  • 350 etichette con la classe "arancione"

Vedi anche entropia, classe maggioritaria e classe minoritaria.

clipping

#fundamentals

Una tecnica per gestire gli outlier eseguendo una o entrambe le seguenti operazioni:

  • Riduzione dei valori della funzionalità superiori a una soglia massima fino a tale soglia.
  • Aumentando i valori delle funzionalità inferiori a una soglia minima fino a quella soglia minima.

Ad esempio, supponiamo che meno dello 0,5% dei valori di una determinata caratteristica rientri al di fuori dell'intervallo 40-60. In questo caso, puoi procedere nel seguente modo:

  • Tutti i valori superiori a 60 (la soglia massima) vengono impostati esattamente su 60.
  • Tronca tutti i valori inferiori a 40 (la soglia minima) in modo che siano esattamente 40.

Gli outlier possono danneggiare i modelli, a volte causando l'overflow dei pesi�� durante l'addestramento. Alcuni valori anomali possono anche rovinare drasticamente metriche come l'accuratezza. Il clipping è una tecnica comune per limitare i danni.

Il taglio del gradiente forza i valori del gradiente all'interno di un intervallo designato durante l'addestramento.

Per saperne di più, consulta Dati numerici: normalizzazione in Machine Learning Crash Course.

Cloud TPU

#TensorFlow
#GoogleCloud

Un acceleratore hardware specializzato progettato per velocizzare i carichi di lavoro di machine learning su Google Cloud.

clustering

#clustering

Raggruppare esempi correlati, in particolare durante l'apprendimento non supervisionato. Una volta raggruppati tutti gli esempi, una persona può facoltativamente fornire un significato a ogni cluster.

Esistono molti algoritmi di clustering. Ad esempio, l'algoritmo k-means raggruppa gli esempi in base alla loro vicinanza a un centroide, come nel seguente diagramma:

Un grafico bidimensionale in cui l&#39;asse x è etichettato come larghezza dell&#39;albero e l&#39;asse y come altezza dell&#39;albero. Il grafico contiene due
          centroidi e diverse decine di punti dati. I punti dati vengono
          classificati in base alla loro vicinanza. ovvero i punti dati
          più vicini a un centroide vengono classificati come cluster 1, mentre quelli
          più vicini all&#39;altro centroide vengono classificati come cluster 2.

Un ricercatore umano potrebbe quindi esaminare i cluster e, ad esempio, etichettare il cluster 1 come "alberi nani" e il cluster 2 come "alberi di dimensioni normali".

Come altro esempio, considera un algoritmo di clustering basato sulla distanza di un esempio da un punto centrale, illustrato come segue:

Decine di punti dati sono disposti in cerchi concentrici, quasi
          come fori intorno al centro di un bersaglio. L&#39;anello più interno
          di punti dati è classificato come cluster 1, l&#39;anello centrale
          come cluster 2 e l&#39;anello più esterno come
          cluster 3.

Per saperne di più, consulta il corso sul clustering.

co-adattamento

Un comportamento indesiderato in cui i neuroni prevedono pattern nei dati di addestramento basandosi quasi esclusivamente sugli output di altri neuroni specifici anziché sul comportamento della rete nel suo complesso. Quando i pattern che causano la co-adattamento non sono presenti nei dati di convalida, la co-adattamento causa un overfitting. La regolarizzazione dropout riduce la co-adattamento perché il dropout garantisce che i neuroni non possano fare affidamento esclusivamente su altri neuroni specifici.

filtro collaborativo

#recsystems

Fare previsioni sugli interessi di un utente in base agli interessi di molti altri utenti. Il filtraggio collaborativo viene spesso utilizzato nei sistemi di suggerimenti.

Per saperne di più, consulta la sezione Filtro collaborativo del corso Recommendation Systems.

modello compatto

Qualsiasi modello di piccole dimensioni progettato per essere eseguito su dispositivi di piccole dimensioni con risorse di calcolo limitate. Ad esempio, i modelli compatti possono essere eseguiti su cellulari, tablet o sistemi incorporati.

computing

(Sostantivo) Le risorse di calcolo utilizzate da un modello o un sistema, ad esempio potenza di elaborazione, memoria e spazio di archiviazione.

Vedi chip di accelerazione.

deriva del concetto

Un cambiamento nella relazione tra le caratteristiche e l'etichetta. Nel tempo, il concept drift riduce la qualità di un modello.

Durante l'addestramento, il modello apprende la relazione tra le caratteristiche e le relative etichette nel set di addestramento. Se le etichette nel set di addestramento sono buone approssimazioni del mondo reale, il modello dovrebbe fare buone previsioni del mondo reale. Tuttavia, a causa della variazione del concetto, le previsioni del modello tendono a peggiorare nel tempo.

Ad esempio, considera un modello di classificazione binaria che prevede se un determinato modello di auto è "efficiente dal punto di vista del consumo di carburante". ovvero le caratteristiche potrebbero essere:

  • peso dell'auto
  • compressione del motore
  • transmission type

mentre l'etichetta è:

  • a basso consumo di carburante
  • non efficiente in termini di consumo di carburante

Tuttavia, il concetto di "auto a basso consumo di carburante" è in continua evoluzione. Un modello di auto etichettato come efficiente nei consumi nel 1994 sarebbe quasi certamente etichettato come non efficiente nei consumi nel 2024. Un modello che soffre di concept drift tende a fare previsioni sempre meno utili nel tempo.

Confronta e contrapponi con la non stazionarietà.

condizione

#df
In un albero decisionale, qualsiasi nodo che l'albero decisionale contiene due condizioni:

Un albero decisionale composto da due condizioni: (x > 0) e
          (y > 0).

Una condizione è chiamata anche divisione o test.

Condizione di contrasto con foglia.

Vedi anche:

Per ulteriori informazioni, consulta la sezione Tipi di condizioni del corso Decision Forests.

confabulazione

#language

Sinonimo di allucinazione.

Confabulazione è probabilmente un termine più preciso dal punto di vista tecnico rispetto ad allucinazione. Tuttavia, l'allucinazione è diventata popolare per prima.

configurazione

Il processo di assegnazione dei valori iniziali delle proprietà utilizzati per addestrare un modello, inclusi:

Nei progetti di machine learning, la configurazione può essere eseguita tramite un file di configurazione speciale o utilizzando librerie di configurazione come le seguenti:

bias di conferma

#responsible

La tendenza a cercare, interpretare, favorire e ricordare le informazioni in modo da confermare le proprie convinzioni o ipotesi preesistenti. Gli sviluppatori di machine learning potrebbero raccogliere o etichettare inavvertitamente i dati in modo da influenzare un risultato che supporti le loro convinzioni esistenti. Il bias di conferma è una forma di bias implicito.

Il bias dell'osservatore è una forma di bias di conferma in cui un osservatore continua ad addestrare i modelli finché un'ipotesi preesistente non viene confermata.

matrice di confusione

#fundamentals

Una tabella NxN che riassume il numero di previsioni corrette e errate effettuate da un modello di classificazione. Ad esempio, considera la seguente matrice di confusione per un modello di classificazione binaria:

Tumore (previsto) Non tumorale (previsto)
Tumore (dati di fatto) 18 (VP) 1 (FN)
Non-Tumor (ground truth) 6 (FP) 452 (TN)

La matrice di confusione precedente mostra quanto segue:

  • Delle 19 previsioni in cui la verità di base era Tumore, il modello ne ha classificate correttamente 18 e in modo errato 1.
  • Delle 458 previsioni in cui la verità di base era Non-Tumor, il modello ne ha classificate correttamente 452 e in modo errato 6.

La matrice di confusione per un problema di classificazione multiclasse può aiutarti a identificare i pattern di errori. Ad esempio, considera la seguente matrice di confusione per un modello di classificazione multiclasse a 3 classi che classifica tre diversi tipi di iris (Virginica, Versicolor e Setosa). Quando i dati empirici reali erano Virginica, la matrice di confusione mostra che il modello aveva molte più probabilità di prevedere erroneamente Versicolor rispetto a Setosa:

  Setosa (previsto) Versicolor (previsto) Virginica (previsto)
Setosa (dati di fatto) 88 12 0
Versicolor (dati di fatto) 6 141 7
Virginica (dati empirici reali) 2 27 109

Come altro esempio, una matrice di confusione potrebbe rivelare che un modello addestrato a riconoscere le cifre scritte a mano tende a prevedere erroneamente 9 anziché 4 o 1 anziché 7.

Le matrici di confusione contengono informazioni sufficienti per calcolare una varietà di metriche di rendimento, tra cui precisione e richiamo.

analisi delle circoscrizioni

#language

Dividere una frase in strutture grammaticali più piccole ("costituenti"). Una parte successiva del sistema di ML, ad esempio un modello di comprensione del linguaggio naturale, può analizzare i costituenti più facilmente rispetto alla frase originale. Ad esempio, considera la seguente frase:

Il mio amico ha adottato due gatti.

Un analizzatore sintattico può dividere questa frase nei due seguenti costituenti:

  • Il mio amico è una frase nominale.
  • adopted two cats è una frase verbale.

Questi componenti possono essere ulteriormente suddivisi in componenti più piccoli. Ad esempio, il gruppo verbale

ha adottato due gatti

potrebbe essere ulteriormente suddiviso in:

  • adottato è un verbo.
  • due gatti è un altro sintagma nominale.

embedding contestuale del linguaggio

#language
#generativeAI

Un embedding che si avvicina alla "comprensione" di parole e frasi in modo simile a quello di un oratore umano fluente. Gli incorporamenti del linguaggio contestualizzato possono comprendere sintassi, semantica e contesto complessi.

Ad esempio, considera gli incorporamenti della parola inglese cow. Gli embedding precedenti, come word2vec, possono rappresentare le parole in inglese in modo che la distanza nello spazio di embedding da cow a bull sia simile alla distanza da ewe (pecora femmina) a ram (pecora maschio) o da female a male. Gli incorporamenti del linguaggio contestualizzato possono fare un ulteriore passo avanti riconoscendo che i parlanti inglesi a volte usano casualmente la parola cow per indicare sia la mucca che il toro.

finestra contestuale

#language
#generativeAI

Il numero di token che un modello può elaborare in un determinato prompt. Più ampia è la finestra contestuale, più informazioni il modello può utilizzare per fornire risposte coerenti e uniformi al prompt.

funzionalità continua

#fundamentals

Una funzionalità in virgola mobile con un intervallo infinito di valori possibili, ad esempio temperatura o peso.

Contrasto con la funzionalità discreta.

campionamento di convenienza

Utilizzo di un set di dati non raccolti scientificamente per eseguire esperimenti rapidi. In un secondo momento, è essenziale passare a un set di dati raccolti scientificamente.

convergenza

#fundamentals

Uno stato raggiunto quando i valori di perdita cambiano molto poco o non cambiano affatto a ogni iterazione. Ad esempio, la seguente curva di perdita suggerisce la convergenza a circa 700 iterazioni:

Grafico cartesiano. L&#39;asse X è perso. L&#39;asse Y indica il numero di iterazioni di addestramento. La perdita è molto elevata durante le prime iterazioni, ma
          diminuisce bruscamente. Dopo circa 100 iterazioni, la perdita continua a diminuire, ma in modo molto più graduale. Dopo circa 700 iterazioni,
          la perdita rimane invariata.

Un modello converge quando un ulteriore addestramento non migliora il modello.

Nel deep learning, i valori di perdita a volte rimangono costanti o quasi per molte iterazioni prima di diminuire. Durante un lungo periodo di valori di perdita costanti, potresti avere temporaneamente una falsa sensazione di convergenza.

Vedi anche interruzione anticipata.

Per saperne di più, consulta Convergenza del modello e curve di perdita in Machine Learning Crash Course.

funzione convessa

Una funzione in cui la regione sopra il grafico della funzione è un insieme convesso. La funzione convessa prototipica ha una forma simile alla lettera U. Ad esempio, le seguenti sono tutte funzioni convesse:

Curve a U, ciascuna con un singolo punto minimo.

Al contrario, la seguente funzione non è convessa. Nota come la regione sopra il grafico non sia un insieme convesso:

Una curva a forma di W con due punti di minimo locale diversi.

Una funzione strettamente convessa ha esattamente un punto di minimo locale, che è anche il punto di minimo globale. Le funzioni a forma di U classiche sono funzioni strettamente convesse. Tuttavia, alcune funzioni convesse (ad esempio le rette) non hanno forma a U.

Per saperne di più, consulta Convergenza e funzioni convesse in Machine Learning Crash Course.

ottimizzazione convessa

Il processo di utilizzo di tecniche matematiche come la discesa del gradiente per trovare il minimo di una funzione convessa. Gran parte della ricerca nel machine learning si è concentrata sulla formulazione di vari problemi come problemi di ottimizzazione convessa e sulla loro risoluzione in modo più efficiente.

Per informazioni dettagliate, vedi Boyd e Vandenberghe, Convex Optimization.

insieme convesso

Un sottoinsieme dello spazio euclideo tale che una linea tracciata tra due punti qualsiasi del sottoinsieme rimanga completamente all'interno del sottoinsieme. Ad esempio, le seguenti due forme sono insiemi convessi:

Un&#39;illustrazione di un rettangolo. Un&#39;altra illustrazione di un ovale.

Al contrario, le due forme seguenti non sono insiemi convessi:

Un&#39;illustrazione di un grafico a torta con una fetta mancante.
          Un&#39;altra illustrazione di un poligono molto irregolare.

convoluzione

#image

In matematica, in termini semplici, una combinazione di due funzioni. Nel machine learning, una convoluzione combina il filtro convoluzionale e la matrice di input per addestrare i pesi.

Il termine "convoluzione" nel machine learning è spesso un modo abbreviato per fare riferimento all'operazione di convoluzione o al livello convoluzionale.

Senza convoluzioni, un algoritmo di machine learning dovrebbe apprendere un peso separato per ogni cella di un grande tensore. Ad esempio, un algoritmo di machine learning addestrato su immagini 2K x 2K sarebbe costretto a trovare 4 milioni di pesi separati. Grazie alle convoluzioni, un algoritmo di machine learning deve trovare i pesi solo per ogni cella del filtro convoluzionale, riducendo drasticamente la memoria necessaria per addestrare il modello. Quando viene applicato il filtro convoluzionale, viene semplicemente replicato nelle celle in modo che ciascuna venga moltiplicata per il filtro.

Per saperne di più, consulta Introduzione alle reti neurali convoluzionali nel corso Classificazione delle immagini.

filtro convoluzionale

#image

Uno dei due attori in un'operazione di convoluzione. (L'altro attore è una sezione di una matrice di input.) Un filtro convoluzionale è una matrice con lo stesso rango della matrice di input, ma una forma più piccola. Ad esempio, data una matrice di input 28x28, il filtro può essere qualsiasi matrice 2D più piccola di 28x28.

Nella manipolazione fotografica, tutte le celle di un filtro convoluzionale sono in genere impostate su un pattern costante di 1 e 0. Nel machine learning, i filtri convoluzionali vengono in genere inizializzati con numeri casuali e poi la rete addestra i valori ideali.

Per saperne di più, consulta Convoluzione nel corso Classificazione delle immagini.

livello convoluzionale

#image

Uno strato di una rete neurale profonda in cui un filtro convoluzionale passa lungo una matrice di input. Ad esempio, considera il seguente filtro convoluzionale 3x3:

Una matrice 3x3 con i seguenti valori: [[0,1,0], [1,0,1], [0,1,0]]

L'animazione seguente mostra un livello convoluzionale costituito da 9 operazioni convoluzionali che coinvolgono la matrice di input 5x5. Tieni presente che ogni operazione di convoluzione funziona su una sezione 3x3 diversa della matrice di input. La matrice 3x3 risultante (a destra) è costituita dai risultati delle 9 operazioni di convoluzione:

Un&#39;animazione che mostra due matrici. La prima matrice è la matrice 5x5
          [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].
          La seconda matrice è la matrice 3x3:
          [[181,303,618], [115,338,605], [169,351,560]].
          La seconda matrice viene calcolata applicando il filtro
          convoluzionale [[0, 1, 0], [1, 0, 1], [0, 1, 0]] a
          diversi sottoinsiemi 3x3 della matrice 5x5.

Per saperne di più, consulta Livelli completamente connessi nel corso Classificazione delle immagini.

rete neurale convoluzionale

#image

Una rete neurale in cui almeno uno strato è uno strato convoluzionale. Una tipica rete neurale convoluzionale è costituita da una combinazione dei seguenti livelli:

Le reti neurali convoluzionali hanno ottenuto ottimi risultati in alcuni tipi di problemi, come il riconoscimento delle immagini.

operazione di convoluzione

#image

La seguente operazione matematica in due passaggi:

  1. Moltiplicazione elemento per elemento del filtro convoluzionale e di una sezione di una matrice di input. La sezione della matrice di input ha lo stesso rango e le stesse dimensioni del filtro convoluzionale.
  2. Somma di tutti i valori nella matrice dei prodotti risultante.

Ad esempio, considera la seguente matrice di input 5x5:

La matrice 5x5: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].

Ora immagina il seguente filtro convoluzionale 2x2:

La matrice 2x2: [[1, 0], [0, 1]]

Ogni operazione di convoluzione coinvolge una singola sezione 2x2 della matrice di input. Ad esempio, supponiamo di utilizzare la sezione 2x2 in alto a sinistra della matrice di input. Pertanto, l'operazione di convoluzione su questa sezione è la seguente:

Applicazione del filtro convoluzionale [[1, 0], [0, 1]] alla sezione 2x2 in alto a sinistra
          della matrice di input, ovvero [[128,97], [35,22]].
          Il filtro convoluzionale lascia intatti 128 e 22, ma azzera
          97 e 35. Di conseguenza, l&#39;operazione di convoluzione produce
          il valore 150 (128+22).

Un livello convoluzionale è costituito da una serie di operazioni convoluzionali, ognuna delle quali agisce su una sezione diversa della matrice di input.

costo

#Metric

Sinonimo di perdita.

co-training

Un approccio di apprendimento semi-supervisionato particolarmente utile quando sono vere tutte le seguenti condizioni:

Il co-training amplifica essenzialmente i segnali indipendenti in un segnale più forte. Ad esempio, considera un modello di classificazione che classifica le singole auto usate come Buone o Cattive. Un insieme di funzionalità predittive potrebbe concentrarsi su caratteristiche aggregate come l'anno, la marca e il modello dell'auto; un altro insieme di funzionalità predittive potrebbe concentrarsi su la cronologia di guida del precedente proprietario e la cronologia di manutenzione dell'auto.

L'articolo fondamentale sul co-training è Combining Labeled and Unlabeled Data with Co-Training di Blum e Mitchell.

equità controfattuale

#responsible
#Metric

Una metrica di equità che controlla se un modello di classificazione produce lo stesso risultato per un individuo e per un altro individuo identico al primo, tranne per uno o più attributi sensibili. La valutazione di un modello di classificazione per l'equità controfattuale è un metodo per individuare potenziali fonti di bias in un modello.

Per saperne di più, consulta uno dei seguenti articoli:

bias di copertura

#responsible

Consulta la sezione Bias di selezione.

crash blossom

#language

Una frase o un'espressione con un significato ambiguo. I crash blossom rappresentano un problema significativo nella comprensione del linguaggio naturale. Ad esempio, il titolo Red Tape Holds Up Skyscraper è un crash blossom perché un modello NLU potrebbe interpretare il titolo letteralmente o figurativamente.

critico

#rl

Sinonimo di Deep Q-Network.

entropia incrociata

#Metric

Una generalizzazione della perdita logaritmica per problemi di classificazione multiclasse. L'entropia incrociata quantifica la differenza tra due distribuzioni di probabilità. Vedi anche perplessità.

convalida incrociata

Un meccanismo per stimare il livello di generalizzazione di un modello a nuovi dati testando il modello su uno o più sottoinsiemi di dati non sovrapposti sottratti dal set di addestramento.

funzione di distribuzione cumulativa (CDF)

#Metric

Una funzione che definisce la frequenza dei campioni minore o uguale a un valore target. Ad esempio, considera una distribuzione normale di valori continui. Una CDF indica che circa il 50% dei campioni deve essere inferiore o uguale alla media e che circa l'84% dei campioni deve essere inferiore o uguale a una deviazione standard sopra la media.

D

analisi dei dati

Ottenere una comprensione dei dati considerando campioni, misurazioni e visualizzazioni. L'analisi dei dati può essere particolarmente utile quando un set di dati viene ricevuto per la prima volta, prima di creare il primo modello. È inoltre fondamentale per comprendere gli esperimenti e risolvere i problemi del sistema.

aumento dei dati

#image

Aumentare artificialmente l'intervallo e il numero di esempi di addestramento trasformando gli esempi esistenti per creare esempi aggiuntivi. Ad esempio, supponiamo che le immagini siano una delle tue funzionalità, ma il tuo set di dati non contiene esempi di immagini sufficienti per consentire al modello di apprendere associazioni utili. Idealmente, dovresti aggiungere al tuo set di dati un numero sufficiente di immagini etichettate per consentire al modello di addestrarsi correttamente. Se ciò non è possibile, l'aumento dei dati può ruotare, allungare e riflettere ogni immagine per produrre molte varianti dell'immagine originale, ottenendo così dati etichettati sufficienti per consentire un ottimo addestramento.

DataFrame

#fundamentals

Un tipo di dati pandas popolare per rappresentare i set di dati in memoria.

Un DataFrame è analogo a una tabella o a un foglio di lavoro. Ogni colonna di un DataFrame ha un nome (un'intestazione) e ogni riga è identificata da un numero univoco.

Ogni colonna di un DataFrame è strutturata come un array bidimensionale, tranne per il fatto che a ogni colonna può essere assegnato un proprio tipo di dati.

Consulta anche la pagina di riferimento di pandas.DataFrame ufficiale.

parallelismo dei dati

Un modo per scalare l'addestramento o l'inferenza che replica un intero modello su più dispositivi e poi passa un sottoinsieme dei dati di input a ciascun dispositivo. Il parallelismo dei dati può consentire l'addestramento e l'inferenza su batch di dimensioni molto grandi ; tuttavia, il parallelismo dei dati richiede che il modello sia abbastanza piccolo da poter essere memorizzato su tutti i dispositivi.

Il parallelismo dei dati in genere accelera l'addestramento e l'inferenza.

Vedi anche parallelismo dei modelli.

API Dataset (tf.data)

#TensorFlow

Un'API TensorFlow di alto livello per leggere i dati e trasformarli in un formato richiesto da un algoritmo di machine learning. Un oggetto tf.data.Dataset rappresenta una sequenza di elementi, in cui ogni elemento contiene uno o più tensori. Un oggetto tf.data.Iterator fornisce l'accesso agli elementi di un Dataset.

set di dati

#fundamentals

Una raccolta di dati non elaborati, comunemente (ma non esclusivamente) organizzati in uno dei seguenti formati:

  • un foglio di lavoro
  • un file in formato CSV (valori separati da virgole)

confine decisionale

Il separatore tra le classi apprese da un modello in un problema di classificazione binaria o multiclasse. Ad esempio, nell'immagine seguente che rappresenta un problema di classificazione binaria, il confine decisionale è la frontiera tra la classe arancione e la classe blu:

Un confine ben definito tra una classe e l&#39;altra.

foresta decisionale

#df

Un modello creato da più alberi decisionali. Una foresta decisionale fa una previsione aggregando le previsioni dei suoi alberi decisionali. I tipi più comuni di foreste decisionali includono foreste casuali e alberi potenziati dal gradiente.

Per ulteriori informazioni, consulta la sezione Foreste decisionali del corso sulle foreste decisionali.

soglia di decisione

Sinonimo di soglia di classificazione.

albero decisionale

#df

Un modello di apprendimento supervisionato composto da un insieme di condizioni e foglie organizzate gerarchicamente. Ad esempio, di seguito è riportata una struttura decisionale:

Un albero decisionale composto da quattro condizioni disposte
          gerarchicamente, che portano a cinque foglie.

decoder

#language

In generale, qualsiasi sistema di ML che esegue la conversione da una rappresentazione elaborata, densa o interna a una rappresentazione più grezza, sparsa o esterna.

I decoder sono spesso un componente di un modello più grande, in cui vengono spesso accoppiati a un encoder.

Nelle attività da sequenza a sequenza, un decoder inizia con lo stato interno generato dall'encoder per prevedere la sequenza successiva.

Consulta Transformer per la definizione di un decoder all'interno dell'architettura Transformer.

Per saperne di più, consulta Modelli linguistici di grandi dimensioni in Machine Learning Crash Course.

modello deep

#fundamentals

Una rete neurale contenente più di un strato nascosto.

Un modello profondo è chiamato anche rete neurale profonda.

Contrasto con il modello ampio.

per le reti neurali profonde

Sinonimo di modello profondo.

Deep Q-Network (DQN)

#rl

Nel Q-learning, una rete neurale profonda che prevede le funzioni Q.

Critic è un sinonimo di Deep Q-Network.

parità demografica

#responsible
#Metric

Una metrica di equità che viene soddisfatta se i risultati della classificazione di un modello non dipendono da un determinato attributo sensibile.

Ad esempio, se sia i lillipuziani che i brobdingnagiani fanno domanda all'Università di Glubbdubdrib, la parità demografica viene raggiunta se la percentuale di lillipuziani ammessi è la stessa di quella dei brobdingnagiani ammessi, indipendentemente dal fatto che un gruppo sia in media più qualificato dell'altro.

Contrasta con probabilità equalizzate e uguaglianza delle opportunità, che consentono ai risultati della classificazione aggregata di dipendere da attributi sensibili, ma non consentono ai risultati della classificazione per determinate etichette verità di riferimento specificate di dipendere da attributi sensibili. Consulta "Attacking discrimination with smarter machine learning" per una visualizzazione che esplora i compromessi quando si esegue l'ottimizzazione per la parità demografica.

Per saperne di più, consulta Equità: parità demografica in Machine Learning Crash Course.

riduzione del rumore

#language

Un approccio comune all'apprendimento auto-supervisionato in cui:

  1. Rumore viene aggiunto artificialmente al set di dati.
  2. Il modello tenta di rimuovere il rumore.

La rimozione del rumore consente l'apprendimento da esempi non etichettati. Il set di dati originale funge da target o etichetta e i dati rumorosi come input.

Alcuni modelli linguistici mascherati utilizzano la rimozione del rumore nel seguente modo:

  1. Il rumore viene aggiunto artificialmente a una frase senza etichetta mascherando alcuni dei token.
  2. Il modello tenta di prevedere i token originali.

caratteristica densa

#fundamentals

Una caratteristica in cui la maggior parte o tutti i valori sono diversi da zero, in genere un tensore di valori in virgola mobile. Ad esempio, il seguente tensore di 10 elementi è denso perché 9 dei suoi valori sono diversi da zero:

8 3 7 5 2 4 0 4 9 6

Contrasto con la funzionalità sparsa.

strato denso

Sinonimo di strato completamente connesso.

profondità

#fundamentals

La somma di quanto segue in una rete neurale:

Ad esempio, una rete neurale con cinque strati nascosti e uno strato di output ha una profondità di 6.

Tieni presente che il livello di input non influisce sulla profondità.

rete neurale convoluzionale separabile per profondità (sepCNN)

#image

Un'architettura di rete neurale convoluzionale basata su Inception, ma in cui i moduli Inception vengono sostituiti da convoluzioni separabili in profondità. Noto anche come Xception.

Una convoluzione separabile per profondità (abbreviata anche come convoluzione separabile) fattorizza una convoluzione 3D standard in due operazioni di convoluzione separate più efficienti dal punto di vista computazionale: prima una convoluzione separabile per profondità, con una profondità di 1 (n ✕ n ✕ 1), e poi una convoluzione puntuale, con lunghezza e larghezza di 1 (1 ✕ 1 ✕ n).

Per saperne di più, consulta Xception: Deep Learning with Depthwise Separable Convolutions.

etichetta derivata

Sinonimo di etichetta proxy.

dispositivo

#TensorFlow
#GoogleCloud

Un termine sovraccarico con le seguenti due possibili definizioni:

  1. Una categoria di hardware in grado di eseguire una sessione TensorFlow, tra cui CPU, GPU e TPU.
  2. Quando addestri un modello ML su chip acceleratori (GPU o TPU), la parte del sistema che manipola effettivamente tensori e incorporamenti. Il dispositivo funziona con chip di accelerazione. Al contrario, l'host in genere viene eseguito su una CPU.

privacy differenziale

Nell'apprendimento automatico, un approccio di anonimizzazione per proteggere i dati sensibili (ad esempio, le informazioni personali di un individuo) inclusi nel set di addestramento di un modello dall'esposizione. Questo approccio garantisce che il modello non impari o ricordi molto di una persona specifica. Ciò si ottiene campionando e aggiungendo rumore durante l'addestramento del modello per oscurare i singoli punti dati, riducendo il rischio di esporre dati di addestramento sensibili.

La privacy differenziale viene utilizzata anche al di fuori del machine learning. Ad esempio, i data scientist a volte utilizzano la privacy differenziale per proteggere la privacy individuale quando calcolano le statistiche sull'utilizzo dei prodotti per diverse fasce demografiche.

riduzione delle dimensioni

Riduzione del numero di dimensioni utilizzate per rappresentare una determinata funzionalità in un vettore delle funzionalità, in genere mediante la conversione in un vettore di incorporamento.

dimensioni

Termine sovraccarico con una delle seguenti definizioni:

  • Il numero di livelli di coordinate in un Tensor. Ad esempio:

    • Uno scalare ha zero dimensioni, ad esempio ["Hello"].
    • Un vettore ha una dimensione, ad esempio [3, 5, 7, 11].
    • Una matrice ha due dimensioni, ad esempio [[2, 4, 18], [5, 7, 14]]. Puoi specificare in modo univoco una cella particolare in un vettore unidimensionale con una coordinata; hai bisogno di due coordinate per specificare in modo univoco una cella particolare in una matrice bidimensionale.
  • Il numero di voci in un vettore di caratteristiche.

  • Il numero di elementi in un livello di incorporamento.

prompt diretto

#language
#generativeAI

Sinonimo di prompt zero-shot.

funzionalità discreta

#fundamentals

Una caratteristica con un insieme finito di valori possibili. Ad esempio, una caratteristica i cui valori possono essere solo animale, vegetale o minerale è una caratteristica discreta (o categorica).

Contrasto con la caratteristica continua.

modello discriminativo

Un modello che prevede etichette da un insieme di una o più caratteristiche. Più formalmente, i modelli discriminativi definiscono la probabilità condizionata di un output date le funzionalità e i pesi, ovvero:

p(output | features, weights)

Ad esempio, un modello che prevede se un'email è spam in base a caratteristiche e pesi è un modello discriminante.

La stragrande maggioranza dei modelli di apprendimento supervisionato, inclusi i modelli di classificazione e regressione, sono modelli discriminativi.

Contrasto con il modello generativo.

discriminatore

Un sistema che determina se gli esempi sono reali o falsi.

In alternativa, il sottosistema all'interno di una rete adversarial generativa che determina se gli esempi creati dal generatore sono reali o falsi.

Per saperne di più, consulta la sezione Il discriminatore del corso sulle GAN.

impatto discriminatorio

#responsible

Prendere decisioni sulle persone che influiscono in modo sproporzionato su diversi sottogruppi della popolazione. Ciò si riferisce in genere a situazioni in cui un processo decisionale algoritmico danneggia o avvantaggia alcuni sottogruppi più di altri.

Ad esempio, supponiamo che un algoritmo che determina l'idoneità di un lillipuziano a un mutuo per una casa in miniatura abbia maggiori probabilità di classificarlo come "non idoneo" se il suo indirizzo postale contiene un determinato codice postale. Se i lillipuziani Big-Endian hanno più probabilità di avere indirizzi postali con questo codice postale rispetto ai lillipuziani Little-Endian, questo algoritmo potrebbe comportare un impatto disparato.

In contrasto con il trattamento disparato, che si concentra sulle disparità che si verificano quando le caratteristiche dei sottogruppi sono input espliciti per un processo decisionale algoritmico.

trattamento discriminatorio

#responsible

L'inclusione di attributi sensibili dei soggetti in un processo decisionale algoritmico in modo che diversi sottogruppi di persone vengano trattati in modo diverso.

Ad esempio, considera un algoritmo che determina l'idoneità dei lillipuziani a un prestito per una casa in miniatura in base ai dati forniti nella domanda di prestito. Se l'algoritmo utilizza l'affiliazione di un lillipuziano come Big-Endian o Little-Endian come input, sta attuando un trattamento disparato lungo questa dimensione.

In contrasto con l'impatto disparato, che si concentra sulle disparità negli impatti sociali delle decisioni algoritmiche sui sottogruppi, indipendentemente dal fatto che questi sottogruppi siano input del modello.

distillazione

#generativeAI

Il processo di riduzione delle dimensioni di un modello (noto come insegnante) in un modello più piccolo (noto come studente) che emula le previsioni del modello originale nel modo più fedele possibile. La distillazione è utile perché il modello più piccolo presenta due vantaggi chiave rispetto al modello più grande (l'insegnante):

  • Tempi di inferenza più rapidi
  • Riduzione dell'utilizzo di memoria ed energia

Tuttavia, le previsioni dello studente in genere non sono buone come quelle dell'insegnante.

La distillazione addestra il modello studente a ridurre al minimo una funzione di perdita in base alla differenza tra gli output delle previsioni dei modelli studente e insegnante.

Confronta e contrapponi la distillazione con i seguenti termini:

Per saperne di più, consulta LLM: fine-tuning, distillazione e prompt engineering in Machine Learning Crash Course.

distribution

La frequenza e l'intervallo di valori diversi per una determinata funzionalità o etichetta. Una distribuzione acquisisce la probabilità di un valore specifico.

L'immagine seguente mostra gli istogrammi di due distribuzioni diverse:

  • A sinistra, una distribuzione della ricchezza secondo la legge di potenza rispetto al numero di persone che possiedono quella ricchezza.
  • A destra, una distribuzione normale dell'altezza rispetto al numero di persone che hanno quell'altezza.

Due istogrammi. Un istogramma mostra una distribuzione della legge di potenza con
          la ricchezza sull&#39;asse X e il numero di persone che possiedono quella ricchezza sull&#39;asse
          Y. La maggior parte delle persone ha una ricchezza molto limitata, mentre poche persone
          hanno una ricchezza molto elevata. L&#39;altro istogramma mostra una distribuzione normale
          con l&#39;altezza sull&#39;asse X e il numero di persone con quell&#39;altezza
          sull&#39;asse Y. La maggior parte delle persone si concentra in un punto vicino alla media.

Comprendere la distribuzione di ogni funzionalità ed etichetta può aiutarti a determinare come normalizzare i valori e rilevare gli outlier.

L'espressione fuori distribuzione si riferisce a un valore che non compare nel set di dati o è molto raro. Ad esempio, un'immagine del pianeta Saturno sarebbe considerata fuori distribuzione per un set di dati costituito da immagini di gatti.

clustering divisivo

#clustering

Vedi clustering gerarchico.

sottocampionamento

#image

Termine sovraccarico che può significare una delle seguenti opzioni:

  • Riduzione della quantità di informazioni in una caratteristica per addestrare un modello in modo più efficiente. Ad esempio, prima di addestrare un modello di riconoscimento delle immagini, esegui il downsampling delle immagini ad alta risoluzione in un formato a risoluzione inferiore.
  • Addestramento su una percentuale sproporzionatamente bassa di esempi di classe sovra rappresentata per migliorare l'addestramento del modello sulle classi sottorappresentate. Ad esempio, in un set di dati con squilibrio di classe, i modelli tendono ad apprendere molto sulla classe maggioritaria e non abbastanza sulla classe minoritaria. Il sottocampionamento aiuta a bilanciare la quantità di addestramento sulle classi maggioritarie e minoritarie.

Per saperne di più, consulta Set di dati: set di dati non bilanciati in Machine Learning Crash Course.

DQN

#rl

Abbreviazione di Deep Q-Network.

regolarizzazione del dropout

Una forma di regolarizzazione utile per l'addestramento di reti neurali. La regolarizzazione del dropout rimuove una selezione casuale di un numero fisso di unità in un livello di rete per un singolo passo del gradiente. Più unità vengono escluse, più forte è la regolarizzazione. Ciò è analogo all'addestramento della rete per emulare un ensemble di reti più piccole di dimensioni esponenzialmente grandi. Per tutti i dettagli, consulta l'articolo Dropout: A Simple Way to Prevent Neural Networks from Overfitting.

dinamico

#fundamentals

Qualcosa che viene fatto frequentemente o continuamente. I termini dinamico e online sono sinonimi nel machine learning. Di seguito sono riportati gli utilizzi comuni di dinamico e online nel machine learning:

  • Un modello dinamico (o modello online) è un modello che viene riaddestrato di frequente o continuamente.
  • L'addestramento dinamico (o addestramento online) è il processo di addestramento frequente o continuo.
  • L'inferenza dinamica (o inferenza online) è il processo di generazione di previsioni on demand.

modello dinamico

#fundamentals

Un modello che viene riaddestrato frequentemente (forse anche in modo continuo). Un modello dinamico è un "apprendista permanente" che si adatta costantemente all'evoluzione dei dati. Un modello dinamico è noto anche come modello online.

Contrasto con il modello statico.

E

esecuzione eager

#TensorFlow

Un ambiente di programmazione TensorFlow in cui le operazioni vengono eseguite immediatamente. Al contrario, le operazioni chiamate in esecuzione del grafico non vengono eseguite finché non vengono valutate in modo esplicito. L'esecuzione eager è un'interfaccia imperativa, molto simile al codice nella maggior parte dei linguaggi di programmazione. I programmi di esecuzione eager sono in genere molto più facili da eseguire il debug rispetto ai programmi di esecuzione del grafico.

interruzione anticipata

#fundamentals

Un metodo di regolarizzazione che prevede di terminare l'addestramento prima che la perdita di addestramento finisca di diminuire. Nell'interruzione anticipata, l'addestramento del modello viene interrotto intenzionalmente quando la perdita su un set di dati di convalida inizia ad aumentare, ovvero quando le prestazioni di generalizzazione peggiorano.

Contrasto con l'uscita anticipata.

distanza di movimento terra (EMD)

#Metric

Una misura della similarità relativa di due distribuzioni. Più bassa è la distanza di Earth Mover, più simili sono le distribuzioni.

edit distance

#language
#Metric

Una misurazione del grado di somiglianza tra due stringhe di testo. Nel machine learning, la distanza di modifica è utile per i seguenti motivi:

  • La distanza di modifica è facile da calcolare.
  • La distanza di modifica può confrontare due stringhe note per essere simili tra loro.
  • La distanza di modifica può determinare il grado di somiglianza di stringhe diverse rispetto a una determinata stringa.

Esistono diverse definizioni di distanza di modifica, ognuna delle quali utilizza operazioni diverse sulle stringhe. Per un esempio, vedi Distanza di Levenshtein.

Notazione di Einstein

Una notazione efficiente per descrivere come devono essere combinati due tensori. I tensori vengono combinati moltiplicando gli elementi di un tensore per gli elementi dell'altro tensore e poi sommando i prodotti. La notazione Einsum utilizza simboli per identificare gli assi di ogni tensore e questi stessi simboli vengono riorganizzati per specificare la forma del nuovo tensore risultante.

NumPy fornisce un'implementazione comune di Einsum.

strato di embedding

#language
#fundamentals

Uno speciale livello nascosto che viene addestrato su una caratteristica categorica ad alta dimensionalità per apprendere gradualmente un vettore di incorporamento a dimensionalità inferiore. Un livello di incorporamento consente a una rete neurale di eseguire l'addestramento in modo molto più efficiente rispetto all'addestramento basato solo sulla caratteristica categorica ad alta dimensionalità.

Ad esempio, attualmente Earth supporta circa 73.000 specie di alberi. Supponiamo che la specie di albero sia una caratteristica del tuo modello, quindi il livello di input del modello include un vettore one-hot lungo 73.000 elementi. Ad esempio, forse baobab potrebbe essere rappresentato in questo modo:

Un array di 73.000 elementi. I primi 6232 elementi contengono il valore
     0. L&#39;elemento successivo contiene il valore 1. Gli ultimi 66.767 elementi contengono
     il valore zero.

Un array di 73.000 elementi è molto lungo. Se non aggiungi un livello di incorporamento al modello, l'addestramento richiederà molto tempo a causa della moltiplicazione di 72.999 zeri. Forse scegli che lo strato di incorporamento sia composto da 12 dimensioni. Di conseguenza, il livello di incorporamento imparerà gradualmente un nuovo vettore di incorporamento per ogni specie di albero.

In determinate situazioni, l'hashing è un'alternativa ragionevole a un livello di incorporamento.

Per saperne di più, consulta la sezione Incorporamenti di Machine Learning Crash Course.

spazio di embedding

#language

Lo spazio vettoriale d-dimensionale a cui vengono mappate le caratteristiche di uno spazio vettoriale di dimensione superiore. Lo spazio di embedding è addestrato per acquisire una struttura significativa per l'applicazione prevista.

Il prodotto scalare di due embedding è una misura della loro similarità.

vettore di embedding

#language

In generale, un array di numeri in virgola mobile presi da qualsiasi strato nascosto che descrivono gli input di quello strato nascosto. Spesso, un vettore di incorporamento è l'array di numeri in virgola mobile addestrati in un livello di incorporamento. Ad esempio, supponiamo che un livello di embedding debba apprendere un vettore di embedding per ciascuna delle 73.000 specie di alberi sulla Terra. Forse il seguente array è il vettore di incorporamento per un baobab:

Un array di 12 elementi, ognuno contenente un numero in virgola mobile
          compreso tra 0,0 e 1,0.

Un vettore di incorporamento non è un insieme di numeri casuali. Uno strato di incorporamento determina questi valori tramite l'addestramento, in modo simile a come una rete neurale apprende altri pesi durante l'addestramento. Ogni elemento dell'array è una valutazione di una caratteristica di una specie arborea. Quale elemento rappresenta la caratteristica di quale specie arborea? È molto difficile per gli esseri umani determinarlo.

La parte matematicamente notevole di un vettore di incorporamento è che elementi simili hanno insiemi simili di numeri in virgola mobile. Ad esempio, specie di alberi simili hanno un insieme di numeri in virgola mobile più simile rispetto a specie di alberi diverse. Le sequoie e le sequoie rosse sono specie arboree correlate, quindi avranno un insieme di numeri in virgola mobile più simile rispetto alle sequoie e alle palme da cocco. I numeri nel vettore di incorporamento cambiano ogni volta che viene eseguito il retraining del modello, anche se viene eseguito il retraining con input identici.

funzione di distribuzione cumulativa empirica (eCDF o EDF)

#Metric

Una funzione di distribuzione cumulativa basata su misurazioni empiriche di un set di dati reale. Il valore della funzione in qualsiasi punto dell'asse x è la frazione di osservazioni nel set di dati che sono minori o uguali al valore specificato.

minimizzazione empirica del rischio (ERM)

Scegliendo la funzione che minimizza la perdita nel set di addestramento. Contrasto con la minimizzazione del rischio strutturale.

codificatore

#language

In generale, qualsiasi sistema ML che converte una rappresentazione non elaborata, sparsa o esterna in una rappresentazione più elaborata, densa o interna.

Gli encoder sono spesso un componente di un modello più grande, in cui vengono spesso accoppiati a un decoder. Alcuni Transformer accoppiano encoder e decoder, mentre altri Transformer utilizzano solo l'encoder o solo il decoder.

Alcuni sistemi utilizzano l'output dell'encoder come input per una rete di classificazione o regressione.

Nelle attività da sequenza a sequenza, un encoder accetta una sequenza di input e restituisce uno stato interno (un vettore). Poi, il decoder utilizza questo stato interno per prevedere la sequenza successiva.

Consulta Transformer per la definizione di un encoder nell'architettura Transformer.

Per saperne di più, consulta LLM: che cos'è un modello linguistico di grandi dimensioni in Machine Learning Crash Course.

endpoints

Una posizione indirizzabile in rete (in genere un URL) in cui è possibile raggiungere un servizio.

ensemble

Una raccolta di modelli addestrati in modo indipendente le cui previsioni vengono calcolate come media o aggregate. In molti casi, un ensemble produce previsioni migliori rispetto a un singolo modello. Ad esempio, una foresta casuale è un insieme costruito da più alberi decisionali. Tieni presente che non tutte le foreste decisionali sono insiemi.

Per saperne di più, consulta Random Forest in Machine Learning Crash Course.

entropia

#df
#Metric

Nella teoria dell'informazione, una descrizione di quanto sia imprevedibile una distribuzione di probabilità. In alternativa, l'entropia è definita anche come la quantità di informazioni contenute in ogni esempio. Una distribuzione ha l'entropia più alta possibile quando tutti i valori di una variabile casuale sono ugualmente probabili.

L'entropia di un insieme con due possibili valori "0" e "1" (ad esempio, le etichette in un problema di classificazione binaria) ha la seguente formula:

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

dove:

  • H è l'entropia.
  • p è la frazione di esempi "1".
  • q è la frazione di esempi "0". Tieni presente che q = (1 - p)
  • log è generalmente log2. In questo caso, l'unità di entropia è un bit.

Ad esempio, supponiamo quanto segue:

  • 100 esempi contengono il valore "1"
  • 300 esempi contengono il valore "0"

Pertanto, il valore di entropia è:

  • p = 0,25
  • q = 0,75
  • H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 bit per esempio

Un insieme perfettamente bilanciato (ad esempio, 200 "0" e 200 "1") avrebbe un'entropia di 1 bit per esempio. Man mano che un set diventa più sbilanciato, la sua entropia tende a 0.0.

Negli alberi decisionali, l'entropia aiuta a formulare il guadagno di informazioni per aiutare lo splitter a selezionare le condizioni durante la crescita di un albero decisionale di classificazione.

Confronta l'entropia con:

L'entropia viene spesso chiamata entropia di Shannon.

Per saperne di più, consulta Splitter esatto per la classificazione binaria con funzionalità numeriche nel corso Decision Forests.

produzione

#rl

Nell'apprendimento per rinforzo, il mondo che contiene l'agente e gli consente di osservare lo stato del mondo. Ad esempio, il mondo rappresentato può essere un gioco come gli scacchi o un mondo fisico come un labirinto. Quando l'agente applica un'azione all'ambiente, l'ambiente passa da uno stato all'altro.

puntata

#rl

Nell'apprendimento per rinforzo, ogni tentativo ripetuto dell'agente di apprendere un ambiente.

periodo

#fundamentals

Un passaggio di addestramento completo sull'intero set di addestramento in modo che ogni esempio sia stato elaborato una volta.

Un'epoca rappresenta N/dimensione batch iterazioni di addestramento, dove N è il numero totale di esempi.

Ad esempio, supponiamo quanto segue:

  • Il set di dati è composto da 1000 esempi.
  • La dimensione del batch è di 50 esempi.

Pertanto, una singola epoca richiede 20 iterazioni:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

Per saperne di più, consulta Regressione lineare: iperparametri in Machine Learning Crash Course.

epsilon greedy policy

#rl

Nell'apprendimento per rinforzo, una policy che segue una policy casuale con probabilità epsilon o una policy greedy altrimenti. Ad esempio, se epsilon è 0,9, la norma segue una norma casuale il 90% delle volte e una norma greedy il 10% delle volte.

Nel corso di episodi successivi, l'algoritmo riduce il valore di epsilon per passare da una strategia casuale a una strategia greedy. Spostando la policy, l'agente esplora prima l'ambiente in modo casuale e poi sfrutta avidamente i risultati dell'esplorazione casuale.

uguaglianza di opportunità

#responsible
#Metric

Una metrica di equità per valutare se un modello prevede il risultato desiderabile altrettanto bene per tutti i valori di un attributo sensibile. In altre parole, se il risultato desiderabile per un modello è la classe positiva, l'obiettivo sarebbe che il tasso di veri positivi sia lo stesso per tutti i gruppi.

L'uguaglianza delle opportunità è correlata alle probabilità equalizzate, che richiedono che entrambi i tassi di veri positivi e i tassi di falsi positivi siano gli stessi per tutti i gruppi.

Supponiamo che l'Università di Glubbdubdrib ammetta sia lillipuziani che brobdingnagiani a un rigoroso programma di matematica. Le scuole secondarie di Lilliput offrono un solido programma di corsi di matematica e la stragrande maggioranza degli studenti è qualificata per il programma universitario. Le scuole secondarie di Brobdingnag non offrono corsi di matematica e, di conseguenza, molti meno studenti sono qualificati. L'uguaglianza delle opportunità è soddisfatta per l'etichetta preferita di "ammesso" rispetto alla nazionalità (lillipuziana o brobdingnagiana) se gli studenti qualificati hanno la stessa probabilità di essere ammessi indipendentemente dal fatto che siano lillipuziani o brobdingnagiani.

Ad esempio, supponiamo che 100 lillipuziani e 100 brobdingnaghi facciano domanda all'Università di Glubbdubdrib e che le decisioni di ammissione vengano prese come segue:

Tabella 1. Candidati lillipuziani (il 90% è qualificato)

  Qualificato Non qualificato
Ammesso 45 3
Rifiutato 45 7
Totale 90 10
Percentuale di studenti qualificati ammessi: 45/90 = 50%
Percentuale di studenti non qualificati respinti: 7/10 = 70%
Percentuale totale di studenti lillipuziani ammessi: (45+3)/100 = 48%

 

Tabella 2. Candidati brobdingnagiani (il 10% è qualificato):

  Qualificato Non qualificato
Ammesso 5 9
Rifiutato 5 81
Totale 10 90
Percentuale di studenti qualificati ammessi: 5/10 = 50%
Percentuale di studenti non qualificati respinti: 81/90 = 90%
Percentuale totale di studenti di Brobdingnag ammessi: (5+9)/100 = 14%

Gli esempi precedenti soddisfano l'uguaglianza di opportunità per l'accettazione di studenti qualificati perché i lillipuziani e i brobdingnagiani qualificati hanno entrambi il 50% di possibilità di essere ammessi.

Sebbene l'uguaglianza delle opportunità sia soddisfatta, le seguenti due metriche di equità non sono soddisfatte:

  • Parità demografica: i lillipuziani e i brobdingnagiani vengono ammessi all'università a tassi diversi; il 48% degli studenti lillipuziani viene ammesso, ma solo il 14% degli studenti brobdingnagiani.
  • Probabilità uguali: mentre gli studenti lillipuziani e brobdingnagiani qualificati hanno la stessa probabilità di essere ammessi, il vincolo aggiuntivo che gli studenti lillipuziani e brobdingnagiani non qualificati abbiano la stessa probabilità di essere respinti non è soddisfatto. I Lillipuziani non qualificati hanno un tasso di rifiuto del 70%, mentre i Brobdingnagiani non qualificati hanno un tasso di rifiuto del 90%.

Per saperne di più, consulta la sezione Equità: pari opportunità di Machine Learning Crash Course.

probabilità equalizzate

#responsible
#Metric

Una metrica di equità per valutare se un modello prevede i risultati in modo equo per tutti i valori di un attributo sensibile rispetto sia alla classe positiva sia alla classe negativa, non solo a una classe o all'altra in modo esclusivo. In altre parole, sia la percentuale di veri positivi sia la percentuale di falsi negativi devono essere uguali per tutti i gruppi.

Le probabilità equalizzate sono correlate all'uguaglianza di opportunità, che si concentra solo sui tassi di errore per una singola classe (positiva o negativa).

Ad esempio, supponiamo che l'Università di Glubbdubdrib ammetta sia i lillipuziani che i brobdingnagiani a un rigoroso programma di matematica. Le scuole secondarie di Lilliput offrono un solido programma di corsi di matematica e la stragrande maggioranza degli studenti è qualificata per il programma universitario. Le scuole secondarie di Brobdingnag non offrono corsi di matematica e, di conseguenza, molti meno studenti sono qualificati. Le probabilità di parità sono soddisfatte a condizione che, indipendentemente dal fatto che un candidato sia un lillipuziano o un brobdingnagiano, se è qualificato, ha la stessa probabilità di essere ammesso al programma e, se non è qualificato, ha la stessa probabilità di essere rifiutato.

Supponiamo che 100 Lillipuziani e 100 Brobdingnagiani facciano domanda all'Università di Glubbdubdrib e che le decisioni di ammissione vengano prese come segue:

Tabella 3. Candidati lillipuziani (il 90% è qualificato)

  Qualificato Non qualificato
Ammesso 45 2
Rifiutato 45 8
Totale 90 10
Percentuale di studenti qualificati ammessi: 45/90 = 50%
Percentuale di studenti non qualificati respinti: 8/10 = 80%
Percentuale totale di studenti lillipuziani ammessi: (45+2)/100 = 47%

 

Tabella 4. Candidati brobdingnagiani (il 10% è qualificato):

  Qualificato Non qualificato
Ammesso 5 18
Rifiutato 5 72
Totale 10 90
Percentuale di studenti qualificati ammessi: 5/10 = 50%
Percentuale di studenti non qualificati respinti: 72/90 = 80%
Percentuale totale di studenti di Brobdingnag ammessi: (5+18)/100 = 23%

La condizione di probabilità uguale è soddisfatta perché gli studenti lillipuziani e brobdingnagiani qualificati hanno entrambi il 50% di possibilità di essere ammessi, mentre quelli non qualificati hanno l'80% di possibilità di essere respinti.

Le probabilità equalizzate sono definite formalmente in "Equality of Opportunity in Supervised Learning" come segue: "il predittore Ŷ soddisfa le probabilità equalizzate rispetto all'attributo protetto A e al risultato Y se Ŷ e A sono indipendenti, condizionati a Y".

Estimator

#TensorFlow

Un'API TensorFlow deprecata. Utilizza tf.keras anziché gli Estimator.

evals

#language
#generativeAI
#Metric

Utilizzato principalmente come abbreviazione di valutazioni LLM. Più in generale, valutazioni è l'abbreviazione di qualsiasi forma di valutazione.

valutazione

#language
#generativeAI
#Metric

Il processo di misurazione della qualità di un modello o il confronto tra modelli diversi.

Per valutare un modello di machine learning supervisionato, in genere lo si confronta con un set di convalida e un set di test. La valutazione di un LLM in genere comporta valutazioni più ampie di qualità e sicurezza.

esempio

#fundamentals

I valori di una riga di caratteristiche ed eventualmente un'etichetta. Gli esempi di apprendimento supervisionato rientrano in due categorie generali:

  • Un esempio etichettato è costituito da una o più funzionalità e da un'etichetta. Gli esempi etichettati vengono utilizzati durante l'addestramento.
  • Un esempio senza etichetta è costituito da una o più funzionalità, ma nessuna etichetta. Gli esempi senza etichetta vengono utilizzati durante l'inferenza.

Ad esempio, supponiamo che tu stia addestrando un modello per determinare l'influenza delle condizioni meteorologiche sui punteggi dei test degli studenti. Ecco tre esempi etichettati:

Funzionalità Etichetta
Temperatura Umidità Pressione Punteggio del test
15 47 998 Buono
19 34 1020 Eccellente
18 92 1012 Scadente

Ecco tre esempi senza etichetta:

Temperatura Umidità Pressione  
12 62 1014  
21 47 1017  
19 41 1021  

La riga di un set di dati è in genere l'origine non elaborata di un esempio. ovvero un sottoinsieme delle colonne del set di dati. Inoltre, le caratteristiche di un esempio possono includere anche caratteristiche sintetiche, come incroci di caratteristiche.

Per saperne di più, consulta Apprendimento supervisionato nel corso Introduzione al machine learning.

experience replay

#rl

Nell'apprendimento per rinforzo, una tecnica DQN utilizzata per ridurre le correlazioni temporali nei dati di addestramento. L'agente memorizza le transizioni di stato in un buffer di replay, quindi campiona le transizioni dal buffer di replay per creare dati di addestramento.

bias dello sperimentatore

#responsible

Consulta la sezione relativa al bias di conferma.

problema del gradiente esplosivo

#seq

La tendenza dei gradienti nelle reti neurali profonde (in particolare reti neurali ricorrenti) a diventare sorprendentemente ripidi (alti). I gradienti elevati spesso causano aggiornamenti molto grandi ai pesi di ogni nodo in una rete neurale profonda.

I modelli che soffrono del problema del gradiente esplosivo diventano difficili o impossibili da addestrare. Il clipping del gradiente può attenuare questo problema.

Confrontalo con il problema di scomparsa del gradiente.

F

F1

#Metric

Una metrica di classificazione binaria "aggregata" che si basa sia sulla precisione sia sul richiamo. Ecco la formula:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

oggettività

#generativeAI

Nel mondo del machine learning, una proprietà che descrive un modello il cui output si basa sulla realtà. L'accuratezza è un concetto, non una metrica. Ad esempio, supponi di inviare il seguente prompt a un modello linguistico di grandi dimensioni:

Qual è la formula chimica del sale da tavola?

Un modello che ottimizza l'accuratezza risponderebbe:

NaCl

È allettante presumere che tutti i modelli debbano basarsi sulla veridicità. Tuttavia, alcuni prompt, come i seguenti, devono indurre un modello di AI generativa a ottimizzare la creatività anziché l'accuratezza.

Raccontami un limerick su un astronauta e un bruco.

È improbabile che il limerick risultante si basi sulla realtà.

Contrasto con l'ancoraggio.

vincolo di equità

#responsible
Applicazione di un vincolo a un algoritmo per garantire che una o più definizioni di equità siano soddisfatte. Ecco alcuni esempi di vincoli di equità:

metrica di equità

#responsible
#Metric

Una definizione matematica di "equità" misurabile. Alcune metriche di equità comunemente utilizzate includono:

Molte metriche di equità si escludono a vicenda. Vedi Incompatibilità delle metriche di equità.

falso negativo (FN)

#fundamentals
#Metric

Un esempio in cui il modello prevede erroneamente la classe negativa. Ad esempio, il modello prevede che un determinato messaggio email non sia spam (la classe negativa), ma che in realtà sia spam.

percentuale di falsi negativi

#Metric

La proporzione di esempi positivi effettivi per i quali il modello ha previsto erroneamente la classe negativa. La seguente formula calcola il tasso di falsi negativi:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

Per saperne di più, consulta Soglie e matrice di confusione in Machine Learning Crash Course.

falso positivo (FP)

#fundamentals
#Metric

Un esempio in cui il modello prevede erroneamente la classe positiva. Ad esempio, il modello prevede che un determinato messaggio email sia spam (la classe positiva), ma che in realtà non lo sia.

Per saperne di più, consulta Soglie e matrice di confusione in Machine Learning Crash Course.

percentuale di falsi positivi (FPR)

#fundamentals
#Metric

La proporzione di esempi negativi effettivi per i quali il modello ha erroneamente previsto la classe positiva. La seguente formula calcola il tasso di falsi positivi:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

La percentuale di falsi positivi è l'asse x di una curva ROC.

Per saperne di più, consulta Classificazione: ROC e AUC in Machine Learning Crash Course.

decadimento rapido

#language
#generativeAI

Una tecnica di addestramento per migliorare le prestazioni degli LLM. Il decadimento rapido comporta una diminuzione rapida del tasso di apprendimento durante l'addestramento. Questa strategia aiuta a evitare che il modello esegua un overfitting dei dati di addestramento e migliora la generalizzazione.

caratteristica

#fundamentals

Una variabile di input per un modello di machine learning. Un esempio è composto da una o più funzionalità. Ad esempio, supponiamo che tu stia addestrando un modello per determinare l'influenza delle condizioni meteorologiche sui punteggi dei test degli studenti. La tabella seguente mostra tre esempi, ognuno dei quali contiene tre funzionalità e un'etichetta:

Funzionalità Etichetta
Temperatura Umidità Pressione Punteggio del test
15 47 998 92
19 34 1020 84
18 92 1012 87

Contrasto con l'etichetta.

Per saperne di più, consulta Apprendimento supervisionato nel corso Introduzione al machine learning.

incrocio di caratteristiche

#fundamentals

Una caratteristica sintetica formata "incrociando" caratteristiche categoriche o raggruppate.

Ad esempio, considera un modello di "previsione dell'umore" che rappresenta la temperatura in uno dei seguenti quattro bucket:

  • freezing
  • chilly
  • temperate
  • warm

e rappresenta la velocità del vento in uno dei seguenti tre bucket:

  • still
  • light
  • windy

Senza incroci di caratteristiche, il modello lineare viene addestrato in modo indipendente su ciascuno dei sette bucket precedenti. Pertanto, il modello viene addestrato, ad esempio, su freezing indipendentemente dall'addestramento su, ad esempio, windy.

In alternativa, potresti creare un incrocio di caratteristiche di temperatura e velocità del vento. Questa funzionalità sintetica avrebbe i seguenti 12 valori possibili:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Grazie agli incroci di caratteristiche, il modello può apprendere le differenze di umore tra un giorno freezing-windy e un giorno freezing-still.

Se crei una caratteristica sintetica da due caratteristiche che hanno molte bucket diversi, l'incrocio di caratteristiche risultante avrà un numero enorme di combinazioni possibili. Ad esempio, se una funzionalità ha 1000 bucket e l'altra ne ha 2000, il prodotto incrociato delle funzionalità risultante ha 2.000.000 di bucket.

Formalmente, un incrocio è un prodotto cartesiano.

I cross di caratteristiche vengono utilizzati principalmente con i modelli lineari e raramente con le reti neurali.

Per saperne di più, consulta Dati categorici: combinazioni di caratteristiche in Machine Learning Crash Course.

e applicazione del feature engineering.

#fundamentals
#TensorFlow

Un processo che prevede i seguenti passaggi:

  1. Determinare quali caratteristiche potrebbero essere utili per l'addestramento di un modello.
  2. Conversione dei dati non elaborati del set di dati in versioni efficienti di queste caratteristiche.

Ad esempio, potresti determinare che temperature potrebbe essere una funzionalità utile. Poi, potresti sperimentare il raggruppamento per ottimizzare ciò che il modello può apprendere da diversi intervalli di temperature.

Il feature engineering è a volte chiamato estrazione delle funzionalità o featurizzazione.

Per saperne di più, consulta la sezione Dati numerici: come un modello acquisisce i dati utilizzando i vettori delle caratteristiche in Machine Learning Crash Course.

estrazione delle caratteristiche

Termine sovraccarico con una delle seguenti definizioni:

importanza delle caratteristiche

#df
#Metric

Sinonimo di importanza delle variabili.

set di funzionalità

#fundamentals

Il gruppo di funzionalità su cui viene addestrato il tuo modello di machine learning. Ad esempio, un semplice insieme di funzionalità per un modello che prevede i prezzi delle case potrebbe essere costituito da codice postale, dimensioni della proprietà e condizioni della proprietà.

specifiche della funzionalità

#TensorFlow

Descrive le informazioni necessarie per estrarre i dati delle funzionalità dal buffer di protocollo tf.Example. Poiché il buffer di protocollo tf.Example è solo un contenitore per i dati, devi specificare quanto segue:

  • I dati da estrarre (ovvero le chiavi delle funzionalità)
  • Il tipo di dati (ad esempio, float o int)
  • La lunghezza (fissa o variabile)

vettore di caratteristiche

#fundamentals

L'array di valori delle funzionalità che compongono un esempio. Il vettore di caratteristiche viene inserito durante l'addestramento e durante l'inferenza. Ad esempio, il vettore delle caratteristiche per un modello con due caratteristiche discrete potrebbe essere:

[0.92, 0.56]

Quattro livelli: uno di input, due nascosti e uno di output.
          Lo strato di input contiene due nodi, uno con il valore
          0,92 e l&#39;altro con il valore 0,56.

Ogni esempio fornisce valori diversi per il vettore delle caratteristiche, quindi il vettore delle caratteristiche per l'esempio successivo potrebbe essere simile a questo:

[0.73, 0.49]

Il feature engineering determina come rappresentare le caratteristiche nel vettore di caratteristiche. Ad esempio, una caratteristica categorica binaria con cinque valori possibili potrebbe essere rappresentata con codifica one-hot. In questo caso, la porzione del vettore delle caratteristiche per un particolare esempio sarebbe costituita da quattro zeri e un singolo 1.0 nella terza posizione, come segue:

[0.0, 0.0, 1.0, 0.0, 0.0]

Come altro esempio, supponiamo che il tuo modello sia composto da tre funzionalità:

  • una caratteristica categorica binaria con cinque valori possibili rappresentati con la codifica one-hot; ad esempio: [0.0, 1.0, 0.0, 0.0, 0.0]
  • un'altra caratteristica categorica binaria con tre valori possibili rappresentati con la codifica one-hot; ad esempio: [0.0, 0.0, 1.0]
  • una funzionalità in virgola mobile, ad esempio 8.3.

In questo caso, il vettore delle caratteristiche per ogni esempio sarebbe rappresentato da nove valori. Dati i valori di esempio nell'elenco precedente, il vettore delle funzionalità sarebbe:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

Per saperne di più, consulta la sezione Dati numerici: come un modello acquisisce i dati utilizzando i vettori delle caratteristiche in Machine Learning Crash Course.

featurizzazione

Il processo di estrazione delle caratteristiche da una fonte di input, come un documento o un video, e la mappatura di queste caratteristiche in un vettore di caratteristiche.

Alcuni esperti di ML utilizzano il termine "featurizzazione" come sinonimo di feature engineering o estrazione delle caratteristiche.

apprendimento federato

Un approccio di machine learning distribuito che addestra modelli di machine learning utilizzando esempi decentralizzati che risiedono su dispositivi come gli smartphone. Nell'apprendimento federato, un sottoinsieme di dispositivi scarica il modello attuale da un server di coordinamento centrale. I dispositivi utilizzano gli esempi memorizzati sui dispositivi per apportare miglioramenti al modello. I dispositivi caricano i miglioramenti del modello (ma non gli esempi di addestramento) sul server di coordinamento, dove vengono aggregati con altri aggiornamenti per ottenere un modello globale migliorato. Dopo l'aggregazione, gli aggiornamenti del modello calcolati dai dispositivi non sono più necessari e possono essere eliminati.

Poiché gli esempi di addestramento non vengono mai caricati, l'apprendimento federato segue i principi di privacy della raccolta mirata dei dati e della minimizzazione dei dati.

Per saperne di più, consulta il fumetto sull'apprendimento federato.

ciclo di feedback

#fundamentals

Nel machine learning, una situazione in cui le previsioni di un modello influenzano i dati di addestramento per lo stesso modello o per un altro modello. Ad esempio, un modello che consiglia film influenzerà i film che le persone vedono, il che influenzerà a sua volta i modelli di consigli sui film successivi.

Per saperne di più, consulta Sistemi ML di produzione: domande da porre in Machine Learning Crash Course.

rete neurale feed-forward (FFN)

Una rete neurale senza connessioni cicliche o ricorsive. Ad esempio, le reti neurali profonde tradizionali sono reti neurali feedforward. A differenza delle reti neurali ricorrenti, che sono cicliche.

apprendimento few-shot

Un approccio di machine learning, spesso utilizzato per la classificazione degli oggetti, progettato per addestrare modelli di classificazione efficaci a partire da un numero ridotto di esempi di addestramento.

Vedi anche apprendimento one-shot e apprendimento zero-shot.

prompting few-shot

#language
#generativeAI

Un prompt che contiene più di un esempio che dimostra come deve rispondere il modello linguistico di grandi dimensioni. Ad esempio, il seguente prompt lungo contiene due esempi che mostrano a un modello linguistico di grandi dimensioni come rispondere a una query.

Parti di un prompt Note
Qual è la valuta ufficiale del paese specificato? La domanda a cui vuoi che l'LLM risponda.
Francia: EUR Un esempio.
Regno Unito: GBP Un altro esempio.
India: La query effettiva.

Il prompting few-shot in genere produce risultati più desiderabili rispetto al prompting zero-shot e al prompting one-shot. Tuttavia, il prompt few-shot richiede un prompt più lungo.

Il prompt few-shot è una forma di apprendimento few-shot applicata all'apprendimento basato sui prompt.

Per saperne di più, consulta Prompt engineering in Machine Learning Crash Course.

Violino

#language

Una libreria di configurazione Python-first che imposta i valori di funzioni e classi senza codice o infrastruttura invasivi. Nel caso di Pax e di altre basi di codice ML, queste funzioni e classi rappresentano modelli e iperparametri di addestramento.

Fiddle presuppone che le codebase di machine learning siano in genere suddivise in:

  • Codice della libreria, che definisce i livelli e gli ottimizzatori.
  • Codice "collante" del set di dati, che chiama le librerie e collega tutto.

Fiddle acquisisce la struttura di chiamata del codice di collegamento in una forma non valutata e modificabile.

ottimizzazione

#language
#image
#generativeAI

Un secondo passaggio di addestramento specifico per l'attività eseguito su un modello preaddestrato per perfezionarne i parametri per un caso d'uso specifico. Ad esempio, la sequenza di addestramento completa per alcuni modelli linguistici di grandi dimensioni è la seguente:

  1. Preaddestramento:addestra un modello linguistico di grandi dimensioni su un vasto set di dati generici, come tutte le pagine di Wikipedia in lingua inglese.
  2. Ottimizzazione:addestra il modello preaddestrato a svolgere un'attività specifica, ad esempio rispondere a domande mediche. L'ottimizzazione in genere prevede centinaia o migliaia di esempi incentrati sull'attività specifica.

Un altro esempio è la sequenza di addestramento completa per un modello di immagini di grandi dimensioni:

  1. Preaddestramento:addestra un modello di immagini di grandi dimensioni su un vasto set di dati di immagini generiche, ad esempio tutte le immagini di Wikimedia Commons.
  2. Ottimizzazione:addestra il modello preaddestrato a svolgere un'attività specifica, come generare immagini di orche.

Il perfezionamento può comportare una qualsiasi combinazione delle seguenti strategie:

  • Modifica di tutti i parametri esistenti del modello preaddestrato. Questa operazione viene a volte chiamata ottimizzazione completa.
  • Modifica solo alcuni dei parametri esistenti del modello preaddestrato (in genere, i livelli più vicini al livello di output), mantenendo invariati gli altri parametri esistenti (in genere, i livelli più vicini al livello di input). Consulta la sezione Ottimizzazione efficiente dei parametri.
  • Aggiungendo altri livelli, in genere sopra i livelli esistenti più vicini al livello di output.

L'ottimizzazione è una forma di transfer learning. Pertanto, il fine-tuning potrebbe utilizzare una funzione di perdita o un tipo di modello diverso da quelli utilizzati per addestrare il modello preaddestrato. Ad esempio, potresti ottimizzare un modello di immagini di grandi dimensioni preaddestrato per produrre un modello di regressione che restituisca il numero di uccelli in un'immagine di input.

Confronta e contrapponi il fine-tuning con i seguenti termini:

Per saperne di più, consulta la sezione Ottimizzazione di Machine Learning Crash Course.

Modello flash

#generativeAI

Una famiglia di modelli Gemini relativamente piccoli ottimizzati per la velocità e la bassa latenza. I modelli Flash sono progettati per un'ampia gamma di applicazioni in cui risposte rapide e velocità effettiva elevata sono fondamentali.

Lino

#language

Una libreria open source ad alte prestazioni per il deep learning basata su JAX. Flax fornisce funzioni per l'addestramento delle reti neurali, nonché metodi per valutarne le prestazioni.

Flaxformer

#language

Una libreria Transformer open source, basata su Flax, progettata principalmente per l'elaborazione del linguaggio naturale e la ricerca multimodale.

forget gate

#seq

La parte di una cella Long Short-Term Memory che regola il flusso di informazioni attraverso la cella. I cancelli di dimenticanza mantengono il contesto decidendo quali informazioni scartare dallo stato della cella.

foundation model

#generativeAI
#Metric

Un modello preaddestrato molto grande addestrato su un set di addestramento enorme e diversificato. Un modello di base può svolgere entrambe le seguenti operazioni:

In altre parole, un modello di base è già molto efficace in senso generale, ma può essere ulteriormente personalizzato per diventare ancora più utile per un'attività specifica.

frazione di successi

#generativeAI
#Metric

Una metrica per valutare il testo generato di un modello ML. La frazione di successi è il numero di output di testo "riusciti" generati diviso per il numero totale di output di testo generati. Ad esempio, se un modello linguistico di grandi dimensioni ha generato 10 blocchi di codice, cinque dei quali sono stati eseguiti correttamente, la frazione di esecuzioni riuscite sarebbe del 50%.

Sebbene la frazione di successi sia ampiamente utile in tutta la statistica, all'interno del machine learning, questa metrica è utile principalmente per misurare attività verificabili come la generazione di codice o i problemi di matematica.

softmax completo

Sinonimo di softmax.

Contrasta con il campionamento dei candidati.

Per ulteriori informazioni, consulta Reti neurali: classificazione multiclasse in Machine Learning Crash Course.

strato completamente connesso

Uno strato nascosto in cui ogni nodo è connesso a ogni nodo dello strato nascosto successivo.

Uno strato completamente connesso è noto anche come strato denso.

trasformazione della funzione

Una funzione che accetta una funzione come input e restituisce una funzione trasformata come output. JAX utilizza le trasformazioni delle funzioni.

G

GAN

Abbreviazione di rete generativa avversaria.

Gemini

#language
#image
#generativeAI

L'ecosistema che comprende l'AI più avanzata di Google. Gli elementi di questo ecosistema includono:

  • Diversi modelli Gemini.
  • L'interfaccia conversazionale interattiva di un modello Gemini. Gli utenti digitano i prompt e Gemini risponde.
  • Varie API Gemini.
  • Vari prodotti aziendali basati sui modelli Gemini, ad esempio Gemini for Google Cloud.

Modelli Gemini

#language
#image
#generativeAI

Modelli multimodali all'avanguardia di Google basati su Transformer. I modelli Gemini sono progettati specificamente per l'integrazione con gli agenti.

Gli utenti possono interagire con i modelli Gemini in vari modi, ad esempio tramite un'interfaccia di dialogo interattiva e tramite SDK.

Gemma

#generativeAI

Una famiglia di modelli aperti leggeri creati sulla base della stessa ricerca e tecnologia utilizzata per creare i modelli Gemini. Sono disponibili diversi modelli Gemma, ognuno dei quali offre funzionalità diverse, come visione, codice e rispetto delle istruzioni. Per maggiori dettagli, vedi Gemma.

GenAI o genAI

#language
#image
#generativeAI

Abbreviazione di AI generativa.

generalizzazione

#fundamentals

La capacità di un modello di fare previsioni corrette su dati nuovi e mai visti. Un modello in grado di generalizzare è l'opposto di un modello che è overfitting.

Per saperne di più, consulta la sezione Generalizzazione di Machine Learning Crash Course.

curva di generalizzazione

#fundamentals

Un grafico della perdita di addestramento e della perdita di convalida in funzione del numero di iterazioni.

Una curva di generalizzazione può aiutarti a rilevare un possibile overfitting. Ad esempio, la seguente curva di generalizzazione suggerisce un overfitting perché la perdita di convalida alla fine diventa significativamente superiore alla perdita di addestramento.

Un grafico cartesiano in cui l&#39;asse Y è etichettato come perdita e l&#39;asse X
          è etichettato come iterazioni. Vengono visualizzati due grafici. Un grafico mostra la
          perdita di addestramento e l&#39;altro la perdita di convalida.
          I due grafici iniziano in modo simile, ma la perdita di addestramento alla fine
          scende molto più in basso della perdita di convalida.

Per saperne di più, consulta la sezione Generalizzazione di Machine Learning Crash Course.

modello lineare generalizzato

Una generalizzazione dei modelli di regressione dei minimi quadrati, che si basano sul rumore gaussiano, ad altri tipi di modelli basati su altri tipi di rumore, come il rumore di Poisson o il rumore categorico. Esempi di modelli lineari generalizzati includono:

I parametri di un modello lineare generalizzato possono essere trovati tramite ottimizzazione convessa.

I modelli lineari generalizzati presentano le seguenti proprietà:

  • La previsione media del modello di regressione dei minimi quadrati ottimale è uguale all'etichetta media nei dati di addestramento.
  • La probabilità media prevista dal modello di regressione logistica ottimale è uguale all'etichetta media nei dati di addestramento.

La potenza di un modello lineare generalizzato è limitata dalle sue caratteristiche. A differenza di un modello profondo, un modello lineare generalizzato non può "apprendere nuove caratteristiche".

testo generato

#language
#generativeAI

In generale, il testo generato da un modello ML. Quando si valutano modelli linguistici di grandi dimensioni, alcune metriche confrontano il testo generato con il testo di riferimento. Ad esempio, supponiamo che tu stia cercando di determinare l'efficacia con cui un modello ML traduce dal francese all'olandese. In questo caso:

  • Il testo generato è la traduzione in olandese restituita dal modello di ML.
  • Il testo di riferimento è la traduzione in olandese creata da un traduttore umano (o da un software).

Tieni presente che alcune strategie di valutazione non prevedono testo di riferimento.

rete avversaria generativa (GAN)

Un sistema per creare nuovi dati in cui un generatore crea dati e un discriminatore determina se i dati creati sono validi o non validi.

Per saperne di più, consulta il corso sulle reti generative avversariali.

AI generativa

#language
#image
#generativeAI

Un campo trasformativo emergente senza una definizione formale. Detto questo, la maggior parte degli esperti concorda sul fatto che i modelli di AI generativa possono creare ("generare") contenuti che siano tutti i seguenti:

  • complesso
  • coerente
  • originale

Esempi di AI generativa:

  • Modelli linguistici di grandi dimensioni (LLM), che possono generare testi originali sofisticati e rispondere alle domande.
  • Modello di generazione delle immagini, che può produrre immagini uniche.
  • Modelli di generazione di audio e musica, che possono comporre musica originale o generare un parlato realistico.
  • Modelli di generazione video, che possono generare video originali.

Anche alcune tecnologie precedenti, tra cui LSTM e RNN, possono generare contenuti originali e coerenti. Alcuni esperti considerano queste tecnologie precedenti come AI generativa, mentre altri ritengono che la vera AI generativa richieda un output più complesso di quello che possono produrre queste tecnologie precedenti.

Contrasto con il machine learning predittivo.

modello generativo

In termini pratici, un modello che esegue una delle seguenti operazioni:

  • Crea (genera) nuovi esempi dal set di dati di addestramento. Ad esempio, un modello generativo potrebbe creare poesie dopo l'addestramento su un set di dati di poesie. In questa categoria rientra la parte generatore di una rete generativa avversaria.
  • Determina la probabilità che un nuovo esempio provenga dal set di addestramento o sia stato creato dallo stesso meccanismo che ha creato il set di addestramento. Ad esempio, dopo l'addestramento su un set di dati costituito da frasi in inglese, un modello generativo potrebbe determinare la probabilità che un nuovo input sia una frase in inglese valida.

Un modello generativo può teoricamente discernere la distribuzione degli esempi o di caratteristiche particolari in un set di dati. Ossia:

p(examples)

I modelli di apprendimento non supervisionato sono generativi.

Contrasto con i modelli discriminativi.

generatore

Il sottosistema all'interno di una rete adversariale generativa che crea nuovi esempi.

Contrasta con il modello discriminativo.

Impurità di Gini

#df
#Metric

Una metrica simile all'entropia. Gli splitter utilizzano valori derivati dall'impurità di Gini o dall'entropia per comporre condizioni per gli alberi decisionali. L'information gain deriva dall'entropia. Non esiste un termine equivalente universalmente accettato per la metrica derivata dall'impurità di Gini; tuttavia, questa metrica senza nome è importante quanto l'information gain.

L'impurità di Gini è chiamata anche indice di Gini o semplicemente Gini.

set di dati di riferimento

Un insieme di dati curati manualmente che acquisiscono i dati di riferimento. I team possono utilizzare uno o più golden dataset per valutare la qualità di un modello.

Alcuni set di dati di riferimento acquisiscono diversi sottodomini di dati empirici reali. Ad esempio, un set di dati di riferimento per la classificazione delle immagini potrebbe acquisire le condizioni di illuminazione e la risoluzione delle immagini.

risposta d'oro

#language
#generativeAI

Una risposta nota per essere buona. Ad esempio, dato il seguente prompt:

2 + 2

La risposta ideale è:

4

Google AI Studio

Uno strumento Google che fornisce un'interfaccia intuitiva per sperimentare e creare applicazioni utilizzando i modelli linguistici di grandi dimensioni di Google. Per maggiori dettagli, consulta la home page di Google AI Studio.

GPT (Generative Pre-trained Transformer)

#language

Una famiglia di modelli linguistici di grandi dimensioni basati su Transformer sviluppati da OpenAI.

Le varianti GPT possono essere applicate a più modalità, tra cui:

  • generazione di immagini (ad esempio ImageGPT)
  • generazione di immagini da testo (ad esempio, DALL-E).

gradiente

Il vettore delle derivate parziali rispetto a tutte le variabili indipendenti. Nel machine learning, il gradiente è il vettore delle derivate parziali della funzione del modello. La pendenza indica la direzione di salita più ripida.

accumulo del gradiente

Una tecnica di retropropagazione che aggiorna i parametri solo una volta per epoca anziché una volta per iterazione. Dopo aver elaborato ogni mini-batch, l'accumulo del gradiente aggiorna semplicemente un totale parziale dei gradienti. Poi, dopo aver elaborato l'ultimo mini-batch dell'epoca, il sistema aggiorna finalmente i parametri in base al totale di tutte le modifiche ai gradienti.

L'accumulo del gradiente è utile quando la dimensione del batch è molto grande rispetto alla quantità di memoria disponibile per l'addestramento. Quando la memoria è un problema, la tendenza naturale è quella di ridurre la dimensione del batch. Tuttavia, la riduzione delle dimensioni del batch nella normale backpropagation aumenta il numero di aggiornamenti dei parametri. L'accumulo del gradiente consente al modello di evitare problemi di memoria, ma di eseguire comunque l'addestramento in modo efficiente.

alberi (decisionali) potenziati dal gradiente (GBT)

#df

Un tipo di foresta decisionale in cui:

Per ulteriori informazioni, consulta la sezione Gradient Boosted Decision Trees del corso Decision Forests.

gradient boosting

#df

Un algoritmo di addestramento in cui i modelli deboli vengono addestrati per migliorare iterativamente la qualità (ridurre la perdita) di un modello forte. Ad esempio, un modello debole potrebbe essere un modello lineare o un piccolo albero decisionale. Il modello forte diventa la somma di tutti i modelli deboli addestrati in precedenza.

Nella forma più semplice di gradient boosting, a ogni iterazione viene addestrato un modello debole per prevedere il gradiente di perdita del modello forte. Quindi, l'output del modello robusto viene aggiornato sottraendo il gradiente previsto, in modo simile alla discesa del gradiente.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

dove:

  • $F_{0}$ è il modello di partenza.
  • $F_{i+1}$ è il modello forte successivo.
  • $F_{i}$ è il modello forte attuale.
  • $\xi$ è un valore compreso tra 0,0 e 1,0 chiamato restringimento, che è analogo al tasso di apprendimento nella discesa del gradiente.
  • $f_{i}$ è il modello debole addestrato per prevedere il gradiente di perdita di $F_{i}$.

Le varianti moderne del gradient boosting includono anche la derivata seconda (Hessiana) della perdita nel calcolo.

Gli alberi decisionali vengono comunemente utilizzati come modelli deboli nel gradient boosting. Vedi alberi (decisionali) con boosting del gradiente.

taglio del gradiente

#seq

Un meccanismo comunemente utilizzato per mitigare il problema del gradiente esplosivo limitando artificialmente (clipping) il valore massimo dei gradienti quando si utilizza la discesa del gradiente per addestrare un modello.

discesa del gradiente

#fundamentals

Una tecnica matematica per ridurre al minimo la perdita. La discesa del gradiente regola in modo iterativo pesi e bias, trovando gradualmente la combinazione migliore per ridurre al minimo la perdita.

La discesa del gradiente è più vecchia, molto più vecchia, del machine learning.

Per saperne di più, consulta Regressione lineare: discesa del gradiente in Machine Learning Crash Course.

grafico

#TensorFlow

In TensorFlow, una specifica di calcolo. I nodi del grafico rappresentano le operazioni. I bordi sono diretti e rappresentano il passaggio del risultato di un'operazione (un Tensor) come operando a un'altra operazione. Utilizza TensorBoard per visualizzare un grafico.

esecuzione del grafo

#TensorFlow

Un ambiente di programmazione TensorFlow in cui il programma prima costruisce un grafo e poi esegue tutto o parte di questo grafo. L'esecuzione del grafico è la modalità di esecuzione predefinita in TensorFlow 1.x.

Contrasto con l'esecuzione eager.

greedy policy

#rl

Nell'apprendimento per rinforzo, una policy che sceglie sempre l'azione con il rendimento previsto più elevato.

fondatezza

Una proprietà di un modello il cui output si basa su (è "fondato su") materiale di origine specifico. Ad esempio, supponiamo di fornire un intero libro di testo di fisica come input ("contesto") a un modello linguistico di grandi dimensioni. Poi, chiedi al modello linguistico di grandi dimensioni di rispondere a una domanda di fisica. Se la risposta del modello riflette le informazioni contenute nel libro di testo, il modello è basato su quel libro di testo.

Tieni presente che un modello basato su dati reali non è sempre un modello fattuale. Ad esempio, il libro di testo di fisica inserito potrebbe contenere errori.

dati di fatto

#fundamentals

Realtà.

La cosa che è effettivamente accaduta.

Ad esempio, considera un modello di classificazione binaria che prevede se uno studente al primo anno di università si laureerà entro sei anni. I dati di riferimento per questo modello sono se lo studente si è effettivamente laureato entro sei anni.

bias di attribuzione di gruppo

#responsible

Supporre che ciò che è vero per un individuo sia vero anche per tutti i membri del gruppo. Gli effetti del bias di attribuzione di gruppo possono essere esacerbati se per la raccolta dei dati viene utilizzato un campionamento di convenienza. In un campione non rappresentativo, le attribuzioni potrebbero non riflettere la realtà.

Vedi anche bias di omogeneità del gruppo esterno e bias di affinità. Per ulteriori informazioni, consulta anche Equità: tipi di bias in Machine Learning Crash Course.

H

allucinazione

#language

La produzione di output apparentemente plausibili ma errati dal punto di vista dei fatti da parte di un modello di AI generativa che dichiara di fare un'affermazione sul mondo reale. Ad esempio, un modello di AI generativa che afferma che Barack Obama è morto nel 1865 sta allucinando.

hashing

Nel machine learning, un meccanismo per raggruppare dati categorici, in particolare quando il numero di categorie è elevato, ma il numero di categorie effettivamente presenti nel set di dati è relativamente piccolo.

Ad esempio, sulla Terra esistono circa 73.000 specie di alberi. Potresti rappresentare ciascuna delle 73.000 specie di alberi in 73.000 bucket categorici separati. In alternativa, se in un set di dati compaiono solo 200 di queste specie di alberi, puoi utilizzare l'hashing per dividere le specie di alberi in 500 bucket.

Un singolo bucket potrebbe contenere più specie di alberi. Ad esempio, l'hashing potrebbe inserire baobab e acero rosso, due specie geneticamente diverse, nello stesso bucket. In ogni caso, l'hashing è ancora un buon modo per mappare grandi insiemi categorici nel numero selezionato di bucket. L'hashing trasforma una caratteristica categorica con un numero elevato di valori possibili in un numero molto inferiore di valori raggruppandoli in modo deterministico.

Per saperne di più, consulta Dati categorici: vocabolario e codifica one-hot in Machine Learning Crash Course.

euristica

Una soluzione semplice e rapida da implementare a un problema. Ad esempio, "Con un'euristica, abbiamo raggiunto una precisione dell'86%. Quando siamo passati a una rete neurale profonda, l'accuratezza è salita al 98%".

strato nascosto

#fundamentals

Un livello in una rete neurale tra il livello di input (le funzionalità) e il livello di output (la previsione). Ogni livello nascosto è costituito da uno o più neuroni. Ad esempio, la seguente rete neurale contiene due strati nascosti, il primo con tre neuroni e il secondo con due neuroni:

Quattro strati. Il primo livello è un livello di input contenente due
          caratteristiche. Il secondo strato è uno strato nascosto contenente tre
          neuroni. Il terzo strato è uno strato nascosto contenente due
          neuroni. Il quarto strato è uno strato di output. Ogni funzionalità
          contiene tre bordi, ognuno dei quali punta a un neurone diverso
          nel secondo livello. Ciascuno dei neuroni del secondo strato
          contiene due archi, ognuno dei quali punta a un neurone diverso
          nel terzo strato. Ciascuno dei neuroni del terzo strato contiene
          un arco, ciascuno dei quali punta allo strato di output.

Una rete neurale profonda contiene più di uno strato nascosto. Ad esempio, l'illustrazione precedente è una rete neurale profonda perché il modello contiene due livelli nascosti.

Per saperne di più, consulta la sezione Reti neurali: nodi e livelli nascosti di Machine Learning Crash Course.

clustering gerarchico

#clustering

Una categoria di algoritmi di clustering che creano un albero di cluster. Il clustering gerarchico è adatto ai dati gerarchici, come le tassonomie botaniche. Esistono due tipi di algoritmi di clustering gerarchico:

  • Il clustering agglomerativo assegna innanzitutto ogni esempio al proprio cluster e unisce in modo iterativo i cluster più vicini per creare un albero gerarchico.
  • Il clustering divisivo raggruppa prima tutti gli esempi in un unico cluster e poi divide iterativamente il cluster in un albero gerarchico.

Contrasto con il clustering basato sui centroidi.

Per saperne di più, consulta la sezione Algoritmi di clustering del corso Clustering.

hill climbing

Un algoritmo per migliorare in modo iterativo ("salire una collina") un modello ML finché il modello smette di migliorare ("raggiunge la cima di una collina"). La forma generale dell'algoritmo è la seguente:

  1. Crea un modello iniziale.
  2. Crea nuovi modelli candidati apportando piccoli aggiustamenti al modo in cui addestri o ottimizzi. Ciò potrebbe comportare l'utilizzo di un set di addestramento leggermente diverso o di iperparametri diversi.
  3. Valuta i nuovi modelli candidati ed esegui una delle azioni seguenti:
    • Se un modello candidato supera il modello iniziale, questo diventa il nuovo modello iniziale. In questo caso, ripeti i passaggi 1, 2 e 3.
    • Se nessun modello supera il modello iniziale, hai raggiunto la cima della collina e devi interrompere l'iterazione.

Consulta il Deep Learning Tuning Playbook per indicazioni sull'ottimizzazione degli iperparametri. Consulta i moduli sui dati di Machine Learning Crash Course per indicazioni sul feature engineering.

perdita hinge

#Metric

Una famiglia di funzioni di perdita per la classificazione progettate per trovare il limite decisionale il più lontano possibile da ogni esempio di addestramento, massimizzando così il margine tra gli esempi e il limite. Le SVM del kernel utilizzano la perdita hinge (o una funzione correlata, come la perdita hinge al quadrato). Per la classificazione binaria, la funzione di perdita hinge è definita come segue:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

dove y è l'etichetta reale, -1 o +1, e y' è l'output non elaborato del modello di classificazione:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Di conseguenza, un grafico della perdita hinge rispetto a (y * y') ha il seguente aspetto:

Un grafico cartesiano costituito da due segmenti di retta uniti. Il primo
          segmento di retta inizia in (-3, 4) e termina in (1, 0). Il secondo segmento
          inizia in corrispondenza di (1, 0) e continua all&#39;infinito con una pendenza
          pari a 0.

bias storico

#responsible

Un tipo di bias che esiste già nel mondo e che è entrato a far parte di un set di dati. Questi bias tendono a riflettere stereotipi culturali, disuguaglianze demografiche e pregiudizi esistenti nei confronti di determinati gruppi sociali.

Ad esempio, considera un modello di classificazione che prevede se un richiedente prestito non sarà in grado di restituire il prestito, che è stato addestrato su dati storici di insolvenza dei prestiti degli anni '80 di banche locali in due comunità diverse. Se i candidati precedenti della community A avevano una probabilità sei volte maggiore di non pagare i propri prestiti rispetto ai candidati della community B, il modello potrebbe apprendere un bias storico che lo porterebbe a essere meno propenso ad approvare prestiti nella community A, anche se le condizioni storiche che hanno portato a tassi di insolvenza più elevati in questa community non fossero più pertinenti.

Per saperne di più, consulta Equità: tipi di bias in Machine Learning Crash Course.

dati holdout

Esempi non utilizzati intenzionalmente ("tenuti in disparte") durante l'addestramento. Il set di dati di convalida e il set di dati di test sono esempi di dati di holdout. I dati di holdout consentono di valutare la capacità del modello di generalizzare i dati diversi da quelli su cui è stato addestrato. La perdita sul set di test fornisce una stima migliore della perdita su un set di dati invisibile rispetto alla perdita sul set di addestramento.

host

#TensorFlow
#GoogleCloud

Quando addestri un modello di ML su chip acceleratori (GPU o TPU), la parte del sistema che controlla entrambi gli elementi seguenti:

  • Il flusso generale del codice.
  • L'estrazione e la trasformazione della pipeline di input.

L'host viene in genere eseguito su una CPU, non su un chip acceleratore; il dispositivo manipola i tensori sui chip acceleratori.

valutazione umana

#language
#generativeAI

Un processo in cui persone giudicano la qualità dell'output di un modello ML; ad esempio, persone bilingue giudicano la qualità di un modello di traduzione ML. La valutazione umana è particolarmente utile per giudicare i modelli che non hanno una sola risposta corretta.

Contrasta con la valutazione automatica e la valutazione del sistema di valutazione automatico.

human-in-the-loop (HITL)

#generativeAI

Un'espressione idiomatica definita in modo generico che potrebbe significare una delle seguenti opzioni:

  • Una policy di visualizzazione dell'output dell'AI generativa in modo critico o scettico. Ad esempio, le persone che scrivono questo glossario di ML sono stupite di ciò che i modelli linguistici di grandi dimensioni possono fare, ma sono consapevoli degli errori che commettono.
  • Una strategia o un sistema per garantire che le persone contribuiscano a modellare, valutare e perfezionare il comportamento di un modello. Mantenere un essere umano nel ciclo consente a un'AI di trarre vantaggio sia dall'intelligenza artificiale sia da quella umana. Ad esempio, un sistema in cui un'AI genera codice che viene poi esaminato dagli ingegneri informatici è un sistema human-in-the-loop.

iperparametro

#fundamentals

Le variabili che tu o un servizio di ottimizzazione degli iperparametri regolate durante le esecuzioni successive dell'addestramento di un modello. Ad esempio, il tasso di apprendimento è un iperparametro. Potresti impostare il tasso di apprendimento su 0,01 prima di una sessione di addestramento. Se determini che 0,01 è troppo alto, potresti impostare il tasso di apprendimento su 0,003 per la sessione di addestramento successiva.

Al contrario, i parametri sono i vari pesi e bias che il modello apprende durante l'addestramento.

Per saperne di più, consulta Regressione lineare: iperparametri in Machine Learning Crash Course.

iperpiano

Un confine che separa uno spazio in due sottospazi. Ad esempio, una retta è un iperpiano in due dimensioni e un piano è un iperpiano in tre dimensioni. Più tipicamente nel machine learning, un iperpiano è il confine che separa uno spazio di dimensioni elevate. Le macchine a vettori di supporto del kernel utilizzano iperpiani per separare le classi positive da quelle negative, spesso in uno spazio molto dimensionale.

I

i.i.d.

Abbreviazione di indipendentemente e identicamente distribuito.

riconoscimento immagini

#image

Un processo che classifica oggetti, pattern o concetti in un'immagine. Il riconoscimento delle immagini è noto anche come classificazione delle immagini.

Per saperne di più, consulta ML Practicum: Image Classification.

Per saperne di più, consulta il corso ML Practicum: classificazione delle immagini.

set di dati sbilanciato

Sinonimo di set di dati sbilanciato.

bias implicito

#responsible

Creare automaticamente un'associazione o un'ipotesi in base ai propri modelli mentali e ricordi. Il bias implicito può influire su quanto segue:

  • Come vengono raccolti e classificati i dati.
  • Come vengono progettati e sviluppati i sistemi di machine learning.

Ad esempio, quando crea un modello di classificazione per identificare le foto di matrimoni, un ingegnere può utilizzare la presenza di un abito bianco in una foto come funzionalità. Tuttavia, gli abiti bianchi sono stati consueti solo durante determinate epoche e in determinate culture.

Vedi anche bias di conferma.

imputazione

Abbreviazione di imputazione del valore.

incompatibilità delle metriche di equità

#responsible
#Metric

L'idea che alcune nozioni di equità siano reciprocamente incompatibili e non possano essere soddisfatte contemporaneamente. Di conseguenza, non esiste un'unica metrica universale per quantificare l'equità che possa essere applicata a tutti i problemi di ML.

Sebbene possa sembrare scoraggiante, l'incompatibilità delle metriche di equità non implica che gli sforzi per l'equità siano inutili. Suggerisce invece che l'equità deve essere definita in modo contestuale per un determinato problema di ML, con l'obiettivo di prevenire danni specifici per i suoi casi d'uso.

Per una discussione più dettagliata sull'incompatibilità delle metriche di equità, consulta la sezione "On the (im)possibility of fairness".

apprendimento in-context

#language
#generativeAI

Sinonimo di prompt few-shot.

indipendenti e identicamente distribuiti (i.i.d.)

#fundamentals

Dati estratti da una distribuzione che non cambia e in cui ogni valore estratto non dipende dai valori estratti in precedenza. Una distribuzione i.i.d. è il gas ideale del machine learning, un costrutto matematico utile ma quasi mai trovato esattamente nel mondo reale. Ad esempio, la distribuzione dei visitatori di una pagina web potrebbe essere i.i.d. in un breve periodo di tempo, ovvero la distribuzione non cambia durante questo breve periodo e la visita di una persona è generalmente indipendente da quella di un'altra. Tuttavia, se espandi questo periodo di tempo, potrebbero comparire differenze stagionali nei visitatori della pagina web.

Vedi anche non stazionarietà.

equità individuale

#responsible
#Metric

Una metrica di equità che controlla se individui simili vengono classificati in modo simile. Ad esempio, l'Accademia di Brobdingnag potrebbe voler soddisfare l'equità individuale garantendo che due studenti con voti identici e punteggi dei test standardizzati abbiano la stessa probabilità di essere ammessi.

Tieni presente che l'equità individuale dipende interamente da come definisci la"somiglianza" (in questo caso, voti e punteggi dei test) e puoi rischiare di introdurre nuovi problemi di equità se la metrica di somiglianza non tiene conto di informazioni importanti (come il rigore del curriculum di uno studente).

Per una discussione più dettagliata dell'equità individuale, consulta la sezione "Equità attraverso la consapevolezza".

inferenza

#fundamentals
#generativeAI

Nel machine learning tradizionale, il processo di fare previsioni applicando un modello addestrato a esempi non etichettati. Per saperne di più, consulta Apprendimento supervisionato nel corso Introduzione al machine learning.

Nei modelli linguistici di grandi dimensioni (LLM), l'inferenza è il processo di utilizzo di un modello addestrato per generare output, ad esempio la risposta di testo a un prompt di input.

L'inferenza ha un significato leggermente diverso in statistica. Per maggiori dettagli, consulta l' articolo di Wikipedia sull'inferenza statistica.

percorso di inferenza

#df

In un albero decisionale, durante l'inferenza, il percorso che un particolare esempio segue dalla radice ad altre condizioni, terminando con una foglia. Ad esempio, nel seguente albero decisionale, le frecce più spesse mostrano il percorso di inferenza per un esempio con i seguenti valori delle funzionalità:

  • x = 7
  • y = 12
  • z = -3

Il percorso di inferenza nella seguente illustrazione passa attraverso tre condizioni prima di raggiungere la foglia (Zeta).

Un albero decisionale composto da quattro condizioni e cinque foglie.
          La condizione principale è (x > 0). Poiché la risposta è Sì, il
          percorso di inferenza va dalla radice alla condizione successiva (y > 0).
          Poiché la risposta è Sì, il percorso di inferenza passa alla
          condizione successiva (z > 0). Poiché la risposta è No, il percorso di inferenza
          raggiunge il nodo terminale, ovvero la foglia (Zeta).

Le tre frecce spesse mostrano il percorso di inferenza.

Per ulteriori informazioni, consulta la sezione Alberi decisionali del corso Decision Forests.

guadagno di informazioni

#df
#Metric

Nelle foreste di decisioni, la differenza tra l'entropia di un nodo e la somma ponderata (in base al numero di esempi) dell'entropia dei relativi nodi secondari. L'entropia di un nodo è l'entropia degli esempi in quel nodo.

Ad esempio, considera i seguenti valori di entropia:

  • entropia del nodo principale = 0,6
  • entropia di un nodo secondario con 16 esempi pertinenti = 0,2
  • entropia di un altro nodo secondario con 24 esempi pertinenti = 0,1

Pertanto, il 40% degli esempi si trova in un nodo secondario e il 60% nell'altro nodo secondario. Pertanto:

  • somma dell'entropia ponderata dei nodi secondari = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Pertanto, l'information gain è:

  • guadagno di informazioni = entropia del nodo principale - somma ponderata dell'entropia dei nodi secondari
  • information gain = 0,6 - 0,14 = 0,46

La maggior parte degli splitter cerca di creare condizioni che massimizzino l'acquisizione di informazioni.

bias di affinità

#responsible

Mostrare parzialità nei confronti del proprio gruppo o delle proprie caratteristiche. Se i tester o i valutatori sono amici, familiari o colleghi dello sviluppatore di machine learning, il bias di gruppo potrebbe invalidare il test del prodotto o il set di dati.

Il bias di affinità è una forma di bias di attribuzione di gruppo. Vedi anche bias di omogeneità del gruppo esterno.

Per saperne di più, consulta Equità: tipi di bias in Machine Learning Crash Course.

generatore di input

Un meccanismo mediante il quale i dati vengono caricati in una rete neurale.

Un generatore di input può essere considerato un componente responsabile dell'elaborazione dei dati non elaborati in tensori che vengono iterati per generare batch per addestramento, valutazione e inferenza.

livello di input

#fundamentals

Lo strato di una rete neurale che contiene il vettore di caratteristiche. ovvero il livello di input fornisce esempi per l'addestramento o l'inferenza. Ad esempio, il livello di input nella seguente rete neurale è costituito da due funzionalità:

Quattro strati: uno di input, due nascosti e uno di output.

in-set condition

#df

In un albero decisionale, una condizione che verifica la presenza di un elemento in un insieme di elementi. Ad esempio, la seguente è una condizione in-set:

  house-style in [tudor, colonial, cape]

Durante l'inferenza, se il valore della funzionalità dello stile della casa è tudor, colonial o cape, questa condizione restituisce Sì. Se il valore della funzionalità di stile della casa è un altro (ad esempio, ranch), questa condizione restituisce No.

Le condizioni in-set di solito portano ad alberi decisionali più efficienti rispetto alle condizioni che testano le funzionalità codificate one-hot.

istanza

Sinonimo di esempio.

ottimizzazione delle istruzioni

#generativeAI

Una forma di ottimizzazione che migliora la capacità di un modello di AI generativa di seguire le istruzioni. L'ottimizzazione delle istruzioni prevede l'addestramento di un modello su una serie di prompt di istruzioni, in genere relativi a un'ampia gamma di attività. Il modello ottimizzato per le istruzioni risultante tende quindi a generare risposte utili a prompt zero-shot in una serie di attività.

Confrontare e contrapporre con:

interpretabilità

#fundamentals

La capacità di spiegare o presentare il ragionamento di un modello di ML in termini comprensibili per un essere umano.

La maggior parte dei modelli di regressione lineare, ad esempio, sono altamente interpretabili. Basta controllare i pesi dell'addestramento di ogni caratteristica. Anche le foreste decisionali sono altamente interpretabili. Alcuni modelli, tuttavia, richiedono una visualizzazione sofisticata per poter essere interpretati.

Puoi utilizzare lo strumento di interpretabilità dell'apprendimento (LIT) per interpretare i modelli ML.

accordo tra valutatori

#Metric

Una misura della frequenza con cui i valutatori umani sono d'accordo durante l'esecuzione di un'attività. Se i valutatori non sono d'accordo, potrebbe essere necessario migliorare le istruzioni dell'attività. A volte viene chiamato anche accordo tra annotatori o affidabilità tra valutatori. Vedi anche Kappa di Cohen, una delle misure di concordanza inter-rater più utilizzate.

Per saperne di più, consulta Dati categorici: problemi comuni in Machine Learning Crash Course.

Intersection over Union (IoU)

#image

L'intersezione di due insiemi divisa per la loro unione. Nelle attività di rilevamento delle immagini di machine learning, l'indice di Jaccard (IoU) viene utilizzato per misurare l'accuratezza del riquadro di delimitazione previsto dal modello rispetto al riquadro di delimitazione dei dati empirici reali. In questo caso, l'IoU per i due riquadri è il rapporto tra l'area di sovrapposizione e l'area totale e il suo valore varia da 0 (nessuna sovrapposizione del riquadro di delimitazione previsto e del riquadro di delimitazione dei dati empirici reali) a 1 (il riquadro di delimitazione previsto e il riquadro di delimitazione dei dati empirici reali hanno le stesse coordinate).

Ad esempio, nell'immagine seguente:

  • Il riquadro di delimitazione previsto (le coordinate che delimitano la posizione in cui il modello prevede che si trovi il comodino nel dipinto) è delineato in viola.
  • Il riquadro di selezione dei dati empirici reali (le coordinate che delimitano la posizione effettiva del comodino nel dipinto) è evidenziato in verde.

Il dipinto di Van Gogh La camera da letto di Vincent ad Arles, con due diversi
          riquadri di selezione intorno al comodino accanto al letto. Il riquadro di delimitazione
          dei dati empirici reali (in verde) circoscrive perfettamente il comodino. Il
          rettangolo di selezione previsto (in viola) è spostato del 50% verso il basso e verso destra
          del rettangolo di selezione ground truth; racchiude il quarto in basso a destra
          del comodino, ma manca il resto del tavolo.

In questo caso, l'intersezione dei riquadri di delimitazione per la previsione e i dati empirici reali (in basso a sinistra) è 1 e l'unione dei riquadri di delimitazione per la previsione e i dati empirici reali (in basso a destra) è 7, quindi l'IoU è \(\frac{1}{7}\).

La stessa immagine di sopra, ma con ogni riquadro di delimitazione diviso in quattro
          quadranti. Ci sono sette quadranti in totale, poiché il quadrante in basso a destra del riquadro di delimitazione dei dati empirici reali e il quadrante in alto a sinistra del riquadro di delimitazione previsto si sovrappongono. Questa
          sezione sovrapposta (evidenziata in verde) rappresenta l&#39;intersezione e ha un&#39;area di 1. La stessa immagine di sopra, ma con ogni riquadro di delimitazione diviso in quattro
          quadranti. Ci sono sette quadranti in totale, poiché il quadrante in basso a destra del riquadro di delimitazione dei dati empirici reali e il quadrante in alto a sinistra del riquadro di delimitazione previsto si sovrappongono.
          L&#39;intero interno racchiuso da entrambi i rettangoli di selezione
          (evidenziato in verde) rappresenta l&#39;unione e ha
          un&#39;area di 7.

IoU

Abbreviazione di Intersection over Union.

matrice degli elementi

#recsystems

Nei sistemi di suggerimenti, una matrice di vettori di incorporamento generati dalla fattorizzazione matriciale che contiene indicatori latenti su ogni elemento. Ogni riga della matrice degli articoli contiene il valore di una singola funzionalità latente per tutti gli articoli. Ad esempio, considera un sistema di consigli sui film. Ogni colonna della matrice degli elementi rappresenta un singolo film. I segnali latenti potrebbero rappresentare generi o essere segnali più difficili da interpretare che coinvolgono interazioni complesse tra genere, stelle, età del film o altri fattori.

La matrice degli elementi ha lo stesso numero di colonne della matrice di destinazione che viene fattorizzata. Ad esempio, dato un sistema di consigli sui film che valuta 10.000 titoli di film, la matrice degli elementi avrà 10.000 colonne.

elementi

#recsystems

In un sistema di consigli, le entità che un sistema consiglia. Ad esempio, i video sono gli articoli consigliati da un negozio di video, mentre i libri sono gli articoli consigliati da una libreria.

iteration

#fundamentals

Un singolo aggiornamento dei parametri di un modello, ovvero i pesi e i bias del modello, durante l'addestramento. La dimensione del batch determina il numero di esempi che il modello elabora in una singola iterazione. Ad esempio, se la dimensione del batch è 20, il modello elabora 20 esempi prima di regolare i parametri.

Quando addestri una rete neurale, una singola iterazione comporta i seguenti due passaggi:

  1. Un passaggio in avanti per valutare la perdita su un singolo batch.
  2. Un passaggio all'indietro (retropropagazione) per regolare i parametri del modello in base alla perdita e al tasso di apprendimento.

Per saperne di più, consulta la sezione Discesa del gradiente in Machine Learning Crash Course.

J

JAX

Una libreria di calcolo di array che riunisce XLA (Accelerated Linear Algebra) e la differenziazione automatica per il calcolo numerico ad alte prestazioni. JAX fornisce un'API semplice e potente per scrivere codice numerico accelerato con trasformazioni componibili. JAX fornisce funzionalità come:

  • grad (differenziazione automatica)
  • jit (compilazione just-in-time)
  • vmap (vettorializzazione automatica o batch)
  • pmap (parallelizzazione)

JAX è un linguaggio per esprimere e comporre trasformazioni di codice numerico, analogo, ma molto più ampio, alla libreria NumPy di Python. Infatti, la libreria .numpy in JAX è una versione funzionalmente equivalente, ma completamente riscritta, della libreria Python NumPy.

JAX è particolarmente adatto per velocizzare molte attività di machine learning trasformando i modelli e i dati in una forma adatta al parallelismo tra GPU e chip di accelerazione TPU.

Flax, Optax, Pax e molte altre librerie sono basate sull'infrastruttura JAX.

K

Keras

Un'API Python per il machine learning molto diffusa. Keras viene eseguito su diversi framework di deep learning, tra cui TensorFlow, dove è disponibile come tf.keras.

Macchine vettoriali di supporto del kernel (KSVM)

Un algoritmo di classificazione che cerca di massimizzare il margine tra classi positive e negative mappando i vettori di dati di input in uno spazio di dimensioni superiori. Ad esempio, considera un problema di classificazione in cui il set di dati di input ha cento caratteristiche. Per massimizzare il margine tra le classi positive e negative, un KSVM potrebbe mappare internamente queste funzionalità in uno spazio di un milione di dimensioni. KSVM utilizza una funzione di perdita chiamata hinge loss.

keypoint

#image

Le coordinate di caratteristiche particolari in un'immagine. Ad esempio, per un modello di riconoscimento delle immagini che distingue le specie di fiori, i punti chiave potrebbero essere il centro di ogni petalo, lo stelo, lo stame e così via.

Convalida incrociata k-fold

Un algoritmo per prevedere la capacità di un modello di generalizzare in base a nuovi dati. La k nella convalida incrociata k-fold si riferisce al numero di gruppi uguali in cui dividi gli esempi di un set di dati, ovvero addestri e testi il modello k volte. Per ogni ciclo di addestramento e test, un gruppo diverso costituisce il set di test e tutti i gruppi rimanenti diventano il set di addestramento. Dopo k cicli di addestramento e test, calcoli la media e la deviazione standard delle metriche di test scelte.

Ad esempio, supponiamo che il tuo set di dati sia composto da 120 esempi. Supponiamo inoltre di impostare k su 4. Pertanto, dopo aver mischiato gli esempi, dividi il set di dati in quattro gruppi uguali di 30 esempi ed esegui quattro round di addestramento e test:

Un set di dati suddiviso in quattro gruppi uguali di esempi. Nel round 1,
          i primi tre gruppi vengono utilizzati per l&#39;addestramento e l&#39;ultimo gruppo
          viene utilizzato per il test. Nel round 2, i primi due gruppi e l&#39;ultimo
          vengono utilizzati per l&#39;addestramento, mentre il terzo gruppo viene utilizzato per
          il test. Nel round 3, il primo gruppo e gli ultimi due gruppi vengono
          utilizzati per l&#39;addestramento, mentre il secondo gruppo viene utilizzato per il test.
          Nel round 4, il primo gruppo viene utilizzato per i test, mentre gli ultimi
          tre gruppi vengono utilizzati per l&#39;addestramento.

Ad esempio, l'errore quadratico medio (MSE) potrebbe essere la metrica più significativa per un modello di regressione lineare. Pertanto, troverai la media e la deviazione standard dell'MSE in tutti e quattro i round.

K-means

#clustering

Un algoritmo di clustering popolare che raggruppa gli esempi nell'apprendimento non supervisionato. L'algoritmo k-means esegue le seguenti operazioni:

  • Determina in modo iterativo i migliori punti centrali k (noti come centroidi).
  • Assegna ogni esempio al centroide più vicino. Gli esempi più vicini allo stesso centroide appartengono allo stesso gruppo.

L'algoritmo k-means sceglie le posizioni dei centroidi per ridurre al minimo il quadrato cumulativo delle distanze di ogni esempio dal centroide più vicino.

Ad esempio, considera il seguente grafico dell'altezza rispetto alla larghezza dei cani:

Un grafico cartesiano con diverse decine di punti dati.

Se k=3, l'algoritmo k-means determinerà tre centroidi. Ogni esempio viene assegnato al centroide più vicino, generando tre gruppi:

Lo stesso grafico cartesiano dell&#39;illustrazione precedente, tranne
          che con tre centroidi aggiunti.
          I punti dati precedenti sono raggruppati in tre gruppi distinti,
          e ogni gruppo rappresenta i punti dati più vicini a un particolare
          centroide.

Immagina che un produttore voglia determinare le taglie ideali per i maglioni per cani small, medium e large. I tre centroidi identificano l'altezza media e la larghezza media di ogni cane nel cluster. Pertanto, il produttore probabilmente dovrebbe basare le taglie dei maglioni su questi tre centroidi. Tieni presente che il centroide di un cluster in genere non è un esempio nel cluster.

Le illustrazioni precedenti mostrano k-means per esempi con solo due caratteristiche (altezza e larghezza). Tieni presente che k-means può raggruppare gli esempi in base a molte caratteristiche.

Per saperne di più, consulta la sezione Che cos'è il clustering K-means? nel corso Clustering.

k-mediana

#clustering

Un algoritmo di clustering strettamente correlato a K-means. La differenza pratica tra le due è la seguente:

  • Nell'algoritmo k-means, i centroidi vengono determinati riducendo al minimo la somma dei quadrati della distanza tra un candidato centroide e ciascuno dei suoi esempi.
  • In k-medie, i centroidi vengono determinati riducendo al minimo la somma della distanza tra un candidato centroide e ciascuno dei suoi esempi.

Tieni presente che anche le definizioni di distanza sono diverse:

  • L'algoritmo k-means si basa sulla distanza euclidea dal centroide a un esempio. In due dimensioni, la distanza euclidea significa utilizzare il teorema di Pitagora per calcolare l'ipotenusa. Ad esempio, la distanza k-means tra (2,2) e (5,-2) sarebbe:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k-medie si basa sulla distanza di Manhattan dal centroide a un esempio. Questa distanza è la somma dei delta assoluti in ogni dimensione. Ad esempio, la distanza k-mediana tra (2,2) e (5,-2) sarebbe:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

Regolarizzazione L0

#fundamentals

Un tipo di regolarizzazione che penalizza il numero totale di pesi diversi da zero in un modello. Ad esempio, un modello con 11 pesi diversi da zero verrebbe penalizzato più di un modello simile con 10 pesi diversi da zero.

La regolarizzazione L0 a volte viene chiamata regolarizzazione della norma L0.

Perdita L1

#fundamentals
#Metric

Una funzione di perdita che calcola il valore assoluto della differenza tra i valori effettivi dell'etichetta e i valori previsti da un modello. Ad esempio, ecco il calcolo della perdita L1 per un batch di cinque esempi:

Valore effettivo dell'esempio Valore previsto del modello Valore assoluto del delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = L1 loss

La perdita L1 è meno sensibile ai valori anomali rispetto alla perdita L2.

L'errore assoluto medio è la perdita L1 media per esempio.

Per saperne di più, consulta Regressione lineare: perdita in Machine Learning Crash Course.

Regolarizzazione L1

#fundamentals

Un tipo di regolarizzazione che penalizza i pesi in proporzione alla somma del valore assoluto dei pesi. La regolarizzazione L1 contribuisce a portare i pesi delle caratteristiche irrilevanti o appena rilevanti a esattamente 0. Una caratteristica con un peso pari a 0 viene effettivamente rimossa dal modello.

Contrasto con la regolarizzazione L2.

Perdita L2

#fundamentals
#Metric

Una funzione di perdita che calcola il quadrato della differenza tra i valori effettivi dell'etichetta e i valori previsti da un modello. Ad esempio, ecco il calcolo della perdita L2 per un batch di cinque esempi:

Valore effettivo dell'esempio Valore previsto del modello Quadrato del delta
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = L2 loss

A causa dell'elevazione al quadrato, la perdita L2 amplifica l'influenza degli outlier. ovvero la perdita L2 reagisce più fortemente alle previsioni errate rispetto alla perdita L1. Ad esempio, la perdita L1 per il batch precedente sarebbe 8 anziché 16. Nota che un singolo valore anomalo rappresenta 9 dei 16.

I modelli di regressione in genere utilizzano la perdita L2 come funzione di perdita.

L'errore quadratico medio è la perdita L2 media per esempio. Perdita quadratica è un altro nome per la perdita L2.

Per saperne di più, consulta la sezione Regressione logistica: perdita e regolarizzazione di Machine Learning Crash Course.

Regolarizzazione L2

#fundamentals

Un tipo di regolarizzazione che penalizza i pesi in proporzione alla somma dei quadrati dei pesi. La regolarizzazione L2 contribuisce a ridurre i pesi anomali (quelli con valori positivi elevati o negativi bassi) più vicini a 0, ma non esattamente a 0. Le caratteristiche con valori molto vicini a 0 rimangono nel modello, ma non influiscono molto sulla previsione del modello.

La regolarizzazione L2 migliora sempre la generalizzazione nei modelli lineari.

Contrasto con la regolarizzazione L1.

Per saperne di più, consulta Overfitting: regolarizzazione L2 in Machine Learning Crash Course.

etichetta

#fundamentals

Nell'apprendimento supervisionato, la parte "risposta" o "risultato" di un esempio.

Ogni esempio etichettato è costituito da una o più funzionalità e da un'etichetta. Ad esempio, in un set di dati per il rilevamento dello spam, l'etichetta sarebbe probabilmente "spam" o "non spam". In un set di dati sulle precipitazioni, l'etichetta potrebbe essere la quantità di pioggia caduta in un determinato periodo.

Per saperne di più, consulta Apprendimento supervisionato in Introduzione al machine learning.

esempio etichettato

#fundamentals

Un esempio che contiene una o più caratteristiche e un'etichetta. Ad esempio, la seguente tabella mostra tre esempi etichettati di un modello di valutazione di una casa, ognuno con tre funzionalità e un'etichetta:

Numero di camere Numero di bagni Età della casa Prezzo della casa (etichetta)
3 2 15 $345.000
2 1 72 $179.000
4 2 34 $392.000

Nel machine learning supervisionato, i modelli vengono addestrati su esempi etichettati e fanno previsioni su esempi non etichettati.

Esempio con contrasto etichettato con esempi non etichettati.

Per saperne di più, consulta Apprendimento supervisionato in Introduzione al machine learning.

perdita di etichette

Un difetto di progettazione del modello in cui una caratteristica è un proxy per l'etichetta. Ad esempio, considera un modello di classificazione binaria che prevede se un potenziale cliente acquisterà o meno un determinato prodotto. Supponiamo che una delle caratteristiche del modello sia un valore booleano denominato SpokeToCustomerAgent. Supponiamo inoltre che un agente del cliente venga assegnato solo dopo che il potenziale cliente ha effettivamente acquistato il prodotto. Durante l'addestramento, il modello apprenderà rapidamente l'associazione tra SpokeToCustomerAgent e l'etichetta.

Per saperne di più, consulta la sezione Monitoraggio delle pipeline in Machine Learning Crash Course.

lambda

#fundamentals

Sinonimo di tasso di regolarizzazione.

Lambda è un termine sovraccarico. Qui ci concentriamo sulla definizione del termine all'interno della regolarizzazione.

LaMDA (Language Model for Dialogue Applications)

#language

Un modello linguistico di grandi dimensioni basato su Transformer sviluppato da Google e addestrato su un ampio set di dati di dialoghi in grado di generare risposte conversazionali realistiche.

LaMDA: our breakthrough conversation technology fornisce una panoramica.

punti di riferimento

#image

Sinonimo di keypoints.

modello linguistico

#language

Un modello che stima la probabilità che un token o una sequenza di token si verifichi in una sequenza di token più lunga.

Per saperne di più, consulta Che cos'è un modello linguistico? in Machine Learning Crash Course.

modello linguistico di grandi dimensioni

#language

Come minimo, un modello linguistico con un numero molto elevato di parametri. In termini più informali, qualsiasi modello linguistico basato su Transformer, come Gemini o GPT.

Per saperne di più, consulta la sezione Modelli linguistici di grandi dimensioni (LLM) di Machine Learning Crash Course.

latenza

#generativeAI

Il tempo necessario a un modello per elaborare l'input e generare una risposta. Una risposta a latenza elevata richiede più tempo per essere generata rispetto a una risposta a latenza bassa.

I fattori che influenzano la latenza dei modelli linguistici di grandi dimensioni includono:

  • Lunghezze dei token di input e output
  • Complessità del modello
  • L'infrastruttura su cui viene eseguito il modello

L'ottimizzazione per la latenza è fondamentale per creare applicazioni reattive e facili da usare.

spazio latente

#language

Sinonimo di spazio di embedding.

livello

#fundamentals

Un insieme di neuroni in una rete neurale. Di seguito sono riportati tre tipi comuni di livelli:

Ad esempio, la seguente illustrazione mostra una rete neurale con uno strato di input, due strati nascosti e uno strato di output:

Una rete neurale con uno strato di input, due strati nascosti e uno di output. Il livello di input è costituito da due caratteristiche. Il primo strato nascosto è composto da tre neuroni e il secondo da due. Lo strato di output è costituito da un singolo nodo.

In TensorFlow, i livelli sono anche funzioni Python che accettano tensori e opzioni di configurazione come input e producono altri tensori come output.

API Layers (tf.layers)

#TensorFlow

Un'API TensorFlow per costruire una rete neurale profonda come composizione di livelli. L'API Layers ti consente di creare diversi tipi di livelli, ad esempio:

L'API Layers segue le convenzioni dell'API Layers di Keras. Ciò significa che, a parte un prefisso diverso, tutte le funzioni dell'API Layers hanno gli stessi nomi e firme delle loro controparti nell'API Keras Layers.

foglia

#df

Qualsiasi endpoint in un albero decisionale. A differenza di una condizione, una foglia non esegue un test. Una foglia è una possibile previsione. Una foglia è anche il nodo terminale di un percorso di inferenza.

Ad esempio, il seguente albero decisionale contiene tre foglie:

Un albero decisionale con due condizioni che portano a tre foglie.

Per ulteriori informazioni, consulta la sezione Alberi decisionali del corso Decision Forests.

Learning Interpretability Tool (LIT)

Uno strumento visivo e interattivo per la comprensione dei modelli e la visualizzazione dei dati.

Puoi utilizzare LIT open source per interpretare i modelli o per visualizzare testo, immagini e dati tabulari.

tasso di apprendimento

#fundamentals

Un numero in virgola mobile che indica all'algoritmo di discesa del gradiente con quale intensità regolare i pesi e i bias in ogni iterazione. Ad esempio, un tasso di apprendimento di 0,3 modifica i pesi e i bias tre volte più intensamente di un tasso di apprendimento di 0,1.

Il tasso di apprendimento è un iperparametro fondamentale. Se imposti il tasso di apprendimento troppo basso, l'addestramento richiederà troppo tempo. Se imposti il tasso di apprendimento troppo alto, la discesa del gradiente spesso ha difficoltà a raggiungere la convergenza.

Per saperne di più, consulta Regressione lineare: iperparametri in Machine Learning Crash Course.

regressione dei minimi quadrati

Un modello di regressione lineare addestrato minimizzando la perdita L2.

Distanza di Levenshtein

#language
#metric

Una metrica di distanza di modifica che calcola il numero minimo di operazioni di eliminazione, inserimento e sostituzione necessarie per modificare una parola in un'altra. Ad esempio, la distanza di Levenshtein tra le parole "heart" e "darts" è pari a tre perché le tre modifiche seguenti sono le modifiche minime per trasformare una parola nell'altra:

  1. heart → deart (sostituisci "h" con "d")
  2. deart → dart (elimina "e")
  3. freccetta → freccette (inserisci "e")

Tieni presente che la sequenza precedente non è l'unico percorso di tre modifiche.

lineare

#fundamentals

Una relazione tra due o più variabili che può essere rappresentata esclusivamente tramite addizione e moltiplicazione.

Il grafico di una relazione lineare è una retta.

Contrasto con non lineare.

modello lineare

#fundamentals

Un modello che assegna un peso per caratteristica per fare previsioni. I modelli lineari incorporano anche un bias. Al contrario, la relazione tra le caratteristiche e le previsioni nei modelli deep è generalmente non lineare.

I modelli lineari sono in genere più facili da addestrare e più interpretabili rispetto ai modelli profondi. Tuttavia, i modelli profondi possono apprendere relazioni complesse tra le caratteristiche.

La regressione lineare e la regressione logistica sono due tipi di modelli lineari.

regressione lineare

#fundamentals

Un tipo di modello di machine learning in cui sono vere entrambe le seguenti affermazioni:

  • Il modello è un modello lineare.
  • La previsione è un valore in virgola mobile. (Questa è la parte di regressione della regressione lineare.)

Confronta la regressione lineare con la regressione logistica. Inoltre, metti a confronto la regressione con la classificazione.

Per saperne di più, consulta Regressione lineare in Machine Learning Crash Course.

LIT

Abbreviazione di Learning Interpretability Tool (LIT), precedentemente noto come Language Interpretability Tool.

LLM

#language
#generativeAI

Abbreviazione di modello linguistico di grandi dimensioni.

Valutazioni LLM

#language
#generativeAI
#Metric

Un insieme di metriche e benchmark per valutare le prestazioni dei modelli linguistici di grandi dimensioni (LLM). A livello generale, valutazioni LLM:

  • Aiutare i ricercatori a identificare le aree in cui i modelli LLM devono essere migliorati.
  • Sono utili per confrontare diversi LLM e identificare quello migliore per una determinata attività.
  • Contribuire a garantire che gli LLM siano sicuri ed etici da usare.

Per saperne di più, consulta Modelli linguistici di grandi dimensioni (LLM) in Machine Learning Crash Course.

regressione logistica

#fundamentals

Un tipo di modello di regressione che prevede una probabilità. I modelli di regressione logistica hanno le seguenti caratteristiche:

  • L'etichetta è categorica. Il termine regressione logistica si riferisce in genere alla regressione logistica binaria, ovvero a un modello che calcola le probabilità per le etichette con due valori possibili. Una variante meno comune, la regressione logistica multinomiale, calcola le probabilità per le etichette con più di due valori possibili.
  • La funzione di perdita durante l'addestramento è Log Loss. È possibile inserire più unità Log Loss in parallelo per le etichette con più di due valori possibili.
  • Il modello ha un'architettura lineare, non una rete neurale profonda. Tuttavia, il resto di questa definizione si applica anche ai modelli di deep learning che prevedono probabilità per le etichette categoriche.

Ad esempio, considera un modello di regressione logistica che calcola la probabilità che un'email di input sia spam o meno. Durante l'inferenza, supponiamo che il modello preveda 0,72. Pertanto, il modello sta stimando:

  • Una probabilità del 72% che l'email sia spam.
  • Il 28% di probabilità che l'email non sia spam.

Un modello di regressione logistica utilizza la seguente architettura in due passaggi:

  1. Il modello genera una previsione non elaborata (y') applicando una funzione lineare delle caratteristiche di input.
  2. Il modello utilizza questa previsione non elaborata come input per una funzione sigmoide, che converte la previsione non elaborata in un valore compreso tra 0 e 1, esclusi.

Come qualsiasi modello di regressione, un modello di regressione logistica prevede un numero. Tuttavia, questo numero in genere diventa parte di un modello di classificazione binaria come segue:

  • Se il numero previsto è maggiore della soglia di classificazione, il modello di classificazione binaria prevede la classe positiva.
  • Se il numero previsto è inferiore alla soglia di classificazione, il modello di classificazione binaria prevede la classe negativa.

Per saperne di più, consulta la sezione Regressione logistica di Machine Learning Crash Course.

logit

Il vettore di previsioni non elaborate (non normalizzate) generate da un modello di classificazione, che di solito viene poi passato a una funzione di normalizzazione. Se il modello risolve un problema di classificazione multiclasse, i logit in genere diventano un input della funzione softmax. La funzione softmax genera quindi un vettore di probabilità (normalizzate) con un valore per ogni classe possibile.

Log Loss

#fundamentals

La funzione di perdita utilizzata nella regressione logistica binaria.

Per saperne di più, consulta Regressione logistica: perdita e regolarizzazione in Machine Learning Crash Course.

log-odds

#fundamentals

Il logaritmo dell'odds di un evento.

Long Short-Term Memory (LSTM)

#seq

Un tipo di cella in una rete neurale ricorrente utilizzata per elaborare sequenze di dati in applicazioni come il riconoscimento della scrittura a mano, la traduzione automatica e la creazione di didascalie per le immagini. Le LSTM risolvono il problema del gradiente che svanisce che si verifica durante l'addestramento delle RNN a causa di lunghe sequenze di dati, mantenendo la cronologia in uno stato di memoria interno basato sul nuovo input e sul contesto delle celle precedenti della RNN.

LoRA

#language
#generativeAI

Abbreviazione di adattabilità a basso ranking.

perdita

#fundamentals
#Metric

Durante l'addestramento di un modello supervisionato, una misura della distanza tra la previsione di un modello e la sua etichetta.

Una funzione di perdita calcola la perdita.

Per saperne di più, consulta Regressione lineare: perdita in Machine Learning Crash Course.

aggregatore di perdite

Un tipo di algoritmo di machine learning che migliora il rendimento di un modello combinando le previsioni di più modelli e utilizzando queste previsioni per fare una singola previsione. Di conseguenza, un aggregatore di perdite può ridurre la varianza delle previsioni e migliorarne l'accuratezza.

curva di perdita

#fundamentals

Un grafico della perdita in funzione del numero di iterazioni di addestramento. Il seguente grafico mostra una tipica curva di perdita:

Un grafico cartesiano della perdita rispetto alle iterazioni di addestramento, che mostra una
          rapida diminuzione della perdita per le iterazioni iniziali, seguita da una
          diminuzione graduale e poi da una pendenza piatta durante le iterazioni finali.

Le curve di perdita possono aiutarti a determinare quando il modello converge o quando si verifica l'overfitting.

Le curve di perdita possono tracciare tutti i seguenti tipi di perdita:

Vedi anche la curva di generalizzazione.

Per saperne di più, consulta Overfitting: interpretare le curve di perdita in Machine Learning Crash Course.

funzione di perdita

#fundamentals
#Metric

Durante l'addestramento o il test, una funzione matematica che calcola la perdita su un batch di esempi. Una funzione di perdita restituisce una perdita inferiore per i modelli che fanno buone previsioni rispetto a quelli che fanno previsioni errate.

L'obiettivo dell'addestramento è in genere quello di ridurre al minimo la perdita restituita da una funzione di perdita.

Esistono molti tipi diversi di funzioni di perdita. Scegli la funzione di perdita appropriata per il tipo di modello che stai creando. Ad esempio:

superficie di perdita

Un grafico del peso o dei pesi rispetto alla perdita. La discesa del gradiente ha lo scopo di trovare il peso o i pesi per cui la superficie di perdita si trova a un minimo locale.

Adattabilità a basso ranking (LoRA)

#language
#generativeAI

Una tecnica efficiente in termini di parametri per l'ottimizzazione che"congela" i pesi preaddestrati del modello (in modo che non possano più essere modificati) e poi inserisce un piccolo insieme di pesi addestrabili nel modello. Questo insieme di pesi addestrabili (noto anche come "matrici di aggiornamento") è notevolmente più piccolo del modello di base ed è quindi molto più veloce da addestrare.

LoRA offre i seguenti vantaggi:

  • Migliora la qualità delle previsioni di un modello per il dominio in cui viene applicato il fine tuning.
  • Viene messo a punto più rapidamente rispetto alle tecniche che richiedono la messa a punto di tutti i parametri di un modello.
  • Riduce il costo di calcolo dell'inferenza consentendo l'erogazione simultanea di più modelli specializzati che condividono lo stesso modello di base.

LSTM

#seq

Abbreviazione di Long Short-Term Memory.

M

machine learning

#fundamentals

Un programma o un sistema che addestra un modello a partire dai dati di input. Il modello addestrato può fare previsioni utili a partire da dati nuovi (mai visti prima) estratti dalla stessa distribuzione di quelli utilizzati per addestrare il modello.

Il machine learning si riferisce anche al campo di studio che si occupa di questi programmi o sistemi.

Per saperne di più, consulta il corso Introduzione al machine learning.

traduzione automatica

#generativeAI

Utilizzo di un software (in genere, un modello di machine learning) per convertire il testo da una lingua umana a un'altra, ad esempio dall'inglese al giapponese.

classe maggioritaria

#fundamentals

L'etichetta più comune in un insieme di dati con sbilanciamento di classe. Ad esempio, dato un set di dati contenente il 99% di etichette negative e l'1% di etichette positive, le etichette negative sono la classe di maggioranza.

Contrasto con la classe di minoranza.

Per saperne di più, consulta Set di dati: set di dati non bilanciati in Machine Learning Crash Course.

Processo decisionale di Markov (MDP)

#rl

Un grafico che rappresenta il modello decisionale in cui le decisioni (o azioni) vengono prese per navigare in una sequenza di stati presupponendo che la proprietà di Markov sia valida. Nell'apprendimento per rinforzo, queste transizioni tra stati restituiscono una ricompensa numerica.

Proprietà di Markov

#rl

Una proprietà di determinati ambienti, in cui le transizioni di stato sono interamente determinate dalle informazioni implicite nello stato attuale e dall'azione dell'agente.

modello linguistico mascherato

#language

Un modello linguistico che prevede la probabilità che i token candidati riempiano gli spazi vuoti in una sequenza. Ad esempio, un modello linguistico mascherato può calcolare le probabilità che una o più parole candidate sostituiscano il trattino nella seguente frase:

Il ____ nel cappello è tornato.

La letteratura in genere utilizza la stringa "MASK" anziché un trattino basso. Ad esempio:

La scritta "MASK" sul cappello è tornata.

La maggior parte dei moderni modelli linguistici mascherati sono bidirezionali.

matplotlib

Una libreria di tracciamento 2D open source di Python. matplotlib ti aiuta a visualizzare diversi aspetti del machine learning.

fattorizzazione matriciale

#recsystems

In matematica, un meccanismo per trovare le matrici il cui prodotto scalare approssima una matrice di destinazione.

Nei sistemi di consigli, la matrice di destinazione spesso contiene le valutazioni degli utenti sugli elementi. Ad esempio, la matrice di destinazione per un sistema di consigli sui film potrebbe avere un aspetto simile al seguente, in cui i numeri interi positivi sono le valutazioni degli utenti e 0 significa che l'utente non ha valutato il film:

  Casablanca Scandalo a Filadelfia Black Panther Wonder Woman Pulp Fiction
Utente 1 5,0 3,0 0.0 2.0 0.0
Utente 2 4.0 0.0 0.0 1,0 5,0
Utente 3 3,0 1,0 4.0 5,0 0.0

Il sistema di consigli sui film mira a prevedere le valutazioni degli utenti per i film senza valutazione. Ad esempio, all'Utente 1 piacerà Black Panther?

Un approccio per i sistemi di suggerimenti consiste nell'utilizzare la fattorizzazione matriciale per generare le seguenti due matrici:

  • Una matrice utente, modellata come il numero di utenti X il numero di dimensioni di incorporamento.
  • Una matrice degli elementi, con dimensioni pari al numero di dimensioni dell'incorporamento moltiplicato per il numero di elementi.

Ad esempio, l'utilizzo della fattorizzazione matriciale sui nostri tre utenti e cinque elementi potrebbe produrre la seguente matrice utente e matrice elemento:

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

Il prodotto scalare della matrice utente e della matrice elemento genera una matrice di suggerimenti che contiene non solo le valutazioni originali degli utenti, ma anche le previsioni per i film che ogni utente non ha visto. Ad esempio, considera la valutazione di Casablanca dell'utente 1, che è pari a 5.0. Il prodotto corrispondente a quella cella nella matrice dei consigli dovrebbe essere intorno a 5.0, ed è:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

Ancora più importante, all'Utente 1 piacerà Black Panther? Il prodotto scalare corrispondente alla prima riga e alla terza colonna produce una valutazione prevista di 4,3:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

La fattorizzazione matriciale in genere produce una matrice utente e una matrice elemento che, insieme, sono molto più compatte della matrice target.

Errore assoluto medio (MAE)

#Metric

La perdita media per esempio quando viene utilizzata la perdita L1. Calcola l'errore assoluto medio come segue:

  1. Calcola la perdita L1 per un batch.
  2. Dividi la perdita L1 per il numero di esempi nel batch.

Ad esempio, considera il calcolo della perdita L1 sul seguente batch di cinque esempi:

Valore effettivo dell'esempio Valore previsto del modello Perdita (differenza tra valore effettivo e previsto)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = L1 loss

Quindi, la perdita L1 è 8 e il numero di esempi è 5. Pertanto, l'errore assoluto medio è:

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

Confronta l'errore assoluto medio con l'errore quadratico medio e l'errore quadratico medio della radice.

precisione media a k (mAP@k)

#language
#generativeAI
#Metric

La media statistica di tutti i punteggi di precisione media a k in un set di dati di convalida. Un utilizzo della precisione media media a k è quello di valutare la qualità dei suggerimenti generati da un sistema di suggerimenti.

Sebbene la frase "media aritmetica" sembri ridondante, il nome della metrica è appropriato. Dopo tutto, questa metrica trova la media di più valori di precisione media a k.

Errore quadratico medio (MSE)

#Metric

La perdita media per esempio quando viene utilizzata la perdita L2. Calcola l'errore quadratico medio come segue:

  1. Calcola la perdita L2 per un batch.
  2. Dividi la perdita L2 per il numero di esempi nel batch.

Ad esempio, considera la perdita nel seguente batch di cinque esempi:

Valore effettivo Previsione del modello Perdita Errore quadratico
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = L2 loss

Pertanto, l'errore quadratico medio è:

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

L'errore quadratico medio è un ottimizzatore di addestramento molto diffuso, soprattutto per la regressione lineare.

Confronta l'errore quadratico medio con l'errore assoluto medio e l'errore quadratico medio della radice.

TensorFlow Playground utilizza l'errore quadratico medio per calcolare i valori di perdita.

mesh

#TensorFlow
#GoogleCloud

Nella programmazione parallela ML, un termine associato all'assegnazione dei dati e del modello ai chip TPU e alla definizione di come questi valori verranno suddivisi o replicati.

Mesh è un termine sovraccarico che può significare una delle seguenti cose:

  • Un layout fisico dei chip TPU.
  • Un costrutto logico astratto per mappare i dati e il modello sui chip TPU.

In entrambi i casi, una mesh viene specificata come forma.

meta-learning

#language

Un sottoinsieme del machine learning che scopre o migliora un algoritmo di apprendimento. Un sistema di meta-apprendimento può anche avere lo scopo di addestrare un modello ad apprendere rapidamente una nuova attività da una piccola quantità di dati o dall'esperienza acquisita in attività precedenti. Gli algoritmi di meta-apprendimento in genere cercano di ottenere quanto segue:

  • Migliorare o apprendere le funzionalità progettate manualmente (ad esempio un inizializzatore o un ottimizzatore).
  • Essere più efficienti in termini di dati e calcolo.
  • Migliorare la generalizzazione.

Il meta-learning è correlato all'apprendimento few-shot.

metrica

#TensorFlow
#Metric

Una statistica che ti interessa.

Un obiettivo è una metrica che un sistema di machine learning tenta di ottimizzare.

API Metrics (tf.metrics)

#Metric

Un'API TensorFlow per valutare i modelli. Ad esempio, tf.metrics.accuracy determina la frequenza con cui le previsioni di un modello corrispondono alle etichette.

mini-batch

#fundamentals

Un piccolo sottoinsieme selezionato casualmente di un batch elaborato in una iterazione. La dimensione del batch di un mini-batch è in genere compresa tra 10 e 1000 esempi.

Ad esempio, supponiamo che l'intero set di addestramento (l'intero batch) sia composto da 1000 esempi. Supponiamo inoltre di impostare la dimensione del batch di ogni mini-batch su 20. Pertanto, ogni iterazione determina la perdita su 20 esempi casuali dei 1000 e poi modifica di conseguenza i pesi e i bias.

È molto più efficiente calcolare la perdita su un mini-batch rispetto alla perdita su tutti gli esempi nel batch completo.

Per saperne di più, consulta Regressione lineare: iperparametri in Machine Learning Crash Course.

discesa stocastica del gradiente in mini-batch

Un algoritmo di discesa del gradiente che utilizza mini-batch. In altre parole, la discesa del gradiente stocastico in mini batch stima il gradiente in base a un piccolo sottoinsieme dei dati di addestramento. La discesa stocastica del gradiente standard utilizza un mini-batch di dimensione 1.

Perdita minimax

#Metric

Una funzione di perdita per le reti generative avversariali, basata sull'entropia incrociata tra la distribuzione dei dati generati e dei dati reali.

La perdita minimax viene utilizzata nel primo articolo per descrivere le reti generative avversariali.

Per saperne di più, consulta la sezione Funzioni di perdita del corso Generative Adversarial Networks.

classe minoritaria

#fundamentals

L'etichetta meno comune in un insieme di dati con sbilanciamento di classe. Ad esempio, dato un set di dati contenente il 99% di etichette negative e l'1% di etichette positive, le etichette positive sono la classe di minoranza.

Contrasto con la classe maggioritaria.

Per saperne di più, consulta Set di dati: set di dati non bilanciati in Machine Learning Crash Course.

mix di esperti

#language
#generativeAI

Un sistema per aumentare l'efficienza della rete neurale utilizzando solo un sottoinsieme dei suoi parametri (noto come esperto) per elaborare un determinato token o esempio di input. Una rete di gating indirizza ogni token o esempio di input all'esperto o agli esperti giusti.

Per maggiori dettagli, consulta uno dei seguenti documenti:

ML

Abbreviazione di machine learning.

MMIT

#language
#image
#generativeAI

Abbreviazione di multimodal instruction-tuned.

MNIST

#image

Un set di dati di pubblico dominio compilato da LeCun, Cortes e Burges contenente 60.000 immagini, ognuna delle quali mostra come una persona ha scritto manualmente una particolare cifra da 0 a 9. Ogni immagine viene memorizzata come una matrice di numeri interi 28x28, dove ogni numero intero è un valore in scala di grigi compreso tra 0 e 255 inclusi.

MNIST è un set di dati canonico per il machine learning, spesso utilizzato per testare nuovi approcci al machine learning. Per maggiori dettagli, consulta The MNIST Database of Handwritten Digits.

modalità

#language

Una categoria di dati di primo livello. Ad esempio, numeri, testo, immagini, video e audio sono cinque modalità diverse.

modello

#fundamentals

In generale, qualsiasi costrutto matematico che elabora i dati di input e restituisce l'output. In altre parole, un modello è l'insieme di parametri e della struttura necessari a un sistema per fare previsioni. Nel machine learning supervisionato, un modello prende un esempio come input e deduce una previsione come output. Nell'ambito del machine learning supervisionato, i modelli differiscono leggermente. Ad esempio:

  • Un modello di regressione lineare è costituito da un insieme di pesi e un bias.
  • Un modello di rete neurale è costituito da:
    • Un insieme di strati nascosti, ognuno contenente uno o più neuroni.
    • I pesi e il bias associati a ogni neurone.
  • Un modello ad albero decisionale è costituito da:
    • La forma dell'albero, ovvero il pattern in cui sono collegate le condizioni e le foglie.
    • Le condizioni e le ferie.

Puoi salvare, ripristinare o creare copie di un modello.

L'apprendimento automatico non supervisionato genera anche modelli, in genere una funzione che può mappare un esempio di input al cluster più appropriato.

capacità del modello

#Metric

La complessità dei problemi che un modello può apprendere. Più complessi sono i problemi che un modello può apprendere, maggiore è la sua capacità. La capacità di un modello aumenta in genere con il numero di parametri del modello. Per una definizione formale della capacità del modello di classificazione, vedi Dimensione VC.

cascata di modelli

#generativeAI

Un sistema che sceglie il modello ideale per una query di inferenza specifica.

Immagina un gruppo di modelli, che vanno da molto grandi (molti parametri) a molto più piccoli (molti meno parametri). I modelli molto grandi consumano più risorse di calcolo in fase di inferenza rispetto ai modelli più piccoli. Tuttavia, i modelli molto grandi possono in genere dedurre richieste più complesse rispetto ai modelli più piccoli. La concatenazione dei modelli determina la complessità della query di inferenza e poi sceglie il modello appropriato per eseguire l'inferenza. La motivazione principale per la creazione a cascata dei modelli è ridurre i costi di inferenza selezionando in genere modelli più piccoli e selezionando un modello più grande solo per query più complesse.

Immagina che un modello piccolo venga eseguito su uno smartphone e una versione più grande su un server remoto. Una buona cascata di modelli riduce i costi e la latenza consentendo al modello più piccolo di gestire le richieste semplici e di chiamare il modello remoto solo per gestire le richieste complesse.

Vedi anche router modello.

parallelismo del modello

#language

Un modo per scalare l'addestramento o l'inferenza che inserisce diverse parti di un modello su diversi dispositivi. Il parallelismo del modello consente di utilizzare modelli troppo grandi per essere contenuti in un singolo dispositivo.

Per implementare il parallelismo del modello, un sistema in genere esegue le seguenti operazioni:

  1. Suddivide il modello in parti più piccole.
  2. Distribuisce l'addestramento di queste parti più piccole su più processori. Ogni processore addestra la propria parte del modello.
  3. Combina i risultati per creare un unico modello.

Il parallelismo dei modelli rallenta l'addestramento.

Vedi anche parallelismo dei dati.

model router

#generativeAI

L'algoritmo che determina il modello ideale per l'inferenza nella cascata di modelli. Un router di modelli è in genere un modello di machine learning che impara gradualmente a scegliere il modello migliore per un determinato input. Tuttavia, un router di modelli a volte potrebbe essere un algoritmo più semplice, non di machine learning.

addestramento del modello

Il processo di determinazione del miglior modello.

MOE

#language
#image
#generativeAI

Abbreviazione di mixture of experts.

Momentum

Un sofisticato algoritmo di discesa del gradiente in cui un passaggio di apprendimento dipende non solo dalla derivata nel passaggio corrente, ma anche dalle derivate del passaggio o dei passaggi che lo hanno preceduto immediatamente. Il momento prevede il calcolo di una media mobile ponderata esponenzialmente dei gradienti nel tempo, analoga al momento in fisica. A volte il momento impedisce all'apprendimento di rimanere bloccato nei minimi locali.

MT

#generativeAI

Abbreviazione di traduzione automatica.

classificazione multiclasse

#fundamentals

Nell'apprendimento supervisionato, un problema di classificazione in cui il set di dati contiene più di due classi di etichette. Ad esempio, le etichette nel set di dati Iris devono appartenere a una delle seguenti tre classi:

  • Iris setosa
  • Iris virginica
  • Iris versicolor

Un modello addestrato sul set di dati Iris che prevede il tipo di Iris su nuovi esempi esegue la classificazione multi-classe.

Al contrario, i problemi di classificazione che distinguono esattamente due classi sono modelli di classificazione binaria. Ad esempio, un modello di email che prevede spam o non spam è un modello di classificazione binaria.

Nei problemi di clustering, la classificazione multiclasse si riferisce a più di due cluster.

Per ulteriori informazioni, consulta Reti neurali: classificazione multiclasse in Machine Learning Crash Course.

regressione logistica multiclasse

Utilizzo della regressione logistica nei problemi di classificazione multiclasse.

self-attention multi-head

#language

Un'estensione dell'auto-attenzione che applica il meccanismo di auto-attenzione più volte per ogni posizione nella sequenza di input.

Transformers ha introdotto l'auto-attenzione multi-testa.

multimodale ottimizzato per le istruzioni

#language

Un modello ottimizzato per le istruzioni in grado di elaborare input oltre al testo, come immagini, video e audio.

modello multimodale

#language

Un modello i cui input, output o entrambi includono più di una modalità. Ad esempio, considera un modello che prende sia un'immagine sia una didascalia di testo (due modalità) come caratteristiche e restituisce un punteggio che indica l'idoneità della didascalia di testo per l'immagine. Pertanto, gli input di questo modello sono multimodali e l'output è unimodale.

classificazione multinomiale

Sinonimo di classificazione multiclasse.

regressione multinomiale

Sinonimo di regressione logistica multiclasse.

multitasking

Una tecnica di machine learning in cui un singolo modello viene addestrato per eseguire più attività.

I modelli multitasking vengono creati eseguendo l'addestramento su dati appropriati per ciascuna delle diverse attività. In questo modo, il modello può imparare a condividere le informazioni tra le attività, il che lo aiuta ad apprendere in modo più efficace.

Un modello addestrato per più attività spesso ha capacità di generalizzazione migliorate e può essere più efficace nella gestione di diversi tipi di dati.

No

Nano

#generativeAI

Un modello Gemini relativamente piccolo progettato per l'utilizzo sul dispositivo. Per maggiori dettagli, vedi Gemini Nano.

Vedi anche Pro e Ultra.

Trappola NaN

Quando un numero nel modello diventa NaN durante l'addestramento, molti o tutti gli altri numeri nel modello alla fine diventano NaN.

NaN è l'abbreviazione di Not a Number.

elaborazione del linguaggio naturale

#language
Il campo dell'insegnamento ai computer di elaborare ciò che un utente ha detto o digitato utilizzando regole linguistiche. Quasi tutta l'elaborazione del linguaggio naturale moderna si basa sul machine learning.

comprensione del linguaggio naturale

#language

Un sottoinsieme dell'elaborazione del linguaggio naturale che determina le intenzioni di ciò che viene detto o digitato. La comprensione del linguaggio naturale può andare oltre l'elaborazione del linguaggio naturale per considerare aspetti complessi del linguaggio come contesto, sarcasmo e sentiment.

classe negativa

#fundamentals
#Metric

Nella classificazione binaria, una classe è definita positiva e l'altra è definita negativa. La classe positiva è l'elemento o l'evento che il modello sta testando, mentre la classe negativa è l'altra possibilità. Ad esempio:

  • La classe negativa in un test medico potrebbe essere "non tumore".
  • La classe negativa in un modello di classificazione delle email potrebbe essere "non spam".

Contrasto con la classe positiva.

campionamento negativo

Sinonimo di campionamento dei candidati.

Neural Architecture Search (NAS)

Una tecnica per progettare automaticamente l'architettura di una rete neurale. Gli algoritmi NAS possono ridurre la quantità di tempo e risorse necessarie per addestrare una rete neurale.

In genere, il NAS utilizza:

  • Uno spazio di ricerca, ovvero un insieme di architetture possibili.
  • Una funzione di idoneità, che è una misura del rendimento di una particolare architettura in una determinata attività.

Gli algoritmi NAS spesso iniziano con un piccolo insieme di possibili architetture ed espandono gradualmente lo spazio di ricerca man mano che l'algoritmo apprende di più su quali architetture sono efficaci. La funzione di idoneità si basa in genere sulle prestazioni dell'architettura su un set di addestramento e l'algoritmo viene in genere addestrato utilizzando una tecnica di apprendimento per rinforzo.

Gli algoritmi NAS si sono dimostrati efficaci nell'individuare architetture ad alto rendimento per una serie di attività, tra cui la classificazione delle immagini, la classificazione del testo e la traduzione automatica.

feed-forward

#fundamentals

Un modello contenente almeno un livello nascosto. Una rete neurale profonda è un tipo di rete neurale che contiene più di uno strato nascosto. Ad esempio, il seguente diagramma mostra una rete neurale profonda contenente due livelli nascosti.

Una rete neurale con uno strato di input, due strati nascosti e uno di output.

Ogni neurone di una rete neurale si connette a tutti i nodi del livello successivo. Ad esempio, nel diagramma precedente, nota che ciascuno dei tre neuroni nel primo strato nascosto si connette separatamente a entrambi i neuroni nel secondo strato nascosto.

Le reti neurali implementate sui computer sono a volte chiamate reti neurali artificiali per distinguerle dalle reti neurali presenti nel cervello e in altri sistemi nervosi.

Alcune reti neurali possono imitare relazioni non lineari estremamente complesse tra le diverse caratteristiche e l'etichetta.

Vedi anche rete neurale convoluzionale e rete neurale ricorrente.

Per saperne di più, consulta la sezione Reti neurali di Machine Learning Crash Course.

neurone

#fundamentals

Nel machine learning, un'unità distinta all'interno di un livello nascosto di una rete neurale. Ogni neurone esegue la seguente azione in due passaggi:

  1. Calcola la somma ponderata dei valori di input moltiplicati per i pesi corrispondenti.
  2. Passa la somma ponderata come input a una funzione di attivazione.

Un neurone del primo strato nascosto accetta gli input dai valori delle caratteristiche nel strato di input. Un neurone in qualsiasi strato nascosto oltre il primo accetta input dai neuroni dello strato nascosto precedente. Ad esempio, un neurone del secondo strato nascosto accetta input dai neuroni del primo strato nascosto.

La seguente illustrazione mette in evidenza due neuroni e i relativi input.

Una rete neurale con uno strato di input, due strati nascosti e uno di output. Sono evidenziati due neuroni: uno nel primo strato nascosto e uno nel secondo strato nascosto. Il neurone evidenziato
          nel primo strato nascosto riceve input da entrambe le funzionalità
          nello strato di input. Il neurone evidenziato nel secondo strato nascosto
          riceve input da ciascuno dei tre neuroni del primo strato nascosto.

Un neurone in una rete neurale imita il comportamento dei neuroni nel cervello e in altre parti del sistema nervoso.

N-gramma

#seq
#language

Una sequenza ordinata di N parole. Ad esempio, truly madly è un 2-gramma. Poiché l'ordine è importante, madly truly è un 2-gramma diverso da truly madly.

No Nome o nomi per questo tipo di N-gramma Esempi
2 bigramma o 2-grammi to go, go to, eat lunch, eat dinner
3 trigramma ate too much, happily ever after, the bell tolls
4 4 grammi walk in the park, dust in the wind, the boy ate lentils

Molti modelli di comprensione del linguaggio naturale si basano sugli N-grammi per prevedere la parola successiva che l'utente digiterà o dirà. Ad esempio, supponiamo che un utente abbia digitato e vissero felici e. Un modello NLU basato su trigrammi probabilmente prevede che l'utente digiterà la parola dopo.

Contrasta gli n-grammi con il bag of words, che sono insiemi di parole non ordinate.

Per saperne di più, consulta Modelli linguistici di grandi dimensioni in Machine Learning Crash Course.

NLP

#language

Abbreviazione di elaborazione del linguaggio naturale.

NLU

#language

Abbreviazione di comprensione del linguaggio naturale.

nodo (albero decisionale)

#df

In un albero decisionale, qualsiasi condizione o foglia.

Un albero decisionale con due condizioni e tre foglie.

Per ulteriori informazioni, consulta la sezione Alberi decisionali del corso Decision Forests.

nodo (rete neurale)

#fundamentals

Un neurone in un livello nascosto.

Per saperne di più, consulta la sezione Reti neurali di Machine Learning Crash Course.

nodo (grafico TensorFlow)

#TensorFlow

Un'operazione in un grafico TensorFlow.

rumore

In termini generali, qualsiasi elemento che offuschi il segnale in un set di dati. Il rumore può essere introdotto nei dati in vari modi. Ad esempio:

  • I valutatori umani commettono errori di etichettatura.
  • Gli esseri umani e gli strumenti registrano o omettono erroneamente i valori delle funzionalità.

condizione non binaria

#df

Una condizione contenente più di due risultati possibili. Ad esempio, la seguente condizione non binaria contiene tre possibili risultati:

Una condizione (number_of_legs = ?) che porta a tre possibili
          risultati. Un risultato (number_of_legs = 8) porta a una foglia
          denominata spider. Un secondo risultato (number_of_legs = 4) porta a
          una foglia denominata dog. Un terzo risultato (number_of_legs = 2) porta a
          una foglia denominata penguin.

Per ulteriori informazioni, consulta la sezione Tipi di condizioni del corso Decision Forests.

non lineare

#fundamentals

Una relazione tra due o più variabili che non può essere rappresentata solo tramite addizione e moltiplicazione. Una relazione lineare può essere rappresentata come una linea, mentre una relazione non lineare non può essere rappresentata come una linea. Ad esempio, considera due modelli che mettono in relazione una singola caratteristica a una singola etichetta. Il modello a sinistra è lineare e quello a destra è non lineare:

Due appezzamenti. Un grafico è una linea, quindi si tratta di una relazione lineare.
          L&#39;altro grafico è una curva, quindi si tratta di una relazione non lineare.

Consulta la sezione Reti neurali: nodi e livelli nascosti del corso intensivo di machine learning per sperimentare diversi tipi di funzioni non lineari.

bias di non risposta

#responsible

Consulta la sezione Bias di selezione.

non stazionarietà

#fundamentals

Una funzionalità i cui valori cambiano in una o più dimensioni, in genere il tempo. Ad esempio, considera i seguenti esempi di non stazionarietà:

  • Il numero di costumi da bagno venduti in un determinato negozio varia a seconda della stagione.
  • La quantità di un determinato frutto raccolto in una regione specifica è pari a zero per gran parte dell'anno, ma elevata per un breve periodo.
  • A causa dei cambiamenti climatici, le temperature medie annue stanno cambiando.

Contrasto con la stazionarietà.

nessuna risposta corretta (NORA)

#language
#generativeAI

Un prompt con più risposte appropriate. Ad esempio, il seguente prompt non ha una risposta corretta:

Raccontami una barzelletta sugli elefanti.

Valutare i prompt senza una risposta corretta può essere difficile.

NORA

#language
#generativeAI

Abbreviazione di nessuna risposta corretta.

normalizzazione

#fundamentals

In generale, il processo di conversione dell'intervallo effettivo di valori di una variabile in un intervallo standard di valori, ad esempio:

  • Da -1 a +1
  • Da 0 a 1
  • Punteggi z (approssimativamente da -3 a +3)

Ad esempio, supponiamo che l'intervallo effettivo di valori di una determinata caratteristica sia da 800 a 2400. Nell'ambito dell'ingegneria delle funzionalità, puoi normalizzare i valori effettivi in un intervallo standard, ad esempio da -1 a +1.

La normalizzazione è un'attività comune nell'ingegneria delle funzionalità. I modelli di solito vengono addestrati più velocemente (e producono previsioni migliori) quando ogni caratteristica numerica nel vettore delle caratteristiche ha all'incirca lo stesso intervallo.

Vedi anche Normalizzazione del punteggio Z.

Per saperne di più, consulta Dati numerici: normalizzazione in Machine Learning Crash Course.

NotebookLM

#language
#generativeAI

Uno strumento basato su Gemini che consente agli utenti di caricare documenti e poi utilizzare prompt per porre domande, riassumere o organizzare i documenti. Ad esempio, un autore potrebbe caricare diversi racconti e chiedere a NotebookLM di trovare i temi comuni o di identificare quale potrebbe essere il miglior film.

rilevamento di novità

Il processo per determinare se un nuovo esempio proviene dalla stessa distribuzione del set di addestramento. In altre parole, dopo l'addestramento sul set di addestramento, il rilevamento delle novità determina se un esempio nuovo (durante l'inferenza o l'addestramento aggiuntivo) è un valore anomalo.

Contrasto con il rilevamento outlier.

dati numerici

#fundamentals

Caratteristiche rappresentate come numeri interi o reali. Ad esempio, un modello di valutazione di una casa rappresenterebbe probabilmente le dimensioni di una casa (in piedi quadrati o metri quadrati) come dati numerici. La rappresentazione di una caratteristica come dati numerici indica che i valori della caratteristica hanno una relazione matematica con l'etichetta. ovvero il numero di metri quadrati di una casa probabilmente ha una relazione matematica con il valore della casa.

Non tutti i dati interi devono essere rappresentati come dati numerici. Ad esempio, i codici postali in alcune parti del mondo sono numeri interi; tuttavia, i codici postali interi non devono essere rappresentati come dati numerici nei modelli. Questo perché un codice postale di 20000 non è due volte (o la metà) più efficace di un codice postale di 10000. Inoltre, anche se codici postali diversi corrispondono a valori immobiliari diversi, non possiamo presumere che i valori immobiliari del codice postale 20000 siano il doppio di quelli del codice postale 10000. I codici postali devono essere rappresentati come dati categorici.

Le caratteristiche numeriche sono a volte chiamate caratteristiche continue.

Per saperne di più, consulta la sezione Utilizzo dei dati numerici di Machine Learning Crash Course.

NumPy

Una libreria matematica open source che fornisce operazioni efficienti sugli array in Python. pandas è basato su NumPy.

O

scopo

#Metric

Una metrica che l'algoritmo sta cercando di ottimizzare.

funzione obiettivo

#Metric

La formula matematica o la metrica che un modello mira a ottimizzare. Ad esempio, la funzione obiettivo per la regressione lineare è di solito perdita quadratica media. Pertanto, quando si addestra un modello di regressione lineare, l'addestramento mira a minimizzare la perdita quadratica media.

In alcuni casi, l'obiettivo è massimizzare la funzione obiettivo. Ad esempio, se la funzione obiettivo è l'accuratezza, l'obiettivo è massimizzare l'accuratezza.

Vedi anche perdita.

condizione obliqua

#df

In un albero decisionale, una condizione che coinvolge più di una caratteristica. Ad esempio, se altezza e larghezza sono entrambe caratteristiche, la seguente è una condizione obliqua:

  height > width

Contrasto con la condizione allineata all'asse.

Per ulteriori informazioni, consulta la sezione Tipi di condizioni del corso Decision Forests.

offline

#fundamentals

Sinonimo di static.

inferenza offline

#fundamentals

Il processo di generazione di un batch di previsioni da parte di un modello e la successiva memorizzazione nella cache (salvataggio) di queste previsioni. Le app possono quindi accedere alla previsione inferita dalla cache anziché eseguire nuovamente il modello.

Ad esempio, considera un modello che genera previsioni meteo locali (previsioni) una volta ogni quattro ore. Dopo ogni esecuzione del modello, il sistema memorizza nella cache tutte le previsioni meteo locali. Le app meteo recuperano le previsioni dalla cache.

L'inferenza offline è chiamata anche inferenza statica.

Contrasto con l'inferenza online. Per saperne di più, consulta la sezione Sistemi ML di produzione: inferenza statica e dinamica di Machine Learning Crash Course.

codifica one-hot

#fundamentals

Rappresentazione dei dati categorici come un vettore in cui:

  • Un elemento è impostato su 1.
  • Tutti gli altri elementi sono impostati su 0.

La codifica one-hot viene comunemente utilizzata per rappresentare stringhe o identificatori che hanno un insieme finito di valori possibili. Ad esempio, supponiamo che una determinata caratteristica categorica denominata Scandinavia abbia cinque valori possibili:

  • "Danimarca"
  • "Svezia"
  • "Norvegia"
  • "Finlandia"
  • "Islanda"

La codifica one-hot potrebbe rappresentare ciascuno dei cinque valori nel seguente modo:

Paese Vettoriale
"Danimarca" 1 0 0 0 0
"Svezia" 0 1 0 0 0
"Norvegia" 0 0 1 0 0
"Finlandia" 0 0 0 1 0
"Islanda" 0 0 0 0 1

Grazie alla codifica one-hot, un modello può apprendere connessioni diverse in base a ciascuno dei cinque paesi.

La rappresentazione di una caratteristica come dati numerici è un'alternativa alla codifica one-hot. Purtroppo, rappresentare i paesi scandinavi numericamente non è una buona scelta. Ad esempio, considera la seguente rappresentazione numerica:

  • "Danimarca" è 0
  • "Svezia" è 1
  • "Norvegia" è 2
  • "Finlandia" è 3
  • "Islanda" è 4

Con la codifica numerica, un modello interpreterebbe i numeri grezzi matematicamente e tenterebbe di addestrarsi su questi numeri. Tuttavia, l'Islanda non è il doppio (o la metà) di qualcosa rispetto alla Norvegia, quindi il modello arriverebbe a conclusioni strane.

Per saperne di più, consulta Dati categorici: vocabolario e codifica one-hot in Machine Learning Crash Course.

apprendimento one-shot

Un approccio di machine learning, spesso utilizzato per la classificazione degli oggetti, progettato per apprendere un modello di classificazione efficace da un singolo esempio di addestramento.

Vedi anche apprendimento few-shot e apprendimento zero-shot.

prompting one-shot

#language
#generativeAI

Un prompt che contiene un esempio che mostra come deve rispondere il modello linguistico di grandi dimensioni. Ad esempio, il seguente prompt contiene un esempio che mostra a un modello linguistico di grandi dimensioni come deve rispondere a una query.

Parti di un prompt Note
Qual è la valuta ufficiale del paese specificato? La domanda a cui vuoi che l'LLM risponda.
Francia: EUR Un esempio.
India: La query effettiva.

Confronta e contrapponi il prompt one-shot con i seguenti termini:

one-vs.-all

#fundamentals

Dato un problema di classificazione con N classi, una soluzione costituita da N classificatori binari separati, uno per ogni risultato possibile. Ad esempio, dato un modello che classifica gli esempi come animale, vegetale o minerale, una soluzione uno contro tutti fornirebbe i seguenti tre classificatori binari separati:

  • animale o non animale
  • verdura o non verdura
  • minerale o non minerale

online

#fundamentals

Sinonimo di dinamico.

inferenza online

#fundamentals

Generazione di previsioni on demand. Ad esempio, supponiamo che un'app passi l'input a un modello ed emetta una richiesta di previsione. Un sistema che utilizza l'inferenza online risponde alla richiesta eseguendo il modello (e restituendo la previsione all'app).

Contrasta con l'inferenza offline.

Per saperne di più, consulta la sezione Sistemi ML di produzione: inferenza statica e dinamica di Machine Learning Crash Course.

operazione (op)

#TensorFlow

In TensorFlow, qualsiasi procedura che crea, manipola o distrugge un Tensor. Ad esempio, una moltiplicazione matriciale è un'operazione che accetta due tensori come input e genera un tensore come output.

Optax

Una libreria di elaborazione e ottimizzazione dei gradienti per JAX. Optax facilita la ricerca fornendo blocchi di costruzione che possono essere ricombinati in modi personalizzati per ottimizzare modelli parametrici come le reti neurali profonde. Altri obiettivi includono:

  • Fornire implementazioni leggibili, ben testate ed efficienti dei componenti principali.
  • Migliorare la produttività consentendo di combinare ingredienti di basso livello in ottimizzatori personalizzati (o altri componenti di elaborazione del gradiente).
  • Accelerare l'adozione di nuove idee semplificando il contributo di chiunque.

ottimizzatore

Un'implementazione specifica dell'algoritmo di discesa del gradiente. Gli ottimizzatori più utilizzati includono:

  • AdaGrad, che sta per ADAptive GRADient descent (discesa del gradiente adattiva).
  • Adam, che sta per ADAptive with Momentum.

bias di omogeneità del gruppo esterno

#responsible

La tendenza a considerare i membri del gruppo esterno più simili tra loro rispetto a quelli del gruppo interno quando si confrontano atteggiamenti, valori, tratti della personalità e altre caratteristiche. Gruppo interno si riferisce alle persone con cui interagisci regolarmente; gruppo esterno si riferisce alle persone con cui non interagisci regolarmente. Se crei un set di dati chiedendo alle persone di fornire attributi relativi a outgroup, questi attributi potrebbero essere meno sfumati e più stereotipati rispetto a quelli che i partecipanti elencano per le persone del loro ingroup.

Ad esempio, i lillipuziani potrebbero descrivere le case di altri lillipuziani in modo molto dettagliato, citando piccole differenze negli stili architettonici, nelle finestre, nelle porte e nelle dimensioni. Tuttavia, gli stessi Lillipuziani potrebbero semplicemente dichiarare che tutti i Brobdingnagiani vivono in case identiche.

Il bias di omogeneità del gruppo esterno è una forma di bias di attribuzione di gruppo.

Vedi anche bias di affinità.

Rilevamento outlier

Il processo di identificazione dei valori anomali in un set di addestramento.

Contrasto con il rilevamento di novità.

le anomalie

Valori distanti dalla maggior parte degli altri valori. Nel machine learning, sono outlier tutti i seguenti valori:

  • Inserisci dati i cui valori si discostano dalla media di più di tre deviazioni standard.
  • Pesi con valori assoluti elevati.
  • Valori previsti relativamente lontani dai valori effettivi.

Ad esempio, supponiamo che widget-price sia una funzionalità di un determinato modello. Supponiamo che la media widget-price sia di 7 euro con una deviazione standard di 1 euro. Gli esempi contenenti un widget-price di 12 euro o 2 euro sarebbero quindi considerati valori anomali perché ciascuno di questi prezzi si discosta di cinque deviazioni standard dalla media.

Gli outlier sono spesso causati da errori di battitura o altri errori di inserimento. In altri casi, i valori anomali non sono errori; dopo tutto, i valori a cinque deviazioni standard dalla media sono rari ma non impossibili.

Gli outlier spesso causano problemi nell'addestramento del modello. Il clipping è un modo per gestire i valori anomali.

Per saperne di più, consulta la sezione Utilizzo dei dati numerici di Machine Learning Crash Course.

valutazione out-of-bag (valutazione OOB)

#df

Un meccanismo per valutare la qualità di una foresta decisionale testando ogni albero decisionale rispetto agli esempi non utilizzati durante l'addestramento di quell'albero decisionale. Ad esempio, nel diagramma seguente, nota che il sistema addestra ogni albero decisionale su circa due terzi degli esempi e poi lo valuta in base al terzo rimanente degli esempi.

Una foresta decisionale composta da tre alberi decisionali.
          Un albero decisionale viene addestrato su due terzi degli esempi
          e poi utilizza il restante terzo per la valutazione OOB.
          Un secondo albero decisionale viene addestrato su due terzi diversi
          degli esempi rispetto all&#39;albero decisionale precedente e poi
          utilizza un terzo diverso per la valutazione OOB rispetto
          all&#39;albero decisionale precedente.

La valutazione out-of-bag è un'approssimazione efficiente dal punto di vista computazionale e conservativa del meccanismo di cross-validation. Nella convalida incrociata, viene addestrato un modello per ogni round di convalida incrociata (ad esempio, vengono addestrati 10 modelli in una convalida incrociata a 10 fold). Con la valutazione OOB, viene addestrato un singolo modello. Poiché il bagging esclude alcuni dati da ogni albero durante l'addestramento, la valutazione OOB può utilizzare questi dati per approssimare la convalida incrociata.

Per ulteriori informazioni, consulta Valutazione out-of-bag nel corso Decision Forests.

livello di output

#fundamentals

Il livello "finale" di una rete neurale. Lo strato di output contiene la previsione.

La seguente illustrazione mostra una piccola rete neurale profonda con uno strato di input, due strati nascosti e uno strato di output:

Una rete neurale con uno strato di input, due strati nascosti e uno di output. Il livello di input è costituito da due caratteristiche. Il primo strato nascosto è composto da tre neuroni e il secondo da due. Lo strato di output è costituito da un singolo nodo.

overfitting

#fundamentals

Creazione di un modello che corrisponde ai dati di addestramento in modo così preciso che il modello non riesce a fare previsioni corrette sui nuovi dati.

La regolarizzazione può ridurre l'overfitting. L'addestramento su un set di addestramento ampio e diversificato può anche ridurre l'overfitting.

Per saperne di più, consulta la sezione Overfitting di Machine Learning Crash Course.

sovrasampling

Riutilizzare gli esempi di una classe di minoranza in un set di dati con classi sbilanciate per creare un set di addestramento più bilanciato.

Ad esempio, considera un problema di classificazione binaria in cui il rapporto tra la classe maggioritaria e la classe minoritaria è 5000:1. Se il set di dati contiene un milione di esempi, allora contiene solo circa 200 esempi della classe minoritaria, che potrebbero essere troppo pochi per un addestramento efficace. Per superare questa carenza, potresti eseguire l'oversampling (riutilizzare) questi 200 esempi più volte, ottenendo così esempi sufficienti per un addestramento utile.

Devi fare attenzione all'overfitting quando esegui l'oversampling.

Contrasto con il sottocampionamento.

P

dati compressi

Un approccio per archiviare i dati in modo più efficiente.

I data store compressi memorizzano i dati utilizzando un formato compresso o in un altro modo che ne consenta l'accesso in modo più efficiente. I dati compressi riducono al minimo la quantità di memoria e di calcoli necessari per accedervi, il che comporta un addestramento più rapido e un'inferenza del modello più efficiente.

I dati compressi vengono spesso utilizzati con altre tecniche, come l'aumento dei dati e la regolarizzazione, migliorando ulteriormente le prestazioni dei modelli.

PaLM

Abbreviazione di Pathways Language Model.

panda

#fundamentals

Un'API per l'analisi dei dati orientata alle colonne basata su numpy. Molti framework di machine learning, tra cui TensorFlow, supportano le strutture di dati pandas come input. Per informazioni dettagliate, consulta la documentazione di pandas.

parametro

#fundamentals

Le ponderazioni e i bias che un modello apprende durante l'addestramento. Ad esempio, in un modello di regressione lineare, i parametri sono costituiti dal bias (b) e da tutti i pesi (w1, w2 e così via) nella seguente formula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Al contrario, gli iperparametri sono i valori che tu (o un servizio di ottimizzazione degli iperparametri) fornisci al modello. Ad esempio, il tasso di apprendimento è un iperparametro.

ottimizzazione efficiente dei parametri

#language
#generativeAI

Un insieme di tecniche per ottimizzare un modello linguistico di grandi dimensioni preaddestrato (PLM) in modo più efficiente rispetto all'ottimizzazione completa. L'ottimizzazione efficiente dei parametri in genere ottimizza un numero molto inferiore di parametri rispetto all'ottimizzazione completa, ma in genere produce un modello linguistico di grandi dimensioni che ha un rendimento pari (o quasi pari) a quello di un modello linguistico di grandi dimensioni creato con l'ottimizzazione completa.

Confronta e contrapponi l'ottimizzazione efficiente dei parametri con:

L'ottimizzazione efficiente dei parametri è nota anche come ottimizzazione efficiente dei parametri.

Server dei parametri (PS)

#TensorFlow

Un job che tiene traccia dei parametri di un modello in un'impostazione distribuita.

aggiornamento dei parametri

L'operazione di aggiustamento dei parametri di un modello durante l'addestramento, in genere all'interno di una singola iterazione della discesa del gradiente.

derivata parziale

Una derivata in cui tutte le variabili tranne una sono considerate costanti. Ad esempio, la derivata parziale di f(x, y) rispetto a x è la derivata di f considerata come funzione solo di x (ovvero mantenendo y costante). La derivata parziale di f rispetto a x si concentra solo su come cambia x e ignora tutte le altre variabili nell'equazione.

bias di partecipazione

#responsible

Sinonimo di bias di non risposta. Consulta la sezione Bias di selezione.

strategia di partizionamento

L'algoritmo in base al quale le variabili vengono suddivise tra i server dei parametri.

pass at k (pass@k)

#Metric

Una metrica per determinare la qualità del codice (ad esempio Python) che genera un modello linguistico di grandi dimensioni. Più nello specifico, il valore di superamento a k indica la probabilità che almeno un blocco di codice generato su k blocchi di codice generati superi tutti i test delle unità.

I modelli linguistici di grandi dimensioni spesso faticano a generare codice valido per problemi di programmazione complessi. Gli ingegneri del software si adattano a questo problema chiedendo al modello linguistico di grandi dimensioni di generare più (k) soluzioni per lo stesso problema. Successivamente, gli ingegneri del software testano ciascuna delle soluzioni rispetto ai test delle unità. Il calcolo di pass at k dipende dal risultato dei test unitari:

  • Se una o più di queste soluzioni superano il test unitario, il modello LLM supera la sfida di generazione del codice.
  • Se nessuna delle soluzioni supera il test unitario, il modello LLM non supera la sfida di generazione di codice.

La formula per il passaggio a k è la seguente:

\[\text{pass at k} = \frac{\text{total number of passes}} {\text{total number of challenges}}\]

In generale, valori più elevati di k producono punteggi pass@k più elevati; tuttavia, valori più elevati di k richiedono più risorse per i test di unità e i modelli linguistici di grandi dimensioni.

Pathways Language Model (PaLM)

Un modello precedente e predecessore dei modelli Gemini.

Pax

#generativeAI

Un framework di programmazione progettato per l'addestramento di modelli di reti neurali su larga scala così grandi da estendersi su più slice o pod di chip di accelerazione TPU.

Pax è basato su Flax, che a sua volta è basato su JAX.

Diagramma che indica la posizione di Pax nello stack software.
          Pax è basato su JAX. Pax è composto da tre
          livelli. Il livello inferiore contiene TensorStore e Flax.
          Lo strato intermedio contiene Optax e Flaxformer. Il livello
          superiore contiene la libreria di modelli di Praxis. Fiddle è basato
          su Pax.

percettrone

Un sistema (hardware o software) che accetta uno o più valori di input, esegue una funzione sulla somma ponderata degli input e calcola un singolo valore di output. Nel machine learning, la funzione è in genere non lineare, ad esempio ReLU, sigmoidea o tanh. Ad esempio, il seguente percettrone si basa sulla funzione sigmoide per elaborare tre valori di input:

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

Nell'illustrazione seguente, il percettrone accetta tre input, ognuno dei quali viene modificato da un peso prima di entrare nel percettrone:

Un percettrone che accetta tre input, ognuno moltiplicato per pesi separati. Il perceptron restituisce un singolo valore.

I percettroni sono i neuroni nelle reti neurali.

prestazioni

#Metric

Termine sovraccarico con i seguenti significati:

  • Il significato standard nell'ingegneria del software. ovvero: quanto velocemente (o in modo efficiente) viene eseguito questo software?
  • Il significato nel machine learning. In questo caso, il rendimento risponde alla seguente domanda: quanto è corretto questo modello? ovvero quanto sono accurate le previsioni del modello.

importanza delle variabili di permutazione

#df
#Metric

Un tipo di importanza delle variabili che valuta l'aumento dell'errore di previsione di un modello dopo la permutazione dei valori della caratteristica. L'importanza delle variabili di permutazione è una metrica indipendente dal modello.

perplessità

#Metric

Una misura dell'efficacia di un modello nello svolgimento della sua attività. Ad esempio, supponiamo che il tuo compito sia leggere le prime lettere di una parola che un utente sta digitando sulla tastiera di uno smartphone e offrire un elenco di possibili parole di completamento. La perplessità, P, per questa attività è approssimativamente il numero di tentativi che devi offrire affinché il tuo elenco contenga la parola effettiva che l'utente sta cercando di digitare.

La perplessità è correlata all'entropia incrociata come segue:

$$P= 2^{-\text{cross entropy}}$$

pipeline

L'infrastruttura che circonda un algoritmo di machine learning. Una pipeline include la raccolta dei dati, l'inserimento dei dati nei file di dati di addestramento, l'addestramento di uno o più modelli e l'esportazione dei modelli in produzione.

Per saperne di più, consulta la sezione Pipeline ML del corso Gestione dei progetti ML.

pipelining

#language

Una forma di parallelismo del modello in cui l'elaborazione di un modello è suddivisa in fasi consecutive e ogni fase viene eseguita su un dispositivo diverso. Mentre una fase elabora un batch, la fase precedente può lavorare sul batch successivo.

Vedi anche l'addestramento scaglionato.

pjit

Una funzione JAX che suddivide il codice da eseguire su più chip di accelerazione. L'utente passa una funzione a pjit, che restituisce una funzione con la stessa semantica, ma compilata in un calcolo XLA che viene eseguito su più dispositivi (come GPU o core TPU).

pjit consente agli utenti di partizionare i calcoli senza riscriverli utilizzando il partizionatore SPMD.

A partire da marzo 2023, pjit è stato unito a jit. Per ulteriori dettagli, consulta Array distribuiti e parallelizzazione automatica.

PLM

#language
#generativeAI

Abbreviazione di modello linguistico preaddestrato.

pmap

Una funzione JAX che esegue copie di una funzione di input su più dispositivi hardware sottostanti (CPU, GPU o TPU), con valori di input diversi. pmap si basa su SPMD.

policy

#rl

Nell'apprendimento per rinforzo, la mappatura probabilistica di un agente dagli stati alle azioni.

pooling

#image

Riduzione di una o più matrici create da un precedente livello convoluzionale a una matrice più piccola. Il raggruppamento di solito comporta l'utilizzo del valore massimo o medio nell'area raggruppata. Ad esempio, supponiamo di avere la seguente matrice 3x3:

La matrice 3x3 [[5,3,1], [8,2,5], [9,4,3]].

Un'operazione di pooling, proprio come un'operazione convoluzionale, divide la matrice in sezioni e poi fa scorrere l'operazione convoluzionale di passi. Ad esempio, supponiamo che l'operazione di pooling divida la matrice convoluzionale in sezioni 2x2 con un passo 1x1. Come illustrato nel seguente diagramma, vengono eseguite quattro operazioni di pooling. Immagina che ogni operazione di pooling scelga il valore massimo dei quattro in quella sezione:

La matrice di input è 3x3 con i valori: [[5,3,1], [8,2,5], [9,4,3]].
          La sottomatrice 2x2 in alto a sinistra della matrice di input è [[5,3], [8,2]], quindi
          l&#39;operazione di pooling in alto a sinistra produce il valore 8 (che è il
          massimo di 5, 3, 8 e 2). La sottomatrice 2x2 in alto a destra della matrice
          di input è [[3,1], [2,5]], quindi l&#39;operazione di pooling in alto a destra produce
          il valore 5. La sottomatrice 2x2 in basso a sinistra della matrice di input è
          [[8,2], [9,4]], quindi l&#39;operazione di pooling in basso a sinistra produce il valore
          9. La sottomatrice 2x2 in basso a destra della matrice di input è
          [[2,5], [4,3]], quindi l&#39;operazione di pooling in basso a destra produce il valore
          5. In sintesi, l&#39;operazione di pooling produce la matrice 2x2
          [[8,5], [9,5]].

Il pooling contribuisce a imporre l'invarianza traslazionale nella matrice di input.

Il pooling per le applicazioni di visione è noto più formalmente come pooling spaziale. Le applicazioni di serie temporali di solito si riferiscono al pooling come pooling temporale. In termini meno formali, il pooling viene spesso chiamato sottocampionamento o riduzione del campionamento.

Consulta la sezione Introduzione alle reti neurali convoluzionali nel corso ML Practicum: classificazione delle immagini.

codifica posizionale

#language

Una tecnica per aggiungere informazioni sulla posizione di un token in una sequenza all'incorporamento del token. I modelli Transformer utilizzano la codifica posizionale per comprendere meglio la relazione tra le diverse parti della sequenza.

Un'implementazione comune della codifica posizionale utilizza una funzione sinusoidale. Nello specifico, la frequenza e l'ampiezza della funzione sinusoidale sono determinate dalla posizione del token nella sequenza. Questa tecnica consente a un modello Transformer di imparare a prestare attenzione a diverse parti della sequenza in base alla loro posizione.

classe positiva

#fundamentals
#Metric

Il corso per cui stai eseguendo il test.

Ad esempio, la classe positiva in un modello per il cancro potrebbe essere "tumore". La classe positiva in un modello di classificazione delle email potrebbe essere "spam".

Contrasta con la classe negativa.

post-elaborazione

#responsible
#fundamentals

Modifica dell'output di un modello dopo l'esecuzione. Il post-processing può essere utilizzato per applicare vincoli di equità senza modificare i modelli stessi.

Ad esempio, è possibile applicare il post-processing a un classificatore binario impostando una soglia di classificazione in modo che l'uguaglianza delle opportunità sia mantenuta per un determinato attributo verificando che il tasso di veri positivi sia lo stesso per tutti i valori di quell'attributo.

modello postaddestrato

#language
#image
#generativeAI

Termine definito in modo generico che in genere si riferisce a un modello preaddestrato che è stato sottoposto a un'elaborazione post-elaborazione, ad esempio una o più delle seguenti:

AUC PR (area sotto la curva PR)

#Metric

Area sotto la curva di precisione-richiamo interpolata, ottenuta tracciando i punti (richiamo, precisione) per diversi valori della soglia di classificazione.

Praxis

Una libreria ML di base ad alte prestazioni di Pax. Praxis viene spesso chiamata "Libreria dei livelli".

Praxis contiene non solo le definizioni per la classe Layer, ma anche la maggior parte dei suoi componenti di supporto, tra cui:

Praxis fornisce le definizioni per la classe Model.

precisione

#fundamentals
#Metric

Una metrica per i modelli di classificazione che risponde alla seguente domanda:

Quando il modello ha previsto la classe positiva, qual è stata la percentuale di previsioni corrette?

Ecco la formula:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

dove:

  • vero positivo significa che il modello ha previsto correttamente la classe positiva.
  • Un falso positivo significa che il modello ha previsto erroneamente la classe positiva.

Ad esempio, supponiamo che un modello abbia effettuato 200 previsioni positive. Delle 200 previsioni positive:

  • 150 erano veri positivi.
  • 50 erano falsi positivi.

In questo caso:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

Contrasto con accuratezza e richiamo.

Per saperne di più, consulta Classificazione: accuratezza, richiamo, precisione e metriche correlate in Machine Learning Crash Course.

precisione a k (precision@k)

#language
#Metric

Una metrica per valutare un elenco classificato (ordinato) di elementi. La precisione a k identifica la frazione dei primi k elementi dell'elenco che sono "pertinenti". Ossia:

\[\text{precision at k} = \frac{\text{relevant items in first k items of the list}} {\text{k}}\]

Il valore di k deve essere minore o uguale alla lunghezza dell'elenco restituito. Tieni presente che la lunghezza dell'elenco restituito non fa parte del calcolo.

La pertinenza è spesso soggettiva; anche gli evaluatori umani esperti spesso non sono d'accordo su quali elementi siano pertinenti.

Confronta con:

curva di precisione-richiamo

#Metric

Una curva di precisione rispetto al richiamo in corrispondenza di diverse soglie di classificazione.

previsione

#fundamentals

L'output di un modello. Ad esempio:

  • La previsione di un modello di classificazione binaria è la classe positiva o la classe negativa.
  • La previsione di un modello di classificazione multi-classe è una classe.
  • La previsione di un modello di regressione lineare è un numero.

bias di previsione

#Metric

Un valore che indica la distanza tra la media delle previsioni e la media delle etichette nel set di dati.

Da non confondere con il termine di bias nei modelli di machine learning o con il bias in etica ed equità.

ML predittivo

Qualsiasi sistema di machine learning standard ("classico").

Il termine ML predittivo non ha una definizione formale. Il termine distingue una categoria di sistemi ML non basata sull'AI generativa.

parità predittiva

#responsible
#Metric

Una metrica di equità che controlla se, per un determinato classificatore, i tassi di precisione sono equivalenti per i sottogruppi in esame.

Ad esempio, un modello che prevede l'ammissione all'università soddisferebbe la parità predittiva per nazionalità se il suo tasso di precisione è lo stesso per i lillipuziani e i brobdingnagiani.

La parità predittiva è talvolta chiamata anche parità predittiva delle tariffe.

Consulta la sezione "Spiegazione delle definizioni di equità" (sezione 3.2.1) per una discussione più dettagliata della parità predittiva.

parità tariffaria predittiva

#responsible
#Metric

Un altro nome per la parità predittiva.

pre-elaborazione

#responsible
Elaborazione dei dati prima che vengano utilizzati per addestrare un modello. Il pre-elaborazione potrebbe essere semplice come rimuovere le parole da un corpus di testo in inglese che non sono presenti nel dizionario inglese oppure complessa come la rielaborazione dei punti dati in modo da eliminare il maggior numero possibile di attributi correlati ad attributi sensibili. Il pre-elaborazione può contribuire a soddisfare i vincoli di equità.

modello preaddestrato

#language
#image
#generativeAI

Sebbene questo termine possa riferirsi a qualsiasi modello o vettore di incorporamento addestrato, ora il modello preaddestrato in genere si riferisce a un modello linguistico di grandi dimensioni o a un'altra forma di modello di AI generativa addestrato.

Vedi anche modello di base e foundation model.

pre-training

#language
#image
#generativeAI

L'addestramento iniziale di un modello su un grande set di dati. Alcuni modelli pre-addestrati sono giganti goffi e in genere devono essere perfezionati tramite un addestramento aggiuntivo. Ad esempio, gli esperti di ML potrebbero pre-addestrare un modello linguistico di grandi dimensioni su un vasto set di dati di testo, come tutte le pagine in inglese di Wikipedia. Dopo il pre-addestramento, il modello risultante può essere ulteriormente perfezionato mediante una delle seguenti tecniche:

credenza a priori

Ciò che pensi dei dati prima di iniziare l'addestramento. Ad esempio, la regolarizzazione L2 si basa su una convinzione a priori che i pesi debbano essere piccoli e distribuiti normalmente intorno allo zero.

Pro

#generativeAI

Un modello Gemini con meno parametri di Ultra, ma più parametri di Nano. Per maggiori dettagli, consulta la pagina Gemini Pro.

modello di regressione probabilistico

Un modello di regressione che utilizza non solo i pesi per ogni caratteristica, ma anche l'incertezza di questi pesi. Un modello di regressione probabilistico genera una previsione e l'incertezza di questa previsione. Ad esempio, un modello di regressione probabilistica potrebbe produrre una previsione di 325 con una deviazione standard di 12. Per ulteriori informazioni sui modelli di regressione probabilistica, consulta questo Colab su tensorflow.org.

funzione di densità di probabilità

#Metric

Una funzione che identifica la frequenza dei campioni di dati che hanno esattamente un determinato valore. Quando i valori di un set di dati sono numeri in virgola mobile continui, raramente si verificano corrispondenze esatte. Tuttavia, integrando una funzione di densità di probabilità dal valore x al valore y si ottiene la frequenza prevista dei campioni di dati compresi tra x e y.

Ad esempio, considera una distribuzione normale con una media di 200 e una deviazione standard di 30. Per determinare la frequenza prevista dei campioni di dati che rientrano nell'intervallo da 211,4 a 218,7, puoi integrare la funzione di densità di probabilità per una distribuzione normale da 211,4 a 218,7.

prompt

#language
#generativeAI

Qualsiasi testo inserito come input in un modello linguistico di grandi dimensioni per condizionare il modello a comportarsi in un determinato modo. I prompt possono essere brevi come una frase o arbitrariamente lunghi (ad esempio, l'intero testo di un romanzo). I prompt rientrano in più categorie, tra cui quelle mostrate nella tabella seguente:

Categoria di prompt Esempio Note
Domanda A che velocità può volare un piccione?
Istruzione Scrivi una poesia divertente sull'arbitraggio. Un prompt che chiede al modello linguistico di grandi dimensioni (LLM) di fare qualcosa.
Esempio Traduci il codice Markdown in HTML. Ad esempio:
Markdown: * list item
HTML: <ul> <li>list item</li> </ul>
La prima frase di questo prompt di esempio è un'istruzione. Il resto del prompt è l'esempio.
Ruolo Spiega perché la discesa del gradiente viene utilizzata nell'addestramento del machine learning a un dottorato in fisica. La prima parte della frase è un'istruzione; la frase "to a PhD in Physics" è la parte relativa al ruolo.
Input parziale da completare per il modello Il Primo Ministro del Regno Unito vive a Un prompt di input parziale può terminare bruscamente (come in questo esempio) o con un trattino basso.

Un modello di AI generativa può rispondere a un prompt con testo, codice, immagini, incorporamenti, video… quasi qualsiasi cosa.

apprendimento basato su prompt

#language
#generativeAI

Una funzionalità di alcuni modelli che consente loro di adattare il proprio comportamento in risposta a input di testo arbitrari (prompt). In un tipico paradigma di apprendimento basato sui prompt, un modello linguistico di grandi dimensioni risponde a un prompt generando testo. Ad esempio, supponiamo che un utente inserisca il seguente prompt:

Riassumi il terzo principio della dinamica di Newton.

Un modello in grado di apprendere in base ai prompt non è addestrato in modo specifico per rispondere al prompt precedente. Il modello "conosce" molti fatti sulla fisica, molte regole linguistiche generali e molti elementi che costituiscono risposte generalmente utili. Queste informazioni sono sufficienti per fornire una risposta (si spera) utile. Ulteriori feedback umani ("Questa risposta era troppo complicata" o "Che cos'è una reazione?") consentono ad alcuni sistemi di apprendimento basati su prompt di migliorare gradualmente l'utilità delle loro risposte.

progettazione dei prompt

#language
#generativeAI

Sinonimo di prompt engineering.

ingegneria del prompt

#language
#generativeAI

L'arte di creare prompt che generano le risposte desiderate da un modello linguistico di grandi dimensioni. Gli esseri umani eseguono l'ingegneria dei prompt. Scrivere prompt ben strutturati è una parte essenziale per garantire risposte utili da un modello linguistico di grandi dimensioni. L'ingegneria dei prompt dipende da molti fattori, tra cui:

  • Il set di dati utilizzato per il preaddestramento e, possibilmente, per l'ottimizzazione del modello linguistico di grandi dimensioni.
  • La temperatura e altri parametri di decodifica che il modello utilizza per generare risposte.

Progettazione dei prompt è un sinonimo di prompt engineering.

Per saperne di più su come scrivere prompt utili, consulta Introduzione alla progettazione dei prompt.

ottimizzazione dei prompt

#language
#generativeAI

Un meccanismo di ottimizzazione efficiente dei parametri che apprende un "prefisso" che il sistema antepone al prompt effettivo.

Una variante della messa a punto del prompt, a volte chiamata messa a punto del prefisso, consiste nell'anteporre il prefisso a ogni livello. Al contrario, la maggior parte della messa a punto dei prompt aggiunge solo un prefisso al livello di input.

proxy (attributi sensibili)

#responsible
Un attributo utilizzato come sostituto di un attributo sensibile. Ad esempio, il codice postale di una persona potrebbe essere utilizzato come proxy per il suo reddito, la sua razza o la sua etnia.

proxy labels

#fundamentals

Dati utilizzati per approssimare le etichette non disponibili direttamente in un set di dati.

Ad esempio, supponiamo di dover addestrare un modello per prevedere il livello di stress dei dipendenti. Il tuo set di dati contiene molte funzionalità predittive, ma non contiene un'etichetta denominata livello di stress. Senza scoraggiarti, scegli "incidenti sul lavoro" come etichetta proxy per il livello di stress. Dopo tutto, i dipendenti sotto forte stress sono più soggetti a incidenti rispetto a quelli tranquilli. O no? Forse gli incidenti sul lavoro aumentano e diminuiscono per diversi motivi.

Come secondo esempio, supponiamo che tu voglia che is it raining? sia un'etichetta booleana per il tuo set di dati, ma il tuo set di dati non contiene dati sulla pioggia. Se sono disponibili fotografie, potresti stabilire immagini di persone che portano ombrelli come etichetta proxy per sta piovendo? È un'etichetta proxy valida? Probabilmente, ma le persone di alcune culture potrebbero portare con sé l'ombrello più per proteggersi dal sole che dalla pioggia.

Le etichette proxy spesso non sono perfette. Se possibile, scegli etichette effettive anziché etichette proxy. Detto questo, quando un'etichetta effettiva è assente, scegli l'etichetta proxy con molta attenzione, selezionando il candidato meno orribile.

Per saperne di più, consulta Set di dati: etichette in Machine Learning Crash Course.

funzione pura

Una funzione i cui output si basano solo sui suoi input e che non ha effetti collaterali. Nello specifico, una funzione pura non utilizza né modifica alcuno stato globale, come il contenuto di un file o il valore di una variabile al di fuori della funzione.

Le funzioni pure possono essere utilizzate per creare codice thread-safe, il che è utile quando si esegue lo sharding del codice del modello su più chip di accelerazione.

I metodi di trasformazione delle funzioni di JAX richiedono che le funzioni di input siano pure.

Q

Funzione Q

#rl

Nell'apprendimento per rinforzo, la funzione che prevede il rendimento previsto dall'esecuzione di un'azione in uno stato e dal rispetto di una determinata norma.

La funzione Q è nota anche come funzione di valore stato-azione.

Q-learning

#rl

Nel reinforcement learning, un algoritmo che consente a un agente di apprendere la funzione Q ottimale di un processo decisionale di Markov applicando l'equazione di Bellman. Il processo decisionale di Markov modella un ambiente.

quantile

Ogni bucket nel raggruppamento per quantili.

bucketing quantile

Distribuzione dei valori di una caratteristica in bucket in modo che ogni bucket contenga lo stesso numero (o quasi) di esempi. Ad esempio, la figura seguente divide 44 punti in 4 bucket, ognuno dei quali contiene 11 punti. Affinché ogni bucket della figura contenga lo stesso numero di punti, alcuni bucket coprono una larghezza diversa di valori x.

44 punti dati suddivisi in 4 bucket da 11 punti ciascuno.
          Sebbene ogni bucket contenga lo stesso numero di punti dati,
          alcuni bucket contengono una gamma più ampia di valori delle funzionalità rispetto ad altri
          bucket.

Per saperne di più, consulta Dati numerici: binning in Machine Learning Crash Course.

quantizzazione

Termine sovraccarico che può essere utilizzato in uno dei seguenti modi:

  • Implementazione del raggruppamento per quantili su una determinata funzionalità.
  • Trasformare i dati in zeri e uno per archiviarli, addestrarli e dedurli più rapidamente. Poiché i dati booleani sono più resistenti al rumore e agli errori rispetto ad altri formati, la quantizzazione può migliorare la correttezza del modello. Le tecniche di quantizzazione includono l'arrotondamento, il troncamento e il binning.
  • Riduzione del numero di bit utilizzati per memorizzare i parametri di un modello. Ad esempio, supponiamo che i parametri di un modello siano memorizzati come numeri in virgola mobile a 32 bit. La quantizzazione converte questi parametri da 32 bit a 4, 8 o 16 bit. La quantizzazione riduce quanto segue:

    • Utilizzo di calcolo, memoria, disco e rete
    • Tempo per dedurre una previsione
    • Consumo energetico

    Tuttavia, a volte la quantizzazione riduce la correttezza delle previsioni di un modello.

coda

#TensorFlow

Un'operazione TensorFlow che implementa una struttura di dati di coda. Utilizzato in genere in I/O.

R

RAG

#fundamentals

Abbreviazione di retrieval-augmented generation.

foresta casuale

#df

Un insieme di alberi decisionali in cui ogni albero decisionale viene addestrato con un rumore casuale specifico, ad esempio il bagging.

Le foreste casuali sono un tipo di foresta decisionale.

Per ulteriori informazioni, consulta la sezione Random Forest del corso Decision Forests.

norma casuale

#rl

Nell'apprendimento per rinforzo, una policy che sceglie un'azione in modo casuale.

rank (ordinality)

La posizione ordinale di una classe in un problema di machine learning che categorizza le classi dalla più alta alla più bassa. Ad esempio, un sistema di classificazione del comportamento potrebbe classificare le ricompense di un cane dalla più alta (una bistecca) alla più bassa (cavolo nero appassito).

rank (tensore)

#TensorFlow

Il numero di dimensioni in un Tensor. Ad esempio, uno scalare ha rango 0, un vettore ha rango 1 e una matrice ha rango 2.

Da non confondere con il ranking (ordinalità).

ranking

Un tipo di apprendimento supervisionato il cui obiettivo è ordinare un elenco di elementi.

valutatore

#fundamentals

Una persona che fornisce etichette per gli esempi. "Annotatore" è un altro nome per valutatore.

Per saperne di più, consulta Dati categorici: problemi comuni in Machine Learning Crash Course.

richiamo

#fundamentals
#Metric

Una metrica per i modelli di classificazione che risponde alla seguente domanda:

Quando la verità di riferimento era la classe positiva, quale percentuale di previsioni è stata identificata correttamente dal modello come classe positiva?

Ecco la formula:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

dove:

  • vero positivo significa che il modello ha previsto correttamente la classe positiva.
  • Un falso negativo significa che il modello ha previsto erroneamente la classe negativa.

Ad esempio, supponiamo che il modello abbia effettuato 200 previsioni su esempi per i quali la verità di base era la classe positiva. Di queste 200 previsioni:

  • 180 erano veri positivi.
  • 20 erano falsi negativi.

In questo caso:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

Per saperne di più, consulta Classificazione: accuratezza, richiamo, precisione e metriche correlate.

richiamo a k (recall@k)

#language
#Metric

Una metrica per valutare i sistemi che restituiscono un elenco classificato (ordinato) di elementi. Il richiamo a k identifica la frazione di elementi pertinenti nei primi k elementi di questo elenco rispetto al numero totale di elementi pertinenti restituiti.

\[\text{recall at k} = \frac{\text{relevant items in first k items of the list}} {\text{total number of relevant items in the list}}\]

Contrasto con precisione a k.

sistema di suggerimenti

#recsystems

Un sistema che seleziona per ogni utente un insieme relativamente piccolo di elementi desiderabili da un corpus di grandi dimensioni. Ad esempio, un sistema di consigli sui video potrebbe consigliare due video da un corpus di 100.000 video, selezionando Casablanca e Scandalo a Filadelfia per un utente e Wonder Woman e Black Panther per un altro. Un sistema di consigli sui video potrebbe basare i suoi consigli su fattori quali:

  • Film che utenti simili hanno valutato o guardato.
  • Genere, registi, attori, gruppo demografico target…

Per saperne di più, consulta il corso sui sistemi di raccomandazione.

Unità lineare rettificata (ReLU)

#fundamentals

Una funzione di attivazione con il seguente comportamento:

  • Se l'input è negativo o pari a zero, l'output è 0.
  • Se l'input è positivo, l'output è uguale all'input.

Ad esempio:

  • Se l'input è -3, l'output è 0.
  • Se l'input è +3, l'output è 3.0.

Ecco un grafico della ReLU:

Un grafico cartesiano di due linee. La prima linea ha un valore
          y costante pari a 0 e si estende lungo l&#39;asse x da -infinito,0 a 0,-0.
          La seconda riga inizia da 0,0. Questa retta ha una pendenza di +1, quindi
          va da 0,0 a +infinito,+infinito.

ReLU è una funzione di attivazione molto popolare. Nonostante il suo comportamento semplice, ReLU consente comunque a una rete neurale di apprendere relazioni non lineari tra le caratteristiche e l'etichetta.

rete neurale ricorrente

#seq

Una rete neurale che viene eseguita intenzionalmente più volte, in cui parti di ogni esecuzione vengono inserite nell'esecuzione successiva. Nello specifico, i livelli nascosti dell'esecuzione precedente forniscono parte dell'input allo stesso livello nascosto nell'esecuzione successiva. Le reti neurali ricorrenti sono particolarmente utili per valutare le sequenze, in modo che gli strati nascosti possano apprendere dalle esecuzioni precedenti della rete neurale sulle parti precedenti della sequenza.

Ad esempio, la figura seguente mostra una rete neurale ricorrente che viene eseguita quattro volte. Tieni presente che i valori appresi nei livelli nascosti della prima esecuzione diventano parte dell'input degli stessi livelli nascosti nella seconda esecuzione. Allo stesso modo, i valori appresi nel livello nascosto della seconda esecuzione diventano parte dell'input dello stesso livello nascosto nella terza esecuzione. In questo modo, la rete neurale ricorrente si addestra gradualmente e prevede il significato dell'intera sequenza anziché solo il significato delle singole parole.

Una RNN che viene eseguita quattro volte per elaborare quattro parole di input.

testo di riferimento

#language
#generativeAI

La risposta di un esperto a un prompt. Ad esempio, dato il seguente prompt:

Traduci la domanda "Come ti chiami?" dall'inglese al francese.

La risposta di un esperto potrebbe essere:

Comment vous appelez-vous?

Varie metriche (come ROUGE) misurano il grado di corrispondenza tra il testo di riferimento e il testo generato di un modello ML.

modello di regressione

#fundamentals

Informalmente, un modello che genera una previsione numerica. Al contrario, un modello di classificazione genera una previsione di classe. Ad esempio, i seguenti sono tutti modelli di regressione:

  • Un modello che prevede il valore di una determinata casa in euro, ad esempio 423.000.
  • Un modello che prevede l'aspettativa di vita di un determinato albero in anni, ad esempio 23,2.
  • Un modello che prevede la quantità di pioggia in pollici che cadrà in una determinata città nelle sei ore successive, ad esempio 0,18.

Due tipi comuni di modelli di regressione sono:

  • Regressione lineare, che trova la linea che meglio si adatta ai valori delle etichette alle caratteristiche.
  • Regressione logistica, che genera una probabilità compresa tra 0.0 e 1.0 che un sistema in genere mappa a una previsione di classe.

Non tutti i modelli che restituiscono previsioni numeriche sono modelli di regressione. In alcuni casi, una previsione numerica è in realtà solo un modello di classificazione che ha nomi di classe numerici. Ad esempio, un modello che prevede un codice postale numerico è un modello di classificazione, non un modello di regressione.

regolarizzazione

#fundamentals

Qualsiasi meccanismo che riduce l'overfitting. I tipi più comuni di regolarizzazione includono:

La regolarizzazione può anche essere definita come la penalità per la complessità di un modello.

Per saperne di più, consulta Overfitting: complessità del modello in Machine Learning Crash Course.

tasso di regolarizzazione

#fundamentals

Un numero che specifica l'importanza relativa della regolarizzazione durante l'addestramento. L'aumento del tasso di regolarizzazione riduce l'overfitting, ma potrebbe ridurre il potere predittivo del modello. Al contrario, la riduzione o l'omissione del tasso di regolarizzazione aumenta l'overfitting.

Per saperne di più, consulta Overfitting: regolarizzazione L2 in Machine Learning Crash Course.

apprendimento per rinforzo (RL)

#rl

Una famiglia di algoritmi che apprendono una norma ottimale, il cui obiettivo è massimizzare il rendimento quando interagiscono con un ambiente. Ad esempio, la ricompensa finale della maggior parte dei giochi è la vittoria. I sistemi di apprendimento per rinforzo possono diventare esperti nel giocare a giochi complessi valutando sequenze di mosse precedenti che hanno portato a vittorie e sequenze che hanno portato a sconfitte.

Apprendimento per rinforzo con feedback umano (RLHF)

#generativeAI
#rl

Utilizzo del feedback dei valutatori umani per migliorare la qualità delle risposte di un modello. Ad esempio, un meccanismo RLHF può chiedere agli utenti di valutare la qualità della risposta di un modello con un'emoji 👍 o 👎. Il sistema può quindi modificare le risposte future in base a questo feedback.

ReLU

#fundamentals

Abbreviazione di Rectified Linear Unit.

replay buffer

#rl

Negli algoritmi simili a DQN, la memoria utilizzata dall'agente per memorizzare le transizioni di stato da utilizzare nella replay dell'esperienza.

Cloud SQL

Una copia (o parte) di un set di addestramento o di un modello, in genere archiviata su un'altra macchina. Ad esempio, un sistema potrebbe utilizzare la seguente strategia per implementare il parallelismo dei dati:

  1. Posiziona le repliche di un modello esistente su più macchine.
  2. Invia diversi sottoinsiemi del set di addestramento a ogni replica.
  3. Aggrega gli aggiornamenti dei parametri.

Una replica può anche fare riferimento a un'altra copia di un server di inferenza. L'aumento del numero di repliche aumenta il numero di richieste che il sistema può gestire simultaneamente, ma anche i costi di pubblicazione.

bias di segnalazione

#responsible

Il fatto che la frequenza con cui le persone scrivono di azioni, risultati o proprietà non riflette la loro frequenza nel mondo reale o il grado in cui una proprietà è caratteristica di una classe di individui. Il bias di segnalazione può influenzare la composizione dei dati da cui apprendono i sistemi di machine learning.

Ad esempio, nei libri la parola rise è più frequente di breathed. Un modello di machine learning che stima la frequenza relativa di risate e respirazione da un corpus di libri probabilmente determinerebbe che le risate sono più comuni della respirazione.

Per saperne di più, consulta Equità: tipi di distorsione in Machine Learning Crash Course.

vettoriale prima che arrivassero

Il processo di mappatura dei dati in funzionalità utili.

riposizionamento

#recsystems

La fase finale di un sistema di consigli, durante la quale gli elementi con punteggio possono essere riclassificati in base a un altro algoritmo (in genere non ML). Il ranking valuta l'elenco degli elementi generati dalla fase di assegnazione del punteggio, intraprendendo azioni quali:

  • Eliminando gli articoli che l'utente ha già acquistato.
  • Aumentare il punteggio degli elementi più recenti.

Per saperne di più, consulta la sezione Riorganizzazione del corso sui sistemi di raccomandazione.

Retrieval-augmented generation (RAG)

#fundamentals

Una tecnica per migliorare la qualità dell'output di un modello linguistico di grandi dimensioni (LLM) ancorandolo a fonti di conoscenza recuperate dopo l'addestramento del modello. La RAG migliora l'accuratezza delle risposte dell'LLM fornendo all'LLM addestrato l'accesso alle informazioni recuperate da knowledge base o documenti attendibili.

I motivi più comuni per utilizzare la generazione aumentata dal recupero includono:

  • Aumentare l'accuratezza oggettiva delle risposte generate da un modello.
  • Consentire al modello di accedere a conoscenze su cui non è stato addestrato.
  • Modificare le conoscenze utilizzate dal modello.
  • Consentire al modello di citare le fonti.

Ad esempio, supponiamo che un'app di chimica utilizzi l'API PaLM per generare riepiloghi relativi alle query degli utenti. Quando il backend dell'app riceve una query, esegue le seguenti operazioni:

  1. Cerca ("recupera") i dati pertinenti alla query dell'utente.
  2. Aggiunge ("aumenta") i dati chimici pertinenti alla query dell'utente.
  3. Indica all'LLM di creare un riepilogo basato sui dati aggiunti.

invio

#rl

Nell'apprendimento per rinforzo, dato un determinato criterio e un determinato stato, il rendimento è la somma di tutte le ricompense che l'agente prevede di ricevere seguendo il criterio dallo stato alla fine dell'episodio. L'agente tiene conto della natura ritardata dei premi previsti scontando i premi in base alle transizioni di stato necessarie per ottenere il premio.

Pertanto, se il fattore di sconto è \(\gamma\)e \(r_0, \ldots, r_{N}\) indica i premi fino alla fine dell'episodio, il calcolo del rendimento è il seguente:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

premio

#rl

Nell'apprendimento per rinforzo, il risultato numerico dell'esecuzione di un'azione in uno stato, come definito dall'ambiente.

regolarizzazione ridge

Sinonimo di regolarizzazione L2. Il termine regolarizzazione ridge viene utilizzato più spesso in contesti di statistica pura, mentre regolarizzazione L2 viene utilizzato più spesso nel machine learning.

RNN

#seq

Abbreviazione di reti neurali ricorrenti.

Curva ROC (caratteristica operativa del ricevitore)

#fundamentals
#Metric

Un grafico della percentuale di veri positivi rispetto alla percentuale di falsi positivi per diverse soglie di classificazione nella classificazione binaria.

La forma di una curva ROC suggerisce la capacità di un modello di classificazione binaria di separare le classi positive da quelle negative. Supponiamo, ad esempio, che un modello di classificazione binaria separi perfettamente tutte le classi negative da tutte le classi positive:

Una retta numerica con 8 esempi positivi sul lato destro e
          7 esempi negativi sul lato sinistro.

La curva ROC per il modello precedente ha il seguente aspetto:

Una curva ROC. L&#39;asse x è la percentuale di falsi positivi e l&#39;asse y
          è la percentuale di veri positivi. La curva ha una forma a L invertita. La curva
          inizia da (0.0,0.0) e sale direttamente fino a (0.0,1.0). Poi la curva
          va da (0.0,1.0) a (1.0,1.0).

Al contrario, il grafico dell'illustrazione seguente mostra i valori di regressione logistica grezzi per un modello pessimo che non riesce a separare le classi negative da quelle positive:

Una retta numerica con esempi positivi e classi negative
          completamente mescolati.

La curva ROC per questo modello ha il seguente aspetto:

Una curva ROC, che in realtà è una retta che va da (0.0,0.0)
          a (1.0,1.0).

Nel frattempo, nel mondo reale, la maggior parte dei modelli di classificazione binaria separa le classi positive e negative in una certa misura, ma di solito non in modo perfetto. Pertanto, una tipica curva ROC si trova a metà strada tra i due estremi:

Una curva ROC. L&#39;asse x è la percentuale di falsi positivi e l&#39;asse y
          è la percentuale di veri positivi. La curva ROC approssima un arco instabile
          che attraversa i punti cardinali da ovest a nord.

Il punto su una curva ROC più vicino a (0.0,1.0) identifica teoricamente la soglia di classificazione ideale. Tuttavia, diversi altri problemi del mondo reale influenzano la selezione della soglia di classificazione ideale. Ad esempio, forse i falsi negativi causano molto più dolore dei falsi positivi.

Una metrica numerica chiamata AUC riassume la curva ROC in un singolo valore in virgola mobile.

richiesta di ruolo

#language
#generativeAI

Parte facoltativa di un prompt che identifica un pubblico di destinazione per la risposta di un modello di AI generativa. Senza un prompt di ruolo, un modello linguistico di grandi dimensioni fornisce una risposta che potrebbe essere utile o meno per la persona che pone le domande. Con un prompt di ruolo, un modello linguistico di grandi dimensioni può rispondere in modo più appropriato e utile per un pubblico di destinazione specifico. Ad esempio, la parte della richiesta relativa al ruolo delle seguenti richieste è in grassetto:

  • Riassumi questo documento per un dottorato in economia.
  • Descrivi come funzionano le maree per un bambino di 10 anni.
  • Spiega la crisi finanziaria del 2008. Parla come faresti con un bambino piccolo o con un golden retriever.

root

#df

Il nodo iniziale (la prima condizione) in un albero decisionale. Per convenzione, i diagrammi posizionano la radice nella parte superiore dell'albero decisionale. Ad esempio:

Un albero decisionale con due condizioni e tre foglie. La
          condizione iniziale (x > 2) è la radice.

directory root

#TensorFlow

La directory che specifichi per ospitare le sottodirectory dei file di checkpoint ed eventi TensorFlow di più modelli.

Errore quadratico medio (RMSE)

#fundamentals
#Metric

La radice quadrata dell'errore quadratico medio.

invarianza rotazionale

#image

In un problema di classificazione delle immagini, la capacità di un algoritmo di classificare correttamente le immagini anche quando l'orientamento dell'immagine cambia. Ad esempio, l'algoritmo può comunque identificare una racchetta da tennis sia che sia rivolta verso l'alto, di lato o verso il basso. Tieni presente che l'invarianza rotazionale non è sempre auspicabile; ad esempio, un 9 capovolto non deve essere classificato come 9.

Vedi anche invarianza alla traslazione e invarianza alla dimensione.

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

#language
#Metric

Una famiglia di metriche che valutano i modelli di riepilogo automatico e di traduzione automatica. Le metriche ROUGE determinano il grado di sovrapposizione di un testo di riferimento con il testo generato di un modello di ML. Ogni membro della famiglia ROUGE misura la sovrapposizione in modo diverso. Punteggi ROUGE più elevati indicano una maggiore somiglianza tra il testo di riferimento e il testo generato rispetto a punteggi ROUGE più bassi.

Ogni membro della famiglia ROUGE genera in genere le seguenti metriche:

  • Precisione
  • Richiamo
  • F1

Per dettagli ed esempi, vedi:

ROUGE-L

#language
#Metric

Un membro della famiglia ROUGE incentrato sulla lunghezza della sottosequenza comune più lunga nel testo di riferimento e nel testo generato. Le seguenti formule calcolano il richiamo e la precisione per ROUGE-L:

$$\text{ROUGE-L recall} = \frac{\text{longest common sequence}} {\text{number of words in the reference text} }$$
$$\text{ROUGE-L precision} = \frac{\text{longest common sequence}} {\text{number of words in the generated text} }$$

Puoi quindi utilizzare F1 per riepilogare il richiamo ROUGE-L e la precisione ROUGE-L in un'unica metrica:

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{ROUGE-L recall} * \text{ROUGE-L precision}} {\text{ROUGE-L recall} + \text{ROUGE-L precision} }$$

ROUGE-L ignora i nuovi caratteri di fine riga nel testo di riferimento e nel testo generato, quindi la sottosequenza comune più lunga potrebbe attraversare più frasi. Quando il testo di riferimento e il testo generato coinvolgono più frasi, una variante di ROUGE-L chiamata ROUGE-Lsum è generalmente una metrica migliore. ROUGE-Lsum determina la sottosequenza comune più lunga per ogni frase in un passaggio e poi calcola la media di queste sottosequenze comuni più lunghe.

ROUGE-N

#language
#Metric

Un insieme di metriche della famiglia ROUGE che confronta gli N-gram condivisi di una determinata dimensione nel testo di riferimento e nel testo generato. Ad esempio:

  • ROUGE-1 misura il numero di token condivisi nel testo di riferimento e nel testo generato.
  • ROUGE-2 misura il numero di bigrammi (2-grammi) nel testo di riferimento e nel testo generato.
  • ROUGE-3 misura il numero di trigrammi (3-grammi) nel testo di riferimento e nel testo generato.

Puoi utilizzare le seguenti formule per calcolare il richiamo ROUGE-N e la precisione ROUGE-N per qualsiasi membro della famiglia ROUGE-N:

$$\text{ROUGE-N recall} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the reference text} }$$
$$\text{ROUGE-N precision} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the generated text} }$$

Puoi quindi utilizzare F1 per riepilogare il richiamo ROUGE-N e la precisione ROUGE-N in un'unica metrica:

$$\text{ROUGE-N F}{_1} = \frac{\text{2} * \text{ROUGE-N recall} * \text{ROUGE-N precision}} {\text{ROUGE-N recall} + \text{ROUGE-N precision} }$$

ROUGE-S

#language
#Metric

Una forma di ROUGE-N che consente la corrispondenza di skip-gram. ovvero ROUGE-N conta solo gli n-grammi che corrispondono esattamente, mentre ROUGE-S conta anche gli n-grammi separati da una o più parole. Ad esempio, prendi in considerazione quanto indicato di seguito.

Quando viene calcolato ROUGE-N, il 2-gramma White clouds non corrisponde a White billowing clouds. Tuttavia, quando si calcola ROUGE-S, Nuvole bianche corrisponde a Nuvole bianche e gonfie.

R al quadrato

#Metric

Una metrica di regressione che indica la variazione di un'etichetta dovuta a una singola caratteristica o a un insieme di caratteristiche. R al quadrato è un valore compreso tra 0 e 1, che puoi interpretare nel seguente modo:

  • Un valore R quadrato pari a 0 indica che nessuna variazione di un'etichetta è dovuta al set di funzionalità.
  • Un valore R quadrato pari a 1 indica che tutta la variazione di un'etichetta è dovuta al set di funzionalità.
  • Un valore R quadrato compreso tra 0 e 1 indica la misura in cui la variazione dell'etichetta può essere prevista da una determinata caratteristica o dal set di caratteristiche. Ad esempio, un valore R quadrato di 0,10 significa che il 10% della varianza nell'etichetta è dovuto al set di funzionalità, un valore R quadrato di 0,20 significa che il 20% è dovuto al set di funzionalità e così via.

R al quadrato è il quadrato del coefficiente di correlazione Pearson tra i valori previsti da un modello e i dati empirici reali.

S

bias di campionamento

#responsible

Consulta la sezione Bias di selezione.

campionamento con reinserimento

#df

Un metodo di selezione di elementi da un insieme di elementi candidati in cui lo stesso elemento può essere selezionato più volte. La frase "con reintegro" significa che dopo ogni selezione, l'elemento selezionato viene restituito al pool di elementi candidati. Il metodo inverso, campionamento senza reinserimento, significa che un elemento candidato può essere scelto una sola volta.

Ad esempio, considera il seguente insieme di frutti:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Supponiamo che il sistema scelga casualmente fig come primo elemento. Se utilizzi il campionamento con reinserimento, il sistema sceglie il secondo elemento dal seguente insieme:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Sì, è lo stesso set di prima, quindi il sistema potrebbe potenzialmente scegliere di nuovo fig.

Se utilizzi il campionamento senza reinserimento, una volta scelto, un campione non può essere scelto di nuovo. Ad esempio, se il sistema sceglie in modo casuale fig come primo campione, fig non può essere scelto di nuovo. Pertanto, il sistema sceglie il secondo campione dal seguente insieme (ridotto):

fruit = {kiwi, apple, pear, cherry, lime, mango}

SavedModel

#TensorFlow

Il formato consigliato per salvare e recuperare i modelli TensorFlow. SavedModel è un formato di serializzazione recuperabile e indipendente dal linguaggio, che consente a sistemi e strumenti di livello superiore di produrre, utilizzare e trasformare i modelli TensorFlow.

Per tutti i dettagli, consulta la sezione Salvataggio e ripristino della Guida per i programmatori di TensorFlow.

Economico

#TensorFlow

Un oggetto TensorFlow responsabile del salvataggio dei checkpoint del modello.

scalare

Un singolo numero o una singola stringa che può essere rappresentata come un tensore di rango 0. Ad esempio, le seguenti righe di codice creano ciascuna uno scalare in TensorFlow:

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

scalabilità

Qualsiasi trasformazione o tecnica matematica che sposta l'intervallo di un'etichetta, un valore di funzionalità o entrambi. Alcune forme di scalabilità sono molto utili per trasformazioni come la normalizzazione.

Le forme comuni di scalabilità utili nel machine learning includono:

  • il ridimensionamento lineare, che in genere utilizza una combinazione di sottrazione e divisione per sostituire il valore originale con un numero compreso tra -1 e +1 o tra 0 e 1.
  • scala logaritmica, che sostituisce il valore originale con il suo logaritmo.
  • Normalizzazione Z-score, che sostituisce il valore originale con un valore in virgola mobile che rappresenta il numero di deviazioni standard dalla media di quella caratteristica.

scikit-learn

Una piattaforma di machine learning open source molto diffusa. Visita scikit-learn.org.

calcolo punteggio

#recsystems
#Metric

La parte di un sistema di consigli che fornisce un valore o una classificazione per ogni elemento prodotto dalla fase di generazione dei candidati.

bias di selezione

#responsible

Errori nelle conclusioni tratte dai dati campionati a causa di un processo di selezione che genera differenze sistematiche tra i campioni osservati nei dati e quelli non osservati. Esistono i seguenti tipi di bias di selezione:

  • Bias di copertura: la popolazione rappresentata nel set di dati non corrisponde alla popolazione su cui il modello di machine learning sta facendo previsioni.
  • Bias di campionamento: i dati non vengono raccolti in modo casuale dal gruppo target.
  • Bias di mancata risposta (chiamato anche bias di partecipazione): gli utenti di determinati gruppi non partecipano ai sondaggi a tassi diversi rispetto agli utenti di altri gruppi.

Ad esempio, supponiamo di creare un modello di machine learning che preveda il gradimento di un film da parte delle persone. Per raccogliere i dati di addestramento, distribuisci un sondaggio a tutte le persone sedute in prima fila di un cinema che proietta il film. A prima vista, questo potrebbe sembrare un modo ragionevole per raccogliere un set di dati; tuttavia, questa forma di raccolta dei dati potrebbe introdurre le seguenti forme di bias di selezione:

  • bias di copertura: campionando una popolazione che ha scelto di vedere il film, le previsioni del tuo modello potrebbero non essere generalizzabili alle persone che non hanno già espresso quel livello di interesse per il film.
  • distorsione del campionamento: anziché campionare in modo casuale dalla popolazione prevista (tutte le persone al cinema), hai campionato solo le persone in prima fila. È possibile che le persone sedute in prima fila fossero più interessate al film rispetto a quelle sedute in altre file.
  • Bias di mancata risposta: in generale, le persone con opinioni forti tendono a rispondere ai sondaggi facoltativi più frequentemente rispetto alle persone con opinioni moderate. Poiché il sondaggio sul film è facoltativo, le risposte hanno maggiori probabilità di formare una distribuzione bimodale rispetto a una distribuzione normale (a campana).

auto-attenzione (chiamato anche livello di auto-attenzione)

#language

Un livello di rete neurale che trasforma una sequenza di embedding (ad esempio, embedding di token) in un'altra sequenza di embedding. Ogni incorporamento nella sequenza di output viene costruito integrando le informazioni degli elementi della sequenza di input tramite un meccanismo di attenzione.

La parte self di self-attention si riferisce alla sequenza che si occupa di se stessa anziché di un altro contesto. L'auto-attenzione è uno dei principali elementi costitutivi dei Transformer e utilizza la terminologia di ricerca nel dizionario, come "query", "chiave" e "valore".

Un livello di auto-attenzione inizia con una sequenza di rappresentazioni di input, una per ogni parola. La rappresentazione di input per una parola può essere un semplice incorporamento. Per ogni parola in una sequenza di input, la rete valuta la pertinenza della parola rispetto a ogni elemento dell'intera sequenza di parole. I punteggi di pertinenza determinano in che misura la rappresentazione finale della parola incorpora le rappresentazioni di altre parole.

Ad esempio, considera la seguente frase:

L'animale non ha attraversato la strada perché era troppo stanco.

La seguente illustrazione (tratta da Transformer: A Novel Neural Network Architecture for Language Understanding) mostra il pattern di attenzione di un livello di auto-attenzione per il pronome it, con l'intensità di ogni linea che indica il contributo di ogni parola alla rappresentazione:

La seguente frase compare due volte: L&#39;animale non ha attraversato la
          strada perché era troppo stanco. Le linee collegano il pronome it in
          una frase a cinque token (The, animal, street, it e
          il punto) nell&#39;altra frase. Il confine tra il pronome it
          e la parola animal è più netto.

Il livello di auto-attenzione evidenzia le parole pertinenti a "it". In questo caso, il livello di attenzione ha imparato a evidenziare le parole a cui si potrebbe riferire, assegnando il peso più elevato alla parola animale.

Per una sequenza di n token, l'auto-attenzione trasforma una sequenza di embedding n volte separate, una volta in ogni posizione della sequenza.

Consulta anche attenzione e auto-attenzione multi-testa.

apprendimento auto-supervisionato

Una famiglia di tecniche per convertire un problema di machine learning non supervisionato in un problema di machine learning supervisionato creando etichette surrogate da esempi non etichettati.

Alcuni modelli basati su Transformer, come BERT, utilizzano l'apprendimento auto-supervisionato.

L'addestramento auto-supervisionato è un approccio di apprendimento semi-supervisionato.

autoformazione

Una variante dell'apprendimento auto-supervisionato particolarmente utile quando si verificano tutte le seguenti condizioni:

L'autoaddestramento funziona ripetendo i due passaggi seguenti finché il modello non smette di migliorare:

  1. Utilizza l'apprendimento supervisionato per addestrare un modello sugli esempi etichettati.
  2. Utilizza il modello creato nel passaggio 1 per generare previsioni (etichette) sugli esempi senza etichetta, spostando quelli in cui c'è un'alta affidabilità negli esempi con etichetta con l'etichetta prevista.

Nota che ogni iterazione del passaggio 2 aggiunge altri esempi etichettati per il passaggio 1 per l'addestramento.

apprendimento semi-supervisionato

Addestramento di un modello su dati in cui alcuni esempi di addestramento hanno etichette, ma altri no. Una tecnica per l'apprendimento semi-supervisionato consiste nell'inferire le etichette per gli esempi non etichettati e poi addestrare il modello con le etichette inferite per creare un nuovo modello. L'apprendimento semi-supervisionato può essere utile se le etichette sono costose da ottenere, ma gli esempi non etichettati sono abbondanti.

L'autoapprendimento è una tecnica per l'apprendimento semi-supervisionato.

attributo sensibile

#responsible
Un attributo umano a cui può essere data una considerazione speciale per motivi legali, etici, sociali o personali.

analisi del sentiment

#language

Utilizzo di algoritmi statistici o di machine learning per determinare l'atteggiamento generale di un gruppo, positivo o negativo, nei confronti di un servizio, un prodotto, un'organizzazione o un argomento. Ad esempio, utilizzando la comprensione del linguaggio naturale, un algoritmo potrebbe eseguire l'analisi del sentiment sul feedback testuale di un corso universitario per determinare il grado di gradimento o meno degli studenti nei confronti del corso.

Per ulteriori informazioni, consulta la guida alla classificazione del testo.

sequence model

#seq

Un modello i cui input hanno una dipendenza sequenziale. Ad esempio, prevedere il prossimo video guardato da una sequenza di video guardati in precedenza.

attività da sequenza a sequenza

#language

Un'attività che converte una sequenza di input di token in una sequenza di output di token. Ad esempio, due tipi comuni di attività di sequenza-sequenza sono:

  • Traduttori:
    • Sequenza di input di esempio: "Ti voglio bene".
    • Sequenza di output di esempio: "Je t'aime."
  • Question answering:
    • Sequenza di input di esempio: "Mi servirà l'auto a New York City?"
    • Sequenza di output di esempio: "No. Tieni la macchina a casa."

del modello.

Il processo di rendere disponibile un modello addestrato per fornire previsioni tramite inferenza online o inferenza offline.

shape (tensore)

Il numero di elementi in ogni dimensione di un tensore. La forma è rappresentata come un elenco di numeri interi. Ad esempio, il seguente tensore bidimensionale ha una forma di [3,4]:

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

TensorFlow utilizza il formato row-major (stile C) per rappresentare l'ordine delle dimensioni, motivo per cui la forma in TensorFlow è [3,4] anziché [4,3]. In altre parole, in un tensore TensorFlow bidimensionale, la forma è [numero di righe, numero di colonne].

Una forma statica è una forma del tensore nota al momento della compilazione.

Una forma dinamica è sconosciuta al momento della compilazione ed è quindi dipende dai dati di runtime. Questo tensore potrebbe essere rappresentato con una dimensione segnaposto in TensorFlow, come in [3, ?].

shard

#TensorFlow
#GoogleCloud

Una divisione logica del set di addestramento o del modello. In genere, un processo crea gli shard dividendo gli esempi o i parametri in blocchi (di solito) di dimensioni uguali. Ogni shard viene quindi assegnato a una macchina diversa.

Lo sharding di un modello è chiamato parallelismo dei modelli; lo sharding dei dati è chiamato parallelismo dei dati.

restringimento

#df

Un iperparametro in gradient boosting che controlla l'overfitting. La contrazione nel boosting del gradiente è analoga al tasso di apprendimento nella discesa del gradiente. Il restringimento è un valore decimale compreso tra 0,0 e 1,0. Un valore di contrazione più basso riduce l'overfitting più di un valore di contrazione più alto.

valutazione affiancata

Confrontare la qualità di due modelli giudicando le loro risposte allo stesso prompt. Ad esempio, supponiamo che il seguente prompt venga fornito a due modelli diversi:

Crea un'immagine di un simpatico cane che fa giocoleria con tre palline.

In una valutazione affiancata, un valutatore sceglie l'immagine "migliore" (più accurata? Più bello? Più carino?).

funzione sigmoidea

#fundamentals

Una funzione matematica che "comprime" un valore di input in un intervallo vincolato, in genere da 0 a 1 o da -1 a +1. ovvero puoi passare qualsiasi numero (2, un milione, un miliardo negativo, quello che vuoi) a una sigmoide e l'output sarà comunque nell'intervallo vincolato. Un grafico della funzione di attivazione sigmoidea è il seguente:

Un grafico curvo bidimensionale con valori x che coprono il dominio
          da -infinito a +positivo, mentre i valori y coprono l&#39;intervallo da quasi 0 a
          quasi 1. Quando x è 0, y è 0,5. La pendenza della curva è sempre
          positiva, con la pendenza più alta a 0,0,5 e pendenze che diminuiscono gradualmente
          all&#39;aumentare del valore assoluto di x.

La funzione sigmoide ha diversi utilizzi nel machine learning, tra cui:

misura di similarità

#clustering
#Metric

Negli algoritmi di clustering, la metrica utilizzata per determinare il grado di somiglianza tra due esempi.

singolo programma / più dati (SPMD)

Una tecnica di parallelismo in cui lo stesso calcolo viene eseguito su dati di input diversi in parallelo su dispositivi diversi. Lo scopo di SPMD è ottenere risultati più rapidamente. È lo stile più comune di programmazione parallela.

invarianza di scala

#image

In un problema di classificazione delle immagini, la capacità di un algoritmo di classificare correttamente le immagini anche quando le dimensioni dell'immagine cambiano. Ad esempio, l'algoritmo può comunque identificare un gatto indipendentemente dal fatto che consumi 2 milioni di pixel o 200.000 pixel. Tieni presente che anche i migliori algoritmi di classificazione delle immagini hanno ancora limiti pratici di invarianza delle dimensioni. Ad esempio, è improbabile che un algoritmo (o un essere umano) classifichi correttamente un'immagine di un gatto che occupa solo 20 pixel.

Vedi anche invarianza traslazionale e invarianza rotazionale.

Per saperne di più, consulta il corso sul clustering.

schizzi

#clustering

Nell'apprendimento non supervisionato, una categoria di algoritmi che eseguono un'analisi preliminare della somiglianza sugli esempi. Gli algoritmi di sketching utilizzano una funzione hash sensibile alla località per identificare i punti che potrebbero essere simili e poi raggrupparli in bucket.

Lo sketching riduce il calcolo necessario per i calcoli di similarità su set di dati di grandi dimensioni. Invece di calcolare la somiglianza per ogni singola coppia di esempi nel set di dati, la calcoliamo solo per ogni coppia di punti all'interno di ogni bucket.

skip-gram

#language

Un n-gramma che può omettere (o "saltare") parole dal contesto originale, il che significa che le N parole potrebbero non essere state originariamente adiacenti. Più precisamente, un "k-skip-n-gramma" è un n-gramma per il quale è possibile saltare fino a k parole.

Ad esempio, "la rapida volpe marrone" ha i seguenti possibili 2-grammi:

  • "the quick"
  • "quick brown"
  • "brown fox"

Un "1-skip-2-gram" è una coppia di parole tra cui è presente al massimo una parola. Pertanto, "la rapida volpe marrone" ha i seguenti 2-grammi con 1 skip:

  • "the brown"
  • "quick fox"

Inoltre, tutti i 2-grammi sono anche 1-skip-2-grammi, poiché è possibile saltare meno di una parola.

Gli skip-gram sono utili per comprendere meglio il contesto circostante di una parola. Nell'esempio, "fox" è stato associato direttamente a "quick" nel set di 1-skip-2-grammi, ma non nel set di 2-grammi.

Gli skip-grammi aiutano ad addestrare i modelli di word embedding.

softmax

#fundamentals

Una funzione che determina le probabilità per ogni classe possibile in un modello di classificazione multiclasse. La somma delle probabilità è esattamente 1.0. Ad esempio, la tabella seguente mostra come la funzione softmax distribuisce varie probabilità:

L'immagine è un/una… Probabilità
cane 0,85
gatto ,13
cavallo .02

Softmax è anche chiamata softmax completa.

Contrasta con il campionamento dei candidati.

Per ulteriori informazioni, consulta Reti neurali: classificazione multiclasse in Machine Learning Crash Course.

ottimizzazione dei prompt soft

#language
#generativeAI

Una tecnica per ottimizzare un modello linguistico di grandi dimensioni per un'attività specifica, senza un'ottimizzazione che richieda molte risorse. Anziché riaddestrare tutti i pesi nel modello, la messa a punto del prompt soft regola automaticamente un prompt per raggiungere lo stesso obiettivo.

Dato un prompt testuale, l'ottimizzazione del soft prompt in genere aggiunge incorporamenti di token aggiuntivi al prompt e utilizza la retropropagazione per ottimizzare l'input.

Un prompt "hard" contiene token effettivi anziché incorporamenti di token.

caratteristica sparsa

#language
#fundamentals

Una caratteristica i cui valori sono prevalentemente zero o vuoti. Ad esempio, una caratteristica contenente un singolo valore 1 e un milione di valori 0 è scarsa. Al contrario, una caratteristica densa ha valori che non sono prevalentemente zero o vuoti.

Nel machine learning, un numero sorprendente di caratteristiche sono caratteristiche sparse. Le caratteristiche categoriche sono in genere caratteristiche sparse. Ad esempio, delle 300 specie di alberi possibili in una foresta, un singolo esempio potrebbe identificare solo un acero. Oppure, tra i milioni di video possibili in una raccolta video, un singolo esempio potrebbe identificare solo "Casablanca".

In un modello, in genere le caratteristiche sparse vengono rappresentate con la codifica one-hot. Se la codifica one-hot è grande, potresti inserire un livello di incorporamento sopra la codifica one-hot per una maggiore efficienza.

rappresentazione sparsa

#language
#fundamentals

Memorizzazione solo delle posizioni degli elementi diversi da zero in una funzionalità sparsa.

Ad esempio, supponiamo che una funzionalità categorica denominata species identifichi le 36 specie di alberi in una determinata foresta. Supponiamo inoltre che ogni esempio identifichi una sola specie.

Potresti utilizzare un vettore one-hot per rappresentare le specie di alberi in ogni esempio. Un vettore one-hot conterrebbe un singolo 1 (per rappresentare la particolare specie di albero nell'esempio) e 35 0 (per rappresentare le 35 specie di alberi non presenti nell'esempio). Pertanto, la rappresentazione one-hot di maple potrebbe avere un aspetto simile al seguente:

Un vettore in cui le posizioni da 0 a 23 contengono il valore 0, la posizione
          24 contiene il valore 1 e le posizioni da 25 a 35 contengono il valore 0.

In alternativa, la rappresentazione sparsa identificherebbe semplicemente la posizione della specie specifica. Se maple si trova nella posizione 24, la rappresentazione sparsa di maple sarebbe semplicemente:

24

Tieni presente che la rappresentazione sparsa è molto più compatta di quella one-hot.

Per saperne di più, consulta la sezione Lavorare con dati categorici in Machine Learning Crash Course.

vettore sparso

#fundamentals

Un vettore i cui valori sono per lo più zeri. Vedi anche funzionalità sparse e sparsità.

sparsità

#Metric

Il numero di elementi impostati su zero (o null) in un vettore o una matrice diviso per il numero totale di voci nel vettore o nella matrice. Ad esempio, considera una matrice di 100 elementi in cui 98 celle contengono zero. Il calcolo della sparsità è il seguente:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

La sparsità delle caratteristiche si riferisce alla sparsità di un vettore delle caratteristiche; la sparsità del modello si riferisce alla sparsità dei pesi del modello.

pooling spaziale

#image

Consulta la sezione raggruppamento.

Spalato

#df

In un albero decisionale, un altro nome per una condizione.

splitter

#df

Durante l'addestramento di un albero decisionale, la routine (e l'algoritmo) responsabile della ricerca della migliore condizione in ogni nodo.

SPMD

Abbreviazione di programma singolo / dati multipli.

errore quadratico medio della cerniera

#Metric

Il quadrato della perdita hinge. La perdita hinge al quadrato penalizza i valori anomali in modo più severo rispetto alla perdita hinge normale.

perdita quadratica

#fundamentals
#Metric

Sinonimo di perdita L2.

addestramento graduale

#language

Una tattica di addestramento di un modello in una sequenza di fasi discrete. L'obiettivo può essere accelerare il processo di addestramento o ottenere una migliore qualità del modello.

Di seguito è riportata un'illustrazione dell'approccio di stacking progressivo:

  • La fase 1 contiene 3 livelli nascosti, la fase 2 ne contiene 6 e la fase 3 ne contiene 12.
  • La fase 2 inizia l'addestramento con i pesi appresi nei tre livelli nascosti della fase 1. La fase 3 inizia l'addestramento con i pesi appresi nei 6 livelli nascosti della fase 2.

Tre fasi, etichettate come Fase 1, Fase 2 e Fase 3.
          Ogni fase contiene un numero diverso di livelli: la fase 1 contiene
          3 livelli, la fase 2 ne contiene 6 e la fase 3 ne contiene 12.
          I tre livelli della fase 1 diventano i primi tre livelli della fase 2.
          Allo stesso modo, i 6 livelli della fase 2 diventano i primi 6 livelli della
          fase 3.

Vedi anche il pipelining.

stato

#rl

Nell'apprendimento per rinforzo, i valori dei parametri che descrivono la configurazione attuale dell'ambiente, che l'agente utilizza per scegliere un'azione.

funzione valore stato-azione

#rl

Sinonimo di funzione Q.

static

#fundamentals

Qualcosa fatto una volta anziché in modo continuo. I termini statico e offline sono sinonimi. Di seguito sono riportati gli utilizzi comuni di statico e offline nel machine learning:

  • Un modello statico (o modello offline) è un modello addestrato una sola volta e poi utilizzato per un po' di tempo.
  • L'addestramento statico (o addestramento offline) è il processo di addestramento di un modello statico.
  • L'inferenza statica (o inferenza offline) è un processo in cui un modello genera un batch di previsioni alla volta.

Contrasta con dinamico.

inferenza statica

#fundamentals

Sinonimo di inferenza offline.

stazionarietà

#fundamentals

Una funzionalità i cui valori non cambiano in una o più dimensioni, in genere il tempo. Ad esempio, una caratteristica i cui valori appaiono più o meno uguali nel 2021 e nel 2023 mostra stazionarietà.

Nel mondo reale, pochissime caratteristiche mostrano stazionarietà. Anche le caratteristiche sinonimo di stabilità (come il livello del mare) cambiano nel tempo.

Contrasto con la non stazionarietà.

a terra

Un passaggio in avanti e uno indietro di un batch.

Per saperne di più sulla propagazione in avanti e all'indietro, consulta la sezione Backpropagation.

dimensione passo

Sinonimo di tasso di apprendimento.

discesa stocastica del gradiente (SGD)

#fundamentals

Un algoritmo di discesa del gradiente in cui la dimensione del batch è pari a uno. In altre parole, SGD esegue l'addestramento su un singolo esempio scelto in modo uniforme e casuale da un set di addestramento.

Per saperne di più, consulta Regressione lineare: iperparametri in Machine Learning Crash Course.

stride

#image

In un'operazione di convoluzione o pooling, il delta in ogni dimensione della successiva serie di sezioni di input. Ad esempio, la seguente animazione mostra un passo (1,1) durante un'operazione di convoluzione. Pertanto, la successiva porzione di input inizia una posizione a destra della precedente. Quando l'operazione raggiunge il bordo destro, la fetta successiva si trova completamente a sinistra, ma una posizione più in basso.

Una matrice di input 5x5 e un filtro convoluzionale 3x3. Poiché lo stride è (1,1), un filtro convoluzionale verrà applicato 9 volte. La prima
     slice convoluzionale valuta la sottomatrice 3x3 in alto a sinistra della matrice
     di input. La seconda sezione valuta la sottomatrice 3x3
     centrale superiore. La terza sezione convoluzionale valuta la sottomatrice 3x3
     in alto a destra. La quarta sezione valuta la sottomatrice 3x3 centrale sinistra.
     La quinta sezione valuta la sottomatrice 3x3 centrale. La sesta sezione
     valuta la sottomatrice 3x3 centrale destra. La settima fetta valuta
     la sottomatrice 3x3 in basso a sinistra. L&#39;ottava sezione valuta la
     sottomatrice 3x3 centrale inferiore. La nona fetta valuta la sottomatrice 3x3 in basso a destra.

L'esempio precedente mostra un passo bidimensionale. Se la matrice di input è tridimensionale, anche lo stride sarà tridimensionale.

riduzione al minimo del rischio strutturale (SRM)

Un algoritmo che bilancia due obiettivi:

  • La necessità di creare il modello più predittivo (ad esempio, con la perdita più bassa).
  • La necessità di mantenere il modello il più semplice possibile (ad esempio, una forte regolarizzazione).

Ad esempio, una funzione che minimizza la perdita e la regolarizzazione sul set di addestramento è un algoritmo di minimizzazione del rischio strutturale.

Contrasto con la minimizzazione empirica del rischio.

sottocampionamento

#image

Consulta la sezione raggruppamento.

token di subword

#language

Nei modelli linguistici, un token è una sottostringa di una parola, che può essere l'intera parola.

Ad esempio, una parola come "dettagliare" potrebbe essere suddivisa in "dettaglio" (una parola radice) e "are" (un suffisso), ognuno dei quali è rappresentato dal proprio token. La suddivisione di parole non comuni in parti, chiamate subword, consente ai modelli linguistici di operare sulle parti costituenti più comuni della parola, come prefissi e suffissi.

Al contrario, parole comuni come "andando" potrebbero non essere suddivise e potrebbero essere rappresentate da un singolo token.

riepilogo

#TensorFlow

In TensorFlow, un valore o un insieme di valori calcolati in un determinato passaggio, in genere utilizzato per monitorare le metriche del modello durante l'addestramento.

machine learning supervisionato

#fundamentals

Addestramento di un modello a partire dalle funzionalità e dalle relative etichette. L'apprendimento supervisionato nel machine learning è analogo all'apprendimento di una materia studiando una serie di domande e le risposte corrispondenti. Dopo aver acquisito la mappatura tra domande e risposte, uno studente può fornire risposte a nuove domande (mai viste prima) sullo stesso argomento.

Confronta con machine learning non supervisionato.

Per saperne di più, consulta la sezione Apprendimento supervisionato del corso Introduzione al machine learning.

funzionalità sintetica

#fundamentals

Una caratteristica non presente tra le caratteristiche di input, ma assemblata a partire da una o più di queste. I metodi per creare funzionalità sintetiche includono quanto segue:

  • Suddivisione in bucket di una caratteristica continua in bin di intervallo.
  • Creazione di un incrocio di caratteristiche.
  • Moltiplicando (o dividendo) un valore di una caratteristica per altri valori di caratteristiche o per se stesso. Ad esempio, se a e b sono caratteristiche di input, di seguito sono riportati alcuni esempi di caratteristiche sintetiche:
    • ab
    • a2
  • Applicazione di una funzione trascendentale a un valore della funzionalità. Ad esempio, se c è una caratteristica di input, di seguito sono riportati alcuni esempi di caratteristiche sintetiche:
    • sin(c)
    • ln(c)

Le caratteristiche create solo mediante normalizzazione o scalabilità non sono considerate caratteristiche sintetiche.

T

T5

#language

Un modello transfer learning da testo a testo introdotto da Google AI nel 2020. T5 è un modello encoder-decoder, basato sull'architettura Transformer, addestrato su un set di dati estremamente ampio. È efficace in una serie di attività di elaborazione del linguaggio naturale, come la generazione di testo, la traduzione di lingue e la risposta a domande in modo colloquiale.

T5 prende il nome dalle cinque T di "Text-to-Text Transfer Transformer".

T5X

T5X

#language

Un framework di machine learning open source progettato per creare e addestrare modelli di elaborazione del linguaggio naturale (NLP) su larga scala. T5 è implementato nel codebase T5X (che è basato su JAX e Flax).

Q-learning tabellare

#rl

Nell'apprendimento per rinforzo, l'implementazione dell'apprendimento Q utilizzando una tabella per memorizzare le funzioni Q per ogni combinazione di stato e azione.

target

Sinonimo di etichetta.

rete target

#rl

Nel deep Q-learning, una rete neurale che è un'approssimazione stabile della rete neurale principale, in cui la rete neurale principale implementa una funzione Q o un criterio. Dopodiché, puoi addestrare la rete principale sui valori Q previsti dalla rete target. In questo modo, eviti il ciclo di feedback che si verifica quando la rete principale si addestra sui valori Q previsti da se stessa. Evitando questo feedback, la stabilità dell'allenamento aumenta.

attività

Un problema che può essere risolto utilizzando tecniche di machine learning, ad esempio:

temperatura

#language
#image
#generativeAI

Un iperparametro che controlla il grado di casualità dell'output di un modello. Temperature più alte generano un output più casuale, mentre temperature più basse generano un output meno casuale.

La scelta della temperatura migliore dipende dall'applicazione specifica e/o dai valori delle stringhe.

dati temporali

Dati registrati in momenti diversi. Ad esempio, le vendite di cappotti invernali registrate per ogni giorno dell'anno sarebbero dati temporali.

Tensore

#TensorFlow

La struttura di dati principale nei programmi TensorFlow. I tensori sono strutture di dati N-dimensionali (dove N può essere molto grande), più comunemente scalari, vettori o matrici. Gli elementi di un tensore possono contenere valori interi, in virgola mobile o stringa.

TensorBoard

#TensorFlow

La dashboard che mostra i riepiloghi salvati durante l'esecuzione di uno o più programmi TensorFlow.

TensorFlow

#TensorFlow

Una piattaforma di machine learning distribuita su larga scala. Il termine si riferisce anche al livello API di base nello stack TensorFlow, che supporta il calcolo generale sui grafici Dataflow.

Anche se TensorFlow viene utilizzato principalmente per il machine learning, puoi utilizzarlo anche per attività non di ML che richiedono calcoli numerici utilizzando grafi di flusso di dati.

TensorFlow Playground

#TensorFlow

Un programma che visualizza in che modo diversi iperparametri influenzano l'addestramento (principalmente di reti neurali) del modello. Vai su http://playground.tensorflow.org per fare esperimenti con TensorFlow Playground.

TensorFlow Serving

#TensorFlow

Una piattaforma per il deployment dei modelli addestrati in produzione.

Tensor Processing Unit (TPU)

#TensorFlow
#GoogleCloud

Un circuito integrato specifico per applicazioni (ASIC) che ottimizza le prestazioni dei carichi di lavoro di machine learning. Questi ASIC vengono implementati come più chip TPU su un dispositivo TPU.

Rank del tensore

#TensorFlow

Vedi rank (tensore).

Forma del tensore

#TensorFlow

Il numero di elementi contenuti in un Tensor in varie dimensioni. Ad esempio, un tensore [5, 10] ha una forma di 5 in una dimensione e 10 in un'altra.

Dimensioni tensore

#TensorFlow

Il numero totale di scalari contenuti in un Tensor. Ad esempio, un tensore [5, 10] ha una dimensione di 50.

TensorStore

Una libreria per leggere e scrivere in modo efficiente grandi array multidimensionali.

condizione di terminazione

#rl

Nell'apprendimento per rinforzo, le condizioni che determinano quando termina un episodio, ad esempio quando l'agente raggiunge un determinato stato o supera una soglia di transizioni di stato. Ad esempio, nel gioco del tris, un episodio termina quando un giocatore segna tre spazi consecutivi o quando tutti gli spazi sono contrassegnati.

test

#df

In un albero decisionale, un altro nome per una condizione.

test loss

#fundamentals
#Metric

Una metrica che rappresenta la perdita di un modello rispetto al set di test. Quando crei un modello, in genere cerchi di ridurre al minimo la perdita del test. Questo perché una perdita dei dati di test bassa è un indicatore di qualità più forte rispetto a una perdita di addestramento bassa o una perdita di convalida bassa.

Un ampio divario tra la perdita di test e la perdita di addestramento o la perdita di convalida a volte suggerisce di aumentare il tasso di regolarizzazione.

test set

Un sottoinsieme del set di dati riservato per testare un modello addestrato.

Tradizionalmente, gli esempi nel set di dati vengono suddivisi nei seguenti tre sottoinsiemi distinti:

Ogni esempio in un set di dati deve appartenere a uno solo dei sottoinsiemi precedenti. Ad esempio, un singolo esempio non deve appartenere sia al set di addestramento sia al set di test.

Il set di addestramento e il set di convalida sono entrambi strettamente correlati all'addestramento di un modello. Poiché il set di test è associato all'addestramento solo indirettamente, la perdita dei dati di test è una metrica di qualità superiore e meno distorta rispetto alla perdita dei dati di addestramento o alla perdita dei dati di convalida.

Per saperne di più, consulta la sezione Set di dati: divisione del set di dati originale in Machine Learning Crash Course.

intervallo di testo

#language

L'intervallo di indici dell'array associato a una sezione specifica di una stringa di testo. Ad esempio, la parola good nella stringa Python s="Be good now" occupa l'intervallo di testo da 3 a 6.

tf.Example

#TensorFlow

Un protocol buffer standard per descrivere i dati di input per l'addestramento o l'inferenza di modelli di machine learning.

tf.keras

#TensorFlow

Un'implementazione di Keras integrata in TensorFlow.

soglia (per gli alberi decisionali)

#df

In una condizione allineata all'asse, il valore con cui viene confrontata una caratteristica. Ad esempio, 75 è il valore soglia nella seguente condizione:

grade >= 75

Per saperne di più, consulta Splitter esatto per la classificazione binaria con funzionalità numeriche nel corso Decision Forests.

analisi delle serie temporali

#clustering

Un sottocampo del machine learning e della statistica che analizza i dati temporali. Molti tipi di problemi di machine learning richiedono l'analisi delle serie temporali, tra cui classificazione, clustering, previsione e rilevamento di anomalie. Ad esempio, potresti utilizzare l'analisi delle serie temporali per prevedere le vendite future di cappotti invernali per mese in base ai dati storici di vendita.

timestep

#seq

Una cella "srotolata" all'interno di una rete neurale ricorrente. Ad esempio, la figura seguente mostra tre intervalli di tempo (contrassegnati con gli indici t-1, t e t+1):

Tre intervalli di tempo in una rete neurale ricorrente. L&#39;output del
          primo timestep diventa l&#39;input del secondo timestep. L&#39;output
          del secondo timestep diventa l&#39;input del terzo timestep.

token

#language

In un modello linguistico, l'unità atomica su cui il modello viene addestrato e su cui fa previsioni. Un token è in genere uno dei seguenti:

  • una parola, ad esempio la frase "i cani amano i gatti" è composta da tre token di parole: "i", "cani", "amano", "i", "gatti".
  • un carattere. Ad esempio, la frase "pesce in bicicletta" è composta da nove token di caratteri. Tieni presente che lo spazio vuoto viene conteggiato come uno dei token.
  • sottoparole, in cui una singola parola può essere un singolo token o più token. Una parola secondaria è costituita da una parola radice, un prefisso o un suffisso. Ad esempio, un modello linguistico che utilizza le subword come token potrebbe visualizzare la parola "cani" come due token (la parola radice "cane" e il suffisso plurale "i"). Lo stesso modello linguistico potrebbe considerare la singola parola "più alto" come due sottoparole (la parola radice "alto" e il suffisso "er").

Nei domini al di fuori dei modelli linguistici, i token possono rappresentare altri tipi di unità atomiche. Ad esempio, nella computer vision, un token potrebbe essere un sottoinsieme di un'immagine.

Per saperne di più, consulta Modelli linguistici di grandi dimensioni in Machine Learning Crash Course.

tokenizzatore

#language

Un sistema o un algoritmo che traduce una sequenza di dati di input in token.

La maggior parte dei modelli di base moderni sono multimodali. Un tokenizer per un sistema multimodale deve tradurre ogni tipo di input nel formato appropriato. Ad esempio, dati di input costituiti da testo e grafica, il tokenizer potrebbe tradurre il testo di input in sottoparole e le immagini di input in piccole patch. Il tokenizer deve quindi convertire tutti i token in un unico spazio di incorporamento unificato, che consente al modello di "comprendere" un flusso di input multimodali.

precisione top-k

#language
#Metric

La percentuale di volte in cui un'etichetta target viene visualizzata nelle prime k posizioni degli elenchi generati. Gli elenchi potrebbero essere consigli personalizzati o un elenco di elementi ordinati in base alla funzione softmax.

L'accuratezza Top-k è anche nota come accuratezza a k.

torre

Un componente di una rete neurale profonda che è a sua volta una rete neurale profonda. In alcuni casi, ogni torre legge da un'origine dati indipendente e queste torri rimangono indipendenti finché il loro output non viene combinato in un livello finale. In altri casi, ad esempio nella torre encoder e decoder di molti Transformer, le torri hanno interconnessioni tra loro.

tossicità

#language
#Metric

Il livello di offensività, minaccia o abuso dei contenuti. Molti modelli di machine learning possono identificare e misurare la tossicità. La maggior parte di questi modelli identifica la tossicità in base a più parametri, ad esempio il livello di linguaggio offensivo e il livello di linguaggio minaccioso.

TPU

#TensorFlow
#GoogleCloud

Abbreviazione di Tensor Processing Unit.

Chip TPU

#TensorFlow
#GoogleCloud

Un acceleratore di algebra lineare programmabile con memoria ad alta larghezza di banda on-chip ottimizzato per i workload di machine learning. Più chip TPU vengono implementati su un dispositivo TPU.

Dispositivo TPU

#TensorFlow
#GoogleCloud

Una scheda per circuiti stampati (PCB) con più chip TPU, interfacce di rete a larghezza di banda elevata e hardware di raffreddamento del sistema.

Nodo TPU

#TensorFlow
#GoogleCloud

Una risorsa TPU su Google Cloud con un tipo di TPU specifico. Il nodo TPU si connette alla tua rete VPC da una rete VPC peer. I nodi TPU sono una risorsa definita nell'API Cloud TPU.

pod di TPU

#TensorFlow
#GoogleCloud

Una configurazione specifica di dispositivi TPU in un data center di Google. Tutti i dispositivi di un pod TPU sono connessi tra loro tramite una rete dedicata ad alta velocità. Un pod TPU è la configurazione più grande di dispositivi TPU disponibile per una versione specifica della TPU.

Risorsa TPU

#TensorFlow
#GoogleCloud

Un'entità TPU su Google Cloud che crei, gestisci o utilizzi. Ad esempio, nodi TPU e tipi di TPU sono risorse TPU.

Sezione TPU

#TensorFlow
#GoogleCloud

Una sezione TPU è una porzione frazionaria dei dispositivi TPU in un pod TPU. Tutti i dispositivi di una sezione TPU sono connessi tra loro tramite una rete dedicata ad alta velocità.

Tipo di TPU

#TensorFlow
#GoogleCloud

Una configurazione di uno o più dispositivi TPU con una versione hardware TPU specifica. Selezioni un tipo di TPU quando crei un nodo TPU su Google Cloud. Ad esempio, un tipo di TPU v2-8 è un singolo dispositivo TPU v2 con 8 core. Un tipo di TPU v3-2048 ha 256 dispositivi TPU v3 in rete e un totale di 2048 core. I tipi di TPU sono una risorsa definita nell'API Cloud TPU.

worker TPU

#TensorFlow
#GoogleCloud

Un processo che viene eseguito su una macchina host ed esegue programmi di machine learning su dispositivi TPU.

formazione

#fundamentals

Il processo di determinazione dei parametri (pesi e bias) che compongono un modello. Durante l'addestramento, un sistema legge esempi e regola gradualmente i parametri. L'addestramento utilizza ogni esempio da poche volte a miliardi di volte.

Per saperne di più, consulta la sezione Apprendimento supervisionato del corso Introduzione al machine learning.

perdita di addestramento

#fundamentals
#Metric

Una metrica che rappresenta la perdita di un modello durante una particolare iterazione di addestramento. Ad esempio, supponiamo che la funzione di perdita sia l'errore quadratico medio. Forse la perdita di addestramento (l'errore quadratico medio) per la decima iterazione è 2,2 e la perdita di addestramento per la centesima iterazione è 1,9.

Una curva di perdita traccia la perdita di addestramento rispetto al numero di iterazioni. Una curva di perdita fornisce i seguenti suggerimenti sull'addestramento:

  • Una pendenza verso il basso implica che il modello sta migliorando.
  • Una pendenza verso l'alto implica che il modello sta peggiorando.
  • Una pendenza piatta implica che il modello ha raggiunto la convergenza.

Ad esempio, la seguente curva di perdita un po' idealizzata mostra:

  • Una pendenza ripida verso il basso durante le iterazioni iniziali, il che implica un rapido miglioramento del modello.
  • Una pendenza che si appiattisce gradualmente (ma sempre verso il basso) fino quasi alla fine dell'addestramento, il che implica un miglioramento continuo del modello a un ritmo un po' più lento rispetto alle iterazioni iniziali.
  • Una pendenza piatta verso la fine dell'addestramento, che suggerisce la convergenza.

Il grafico della perdita di addestramento rispetto alle iterazioni. Questa curva di perdita inizia
     con una pendenza ripida verso il basso. La pendenza si appiattisce gradualmente finché non diventa zero.

Sebbene la perdita di addestramento sia importante, consulta anche la generalizzazione.

disallineamento addestramento/produzione

#fundamentals

La differenza tra il rendimento di un modello durante l'addestramento e quello dello stesso modello durante la produzione.

training set

#fundamentals

Il sottoinsieme del set di dati utilizzato per addestrare un modello.

Tradizionalmente, gli esempi nel set di dati sono suddivisi nei seguenti tre sottoinsiemi distinti:

Idealmente, ogni esempio nel set di dati dovrebbe appartenere a uno solo dei sottoinsiemi precedenti. Ad esempio, un singolo esempio non deve appartenere sia al set di addestramento sia al set di convalida.

Per saperne di più, consulta la sezione Set di dati: divisione del set di dati originale in Machine Learning Crash Course.

traiettoria

#rl

Nell'apprendimento per rinforzo, una sequenza di tuple che rappresentano una sequenza di transizioni di stato dell'agente, dove ogni tupla corrisponde allo stato, all'azione, alla ricompensa e allo stato successivo per una determinata transizione di stato.

transfer learning

Trasferimento di informazioni da un'attività di machine learning a un'altra. Ad esempio, nell'apprendimento multi-task, un singolo modello risolve più attività, come un modello profondo che ha nodi di output diversi per attività diverse. Il Transfer Learning può comportare il trasferimento di conoscenze dalla soluzione di un'attività più semplice a una più complessa oppure il trasferimento di conoscenze da un'attività in cui sono disponibili più dati a una in cui sono disponibili meno dati.

La maggior parte dei sistemi di machine learning risolve una singola attività. Il transfer learning è un piccolo passo verso l'intelligenza artificiale in cui un singolo programma può risolvere più attività.

Transformer

#language

Un'architettura di rete neurale sviluppata da Google che si basa su meccanismi di auto-attenzione per trasformare una sequenza di incorporamenti di input in una sequenza di incorporamenti di output senza fare affidamento su convoluzioni o reti neurali ricorrenti. Un Transformer può essere visto come uno stack di livelli di auto-attenzione.

Un Transformer può includere uno dei seguenti elementi:

Un encoder trasforma una sequenza di embedding in una nuova sequenza della stessa lunghezza. Un codificatore include N livelli identici, ognuno dei quali contiene due livelli secondari. Questi due sottolivelli vengono applicati a ogni posizione della sequenza di embedding di input, trasformando ogni elemento della sequenza in un nuovo embedding. Il primo sottolivello dell'encoder aggrega le informazioni dell'intera sequenza di input. Il secondo sottolivello del codificatore trasforma le informazioni aggregate in un embedding di output.

Un decoder trasforma una sequenza di incorporamenti di input in una sequenza di incorporamenti di output, possibilmente di lunghezza diversa. Un decoder include anche N livelli identici con tre sottolivelli, due dei quali sono simili ai sottolivelli dell'encoder. Il terzo livello secondario del decoder prende l'output dell'encoder e applica il meccanismo di auto-attenzione per raccogliere informazioni.

Il post del blog Transformer: A Novel Neural Network Architecture for Language Understanding fornisce una buona introduzione ai Transformer.

Per saperne di più, consulta LLM: che cos'è un modello linguistico di grandi dimensioni? in Machine Learning Crash Course.

invarianza traslazionale

#image

In un problema di classificazione delle immagini, la capacità di un algoritmo di classificare correttamente le immagini anche quando la posizione degli oggetti all'interno dell'immagine cambia. Ad esempio, l'algoritmo può comunque identificare un cane, sia che si trovi al centro dell'inquadratura sia all'estremità sinistra dell'inquadratura.

Vedi anche invarianza di scala e invarianza di rotazione.

trigramma

#seq
#language

Un n-gramma in cui N=3.

vero negativo (VN)

#fundamentals
#Metric

Un esempio in cui il modello prevede correttamente la classe negativa. Ad esempio, il modello deduce che un determinato messaggio email non è spam e che il messaggio email in questione non è spam.

vero positivo (VP)

#fundamentals
#Metric

Un esempio in cui il modello prevede correttamente la classe positiva. Ad esempio, il modello deduce che un determinato messaggio email è spam e questo messaggio email è effettivamente spam.

tasso di veri positivi (TPR)

#fundamentals
#Metric

Sinonimo di ritiro. Ossia:

$$\text{true positive rate} = \frac {\text{true positives}} {\text{true positives} + \text{false negatives}}$$

La percentuale di veri positivi è l'asse Y di una curva ROC.

TTL

Abbreviazione di durata.

U

Ultra

#generativeAI

Il modello Gemini con il maggior numero di parametri. Per maggiori dettagli, vedi Gemini Ultra.

Vedi anche Pro e Nano.

inconsapevolezza (rispetto a un attributo sensibile)

#responsible

Una situazione in cui sono presenti attributi sensibili, ma non inclusi nei dati di addestramento. Poiché gli attributi sensibili sono spesso correlati ad altri attributi dei dati, un modello addestrato senza consapevolezza di un attributo sensibile potrebbe comunque avere un impatto disparato rispetto a quell'attributo o violare altri vincoli di equità.

underfitting

#fundamentals

Produzione di un modello con scarsa capacità predittiva perché il modello non ha acquisito completamente la complessità dei dati di addestramento. Molti problemi possono causare un adattamento insufficiente, tra cui:

Per saperne di più, consulta la sezione Overfitting di Machine Learning Crash Course.

sottocampionamento

Rimozione di esempi dalla classe maggioritaria in un set di dati con sbilanciamento di classe per creare un set di addestramento più bilanciato.

Ad esempio, considera un set di dati in cui il rapporto tra la classe maggioritaria e la classe minoritaria è 20:1. Per superare questo squilibrio di classe, potresti creare un set di addestramento costituito da tutti gli esempi della classe di minoranza, ma solo da un decimo degli esempi della classe di maggioranza, il che creerebbe un rapporto tra le classi del set di addestramento di 2:1. Grazie al sottocampionamento, questo set di addestramento più bilanciato potrebbe produrre un modello migliore. In alternativa, questo set di addestramento più bilanciato potrebbe contenere esempi insufficienti per addestrare un modello efficace.

Contrasto con l'oversampling.

unidirezionale

#language

Un sistema che valuta solo il testo che precede una sezione di testo di destinazione. Al contrario, un sistema bidirezionale valuta sia il testo che precede sia quello che segue una sezione di testo di destinazione. Per maggiori dettagli, consulta la sezione bidirezionale.

modello linguistico unidirezionale

#language

Un modello linguistico che basa le sue probabilità solo sui token che compaiono prima, non dopo, i token di destinazione. Contrasto con il modello linguistico bidirezionale.

esempio senza etichetta

#fundamentals

Un esempio che contiene funzionalità, ma nessuna etichetta. Ad esempio, la tabella seguente mostra tre esempi senza etichetta di un modello di valutazione di una casa, ognuno con tre caratteristiche ma senza valore della casa:

Numero di camere Numero di bagni Età della casa
3 2 15
2 1 72
4 2 34

Nel machine learning supervisionato, i modelli vengono addestrati su esempi etichettati e fanno previsioni su esempi non etichettati.

Nell'apprendimento semi-supervisionato e non supervisionato, vengono utilizzati esempi non etichettati durante l'addestramento.

Confronta l'esempio senza etichetta con l'esempio con etichetta.

machine learning non supervisionato

#clustering
#fundamentals

Addestramento di un modello per trovare pattern in un set di dati, in genere un set di dati senza etichette.

L'utilizzo più comune del machine learning non supervisionato è quello di raggruppare i dati in gruppi di esempi simili. Ad esempio, un algoritmo di machine learning non supervisionato può raggruppare i brani in base a varie proprietà della musica. I cluster risultanti possono diventare un input per altri algoritmi di machine learning (ad esempio, per un servizio di consigli musicali). Il clustering può essere utile quando le etichette utili sono scarse o assenti. Ad esempio, in domini come la prevenzione di abusi e frodi, i cluster possono aiutare le persone a comprendere meglio i dati.

Contrasto con il machine learning supervisionato.

Per saperne di più, consulta Che cos'è il machine learning? nel corso Introduction to ML.

modellazione dell'impatto

Una tecnica di modellazione, comunemente utilizzata nel marketing, che modella l'"effetto causale" (noto anche come "impatto incrementale") di un "trattamento" su un "individuo". Di seguito sono riportati due esempi:

  • I medici potrebbero utilizzare la modellazione dell'uplift per prevedere la diminuzione della mortalità (effetto causale) di una procedura medica (trattamento) a seconda dell'età e dell'anamnesi di un paziente (individuo).
  • I professionisti del marketing potrebbero utilizzare la modellazione dell'impatto incrementale per prevedere l'aumento della probabilità di un acquisto (effetto causale) dovuto a una pubblicità (trattamento) su una persona (individuo).

La modellazione dell'uplift è diversa dalla classificazione o dalla regressione in quanto alcune etichette (ad esempio, la metà delle etichette nei trattamenti binari) sono sempre mancanti nella modellazione dell'uplift. Ad esempio, un paziente può ricevere o non ricevere un trattamento; pertanto, possiamo osservare se il paziente guarirà o non guarirà solo in una di queste due situazioni (ma mai in entrambe). Il vantaggio principale di un modello di impatto è che può generare previsioni per la situazione non osservata (il controfattuale) e utilizzarle per calcolare l'effetto causale.

ponderazione verso l'alto

Applicare un peso alla classe sottocampionata uguale al fattore di sottocampionamento.

matrice degli utenti

#recsystems

Nei sistemi di suggerimenti, un vettore di incorporamento generato dalla fattorizzazione matriciale che contiene segnali latenti sulle preferenze degli utenti. Ogni riga della matrice utente contiene informazioni sulla forza relativa di vari indicatori latenti per un singolo utente. Ad esempio, considera un sistema di consigli sui film. In questo sistema, i segnali latenti nella matrice degli utenti potrebbero rappresentare l'interesse di ogni utente per generi particolari oppure potrebbero essere segnali più difficili da interpretare che coinvolgono interazioni complesse tra più fattori.

La matrice degli utenti ha una colonna per ogni funzionalità latente e una riga per ogni utente. ovvero la matrice utente ha lo stesso numero di righe della matrice target che viene fattorizzata. Ad esempio, dato un sistema di consigli per film per 1.000.000 di utenti, la matrice degli utenti avrà 1.000.000 di righe.

V

convalida

#fundamentals

La valutazione iniziale della qualità di un modello. La convalida verifica la qualità delle previsioni di un modello rispetto al set di convalida.

Poiché il set di convalida è diverso dal set di addestramento, la convalida aiuta a evitare l'overfitting.

Puoi considerare la valutazione del modello rispetto al set di convalida come il primo round di test e la valutazione del modello rispetto al set di test come il secondo round di test.

perdita di convalida

#fundamentals
#Metric

Una metrica che rappresenta la perdita di un modello sul set di convalida durante una particolare iterazione dell'addestramento.

Vedi anche la curva di generalizzazione.

set di convalida

#fundamentals

Il sottoinsieme del set di dati che esegue la valutazione iniziale rispetto a un modello addestrato. In genere, valuti il modello addestrato rispetto al set di convalida più volte prima di valutare il modello rispetto al set di test.

Tradizionalmente, gli esempi nel set di dati vengono suddivisi nei seguenti tre sottoinsiemi distinti:

Idealmente, ogni esempio nel set di dati dovrebbe appartenere a uno solo dei sottoinsiemi precedenti. Ad esempio, un singolo esempio non deve appartenere sia al set di addestramento sia al set di convalida.

Per saperne di più, consulta la sezione Set di dati: divisione del set di dati originale in Machine Learning Crash Course.

imputazione del valore

Il processo di sostituzione di un valore mancante con un sostituto accettabile. Quando manca un valore, puoi scartare l'intero esempio o utilizzare l'imputazione dei valori per recuperarlo.

Ad esempio, considera un set di dati contenente una caratteristica temperature che deve essere registrata ogni ora. Tuttavia, la lettura della temperatura non era disponibile per un'ora specifica. Ecco una sezione del set di dati:

Timestamp Temperatura
1680561000 10
1680564600 12
1680568200 mancante
1680571800 20
1680575400 21
1680579000 21

Un sistema potrebbe eliminare l'esempio mancante o imputare la temperatura mancante come 12, 16, 18 o 20, a seconda dell'algoritmo di imputazione.

problema di scomparsa del gradiente

#seq

La tendenza dei gradienti dei primi livelli nascosti di alcune reti neurali profonde a diventare sorprendentemente piatti (bassi). Gradienti sempre più bassi comportano modifiche sempre più piccole ai pesi dei nodi in una rete neurale profonda, con conseguente apprendimento scarso o nullo. I modelli che soffrono del problema di scomparsa del gradiente diventano difficili o impossibili da addestrare. Le celle Long Short-Term Memory risolvono questo problema.

Confrontalo con il problema del gradiente esplosivo.

importanza delle variabili

#df
#Metric

Un insieme di punteggi che indica l'importanza relativa di ciascuna caratteristica per il modello.

Ad esempio, considera un albero decisionale che stima i prezzi delle case. Supponiamo che questo albero decisionale utilizzi tre caratteristiche: taglia, età e stile. Se un insieme di importanze delle variabili per le tre caratteristiche viene calcolato come {size=5.8, age=2.5, style=4.7}, la taglia è più importante per l'albero decisionale rispetto all'età o allo stile.

Esistono diverse metriche di importanza delle variabili, che possono fornire agli esperti di ML informazioni su diversi aspetti dei modelli.

autoencoder variazionale (VAE)

#language

Un tipo di autoencoder che sfrutta la discrepanza tra input e output per generare versioni modificate degli input. Gli autoencoder variazionali sono utili per l'AI generativa.

I VAE si basano sull'inferenza variazionale, una tecnica per stimare i parametri di un modello probabilistico.

vettore

Termine molto sovraccarico il cui significato varia a seconda dei diversi campi matematici e scientifici. Nel machine learning, un vettore ha due proprietà:

  • Tipo di dati: i vettori nel machine learning in genere contengono numeri in virgola mobile.
  • Numero di elementi: la lunghezza del vettore o la sua dimensione.

Ad esempio, considera un vettore delle caratteristiche che contiene otto numeri in virgola mobile. Questo vettore di caratteristiche ha una lunghezza o una dimensione di otto. Tieni presente che i vettori di machine learning hanno spesso un numero elevatissimo di dimensioni.

Puoi rappresentare molti tipi diversi di informazioni come un vettore. Ad esempio:

  • Qualsiasi posizione sulla superficie della Terra può essere rappresentata come un vettore bidimensionale, in cui una dimensione è la latitudine e l'altra è la longitudine.
  • I prezzi attuali di ciascuna delle 500 azioni possono essere rappresentati come un vettore a 500 dimensioni.
  • Una distribuzione di probabilità su un numero finito di classi può essere rappresentata come un vettore. Ad esempio, un sistema di classificazione multiclasse che prevede uno dei tre colori di output (rosso, verde o giallo) potrebbe restituire il vettore (0.3, 0.2, 0.5) per indicare P[red]=0.3, P[green]=0.2, P[yellow]=0.5.

I vettori possono essere concatenati, pertanto una varietà di contenuti multimediali diversi può essere rappresentata come un unico vettore. Alcuni modelli operano direttamente sulla concatenazione di molte codifiche one-hot.

Processori specializzati come le TPU sono ottimizzati per eseguire operazioni matematiche sui vettori.

Un vettore è un tensore di rango 1.

Vertex

#GoogleCloud
#generativeAI
La piattaforma di Google Cloud per l'IA e il machine learning. Vertex fornisce strumenti e infrastrutture per creare, implementare e gestire applicazioni di AI, incluso l'accesso ai modelli Gemini.

M

Perdita di Wasserstein

#Metric

Una delle funzioni di perdita comunemente utilizzate nelle reti generative avversariali, basata sulla distanza di Wasserstein tra la distribuzione dei dati generati e i dati reali.

peso

#fundamentals

Un valore che un modello moltiplica per un altro valore. L'addestramento è il processo di determinazione dei pesi ideali di un modello; l'inferenza è il processo di utilizzo di questi pesi appresi per fare previsioni.

Per saperne di più, consulta Regressione lineare in Machine Learning Crash Course.

Weighted Alternating Least Squares (WALS)

#recsystems

Un algoritmo per ridurre al minimo la funzione obiettivo durante la fattorizzazione matriciale nei sistemi di suggerimenti, che consente una riduzione della ponderazione degli esempi mancanti. WALS minimizza l'errore quadratico ponderato tra la matrice originale e la ricostruzione alternando la fattorizzazione delle righe e delle colonne. Ciascuna di queste ottimizzazioni può essere risolta mediante l'ottimizzazione convessa dei minimi quadrati . Per maggiori dettagli, consulta il corso sui sistemi di raccomandazione.

somma ponderata

#fundamentals

La somma di tutti i valori di input pertinenti moltiplicati per i pesi corrispondenti. Ad esempio, supponiamo che gli input pertinenti siano i seguenti:

valore di input peso dell'input
2 -1,3
-1 0,6
3 0,4

La somma ponderata è quindi:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Una somma ponderata è l'argomento di input di una funzione di attivazione.

modello wide

Un modello lineare che in genere ha molte caratteristiche di input sparse. Lo chiamiamo "ampio" perché questo modello è un tipo speciale di rete neurale con un gran numero di input che si collegano direttamente al nodo di output. I modelli larghi sono spesso più facili da eseguire il debug e da ispezionare rispetto ai modelli profondi. Sebbene i modelli larghi non possano esprimere non linearità tramite livelli nascosti, possono utilizzare trasformazioni come incrocio di funzionalità e raggruppamento per modellare le non linearità in modi diversi.

Contrasta con il modello profondo.

larghezza

Il numero di neuroni in un determinato livello di una rete neurale.

saggezza della folla

#df

L'idea che la media delle opinioni o delle stime di un ampio gruppo di persone ("la folla") spesso produca risultati sorprendentemente buoni. Ad esempio, considera un gioco in cui le persone devono indovinare il numero di caramelle gommose contenute in un grande barattolo. Anche se la maggior parte delle stime individuali sarà imprecisa, la media di tutte le stime si è dimostrata empiramente sorprendentemente vicina al numero effettivo di caramelle nel barattolo.

Gli ensemble sono l'equivalente software della saggezza della folla. Anche se i singoli modelli fanno previsioni molto imprecise, la media delle previsioni di molti modelli spesso genera previsioni sorprendentemente buone. Ad esempio, anche se un albero decisionale individuale potrebbe fare previsioni errate, una foresta decisionale spesso fa previsioni molto accurate.

word embedding

#language

Rappresentazione di ogni parola in un insieme di parole all'interno di un vettore di incorporamento, ovvero rappresentazione di ogni parola come un vettore di valori a rappresentazione in virgola mobile compresi tra 0,0 e 1,0. Le parole con significati simili hanno rappresentazioni più simili rispetto alle parole con significati diversi. Ad esempio, carote, sedano e cetrioli avrebbero rappresentazioni relativamente simili, che sarebbero molto diverse da quelle di aereo, occhiali da sole e dentifricio.

X

XLA (Accelerated Linear Algebra)

Un compilatore di machine learning open source per GPU, CPU e acceleratori ML.

Il compilatore XLA prende i modelli dai framework di ML più diffusi, come PyTorch, TensorFlow e JAX, e li ottimizza per l'esecuzione ad alte prestazioni su diverse piattaforme hardware, tra cui GPU, CPU e acceleratori ML.

Z

apprendimento zero-shot

Un tipo di addestramento di machine learning in cui il modello deduce una previsione per un'attività su cui non è stato già addestrato in modo specifico. In altre parole, al modello non vengono forniti esempi di addestramento specifici per l'attività, ma gli viene chiesto di eseguire l'inferenza per quell'attività.

prompting zero-shot

#language
#generativeAI

Un prompt che non fornisce un esempio di come vuoi che risponda il modello linguistico di grandi dimensioni. Ad esempio:

Parti di un prompt Note
Qual è la valuta ufficiale del paese specificato? La domanda a cui vuoi che l'LLM risponda.
India: La query effettiva.

Il modello linguistico di grandi dimensioni potrebbe rispondere con uno dei seguenti messaggi:

  • Rupia
  • INR
  • Rupia indiana
  • La rupia
  • Rupia indiana

Tutte le risposte sono corrette, anche se potresti preferire un formato particolare.

Confronta e contrapponi il prompt zero-shot con i seguenti termini:

Normalizzazione del punteggio z

#fundamentals

Una tecnica di scalabilità che sostituisce un valore caratteristica grezzo con un valore in virgola mobile che rappresenta il numero di deviazioni standard dalla media di quella caratteristica. Ad esempio, considera una funzionalità la cui media è 800 e la cui deviazione standard è 100. La tabella seguente mostra come la normalizzazione Z-score mapperebbe il valore non elaborato al suo Z-score:

Valore non elaborato Z-score
800 0
950 +1,5
575 -2,25

Il modello di machine learning viene quindi addestrato sugli Z-score di questa funzionalità anziché sui valori non elaborati.

Per saperne di più, consulta Dati numerici: normalizzazione in Machine Learning Crash Course.

Questo glossario definisce i termini del machine learning.