Glossario del machine learning: nozioni di base del machine learning

Questa pagina contiene i termini del glossario di ML Fundamentals. Per tutti i termini del glossario, fai clic qui.

R

accuratezza

#fundamentals

Il numero di previsioni di classificazione corretta diviso per il numero totale di previsioni. Ossia:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Ad esempio, un modello che ha effettuato 40 previsioni corrette e 10 previsioni errate avrebbe un'accuratezza di:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

La classificazione binaria fornisce nomi specifici per le diverse categorie di previsioni corrette e previsioni errate. Quindi, la formula di accuratezza per la classificazione binaria è la seguente:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

dove:

Confronta l'accuratezza e confrontale con precisione e identificazione.

funzione di attivazione

#fundamentals

Una funzione che consente alle reti neurali di apprendere le relazioni non lineari (complesse) tra le caratteristiche e l'etichetta.

Le funzioni di attivazione più comuni includono:

I grafici delle funzioni di attivazione non sono mai singole linee rette. Ad esempio, il grafico della funzione di attivazione ReLU è costituito da due linee rette:

Grafico a cartesiano di due righe. La prima riga ha un valore y costante pari a 0, lungo l'asse x da -infinito,0 a 0,-0.
          La seconda riga inizia da 0,0. Questa retta ha una pendenza di +1, quindi va da 0,0 a +infinito,+infinito.

Un grafico della funzione di attivazione sigmoide ha il seguente aspetto:

Un grafico curvo bidimensionale con valori x che coprono il dominio:
          dall'infinito a + positivo, mentre i valori y coprono l'intervallo da quasi 0 a
          quasi 1. Quando x è 0, y è 0,5. La pendenza della curva è sempre positiva, con la pendenza più alta a 0,0,5 e pendenze gradualmente decrescenti man mano che aumenta il valore assoluto di x.

l'intelligenza artificiale

#fundamentals

Un programma o model non umano in grado di risolvere attività sofisticate. Ad esempio, un programma o modello che traduce testi oppure un programma o modello che identifica malattie da immagini radiologiche mostrano entrambi un'intelligenza artificiale.

Dal punto di vista formale, il machine learning è un sottocampo dell'intelligenza artificiale. Tuttavia, negli ultimi anni, alcune organizzazioni hanno iniziato a utilizzare i termini intelligenza artificiale e machine learning in modo intercambiabile.

AUC (area sotto la curva ROC)

#fundamentals

Un numero compreso tra 0,0 e 1,0 che rappresenta la capacità di un modello di classificazione binaria di separare le classi positive dalle classi negative. Più l'AUC è vicina a 1,0, maggiore è la capacità del modello di separare le classi l'una dall'altra.

Ad esempio, la seguente illustrazione mostra un modello di classificatore che separa perfettamente le classi positive (ovali verdi) da quelle negative (rettangoli viola). Questo modello non realisticamente perfetto ha un'AUC pari a 1,0:

Una linea numerica con 8 esempi positivi su un lato e 9 esempi negativi sull'altro lato.

Al contrario, la seguente illustrazione mostra i risultati per un modello di classificatore che ha generato risultati casuali. Questo modello ha un'AUC pari a 0,5:

Una linea numerica con sei esempi positivi e sei esempi negativi.
          La sequenza di esempi è positiva, negativa, positiva, negativa, positiva, negativa, positiva, negativa, positiva, negativa, positiva, negativa.

Sì, il modello precedente ha un'AUC di 0,5, non 0,0.

La maggior parte dei modelli si trova tra i due estremi. Ad esempio, il seguente modello separa in qualche modo i positivi dai negativi e, di conseguenza, ha un'AUC compresa tra 0,5 e 1,0:

Una linea numerica con sei esempi positivi e sei esempi negativi.
          La sequenza di esempi è negativa, negativa, negativa, negativa, positiva, negativa, positiva, positiva, negativa, positiva, positiva, positiva.

L'AUC ignora qualsiasi valore impostato per la soglia di classificazione. Al contrario, l'AUC considera tutte le possibili soglie di classificazione.

B

backpropagation

#fundamentals

L'algoritmo che implementa la discesa del gradiente nelle reti neurali.

L'addestramento di una rete neurale prevede molte iterazioni del seguente ciclo a due passaggi:

  1. Durante il passaggio inoltra, il sistema elabora un batch di esempi per generare previsioni. Il sistema confronta ogni previsione con ogni valore dell'etichetta. La differenza tra la previsione e il valore dell'etichetta è la perdita per quell'esempio. Il sistema aggrega le perdite per tutti gli esempi per calcolare la perdita totale per il batch corrente.
  2. Durante il passaggio a ritroso (backpropagazione), il sistema riduce la perdita regolando i pesi di tutti i neuroni in tutti i livelli nascosti.

Le reti neurali spesso contengono molti neuroni che attraversano molti strati nascosti. Ciascuno di questi neuroni contribuisce alla perdita complessiva in modi diversi. La backpropagazione determina se aumentare o diminuire i pesi applicati a determinati neuroni.

La frequenza di apprendimento è un moltiplicatore che controlla il grado in cui ogni passaggio all'indietro aumenta o diminuisce ogni peso. Un tasso di apprendimento elevato aumenta o diminuisce ogni peso più di un piccolo tasso di apprendimento.

In termini di calcolo, la backpropagazione implementa la regola della catena di Calculus. In altre parole, la backpropagation calcola la derivata parziale dell'errore rispetto a ciascun parametro. Per maggiori dettagli, consulta questo tutorial nel corso intensivo sul machine learning.

Anni fa, i professionisti del machine learning dovevano scrivere codice per implementare la backpropagation. Le moderne API ML come TensorFlow ora implementano la backpropagation per te. Finalmente.

batch

#fundamentals

L'insieme di esempi utilizzati in un'unica iterazione di addestramento. La dimensione del batch determina il numero di esempi in un batch.

Consulta epoch per una spiegazione di come un batch è correlato a un'epoca.

dimensione del batch

#fundamentals

Il numero di esempi in un batch. Ad esempio, se la dimensione del batch è 100, il modello elabora 100 esempi per iterazione.

Di seguito sono riportate le strategie più comuni di dimensione batch:

  • SGD (Stocastient Descent), in cui la dimensione del batch è 1.
  • batch completo, in cui la dimensione del batch corrisponde al numero di esempi nell'intero set di addestramento. Ad esempio, se il set di addestramento contiene un milione di esempi, la dimensione del batch sarà di un milione di esempi. L'intero batch è solitamente una strategia inefficiente.
  • mini-batch in cui la dimensione del batch è solitamente compresa tra 10 e 1000. Il mini-batch è in genere la strategia più efficiente.

pregiudizi (etica/equità)

#fairness
#fundamentals

1. Stereotipazione, pregiudizio o favoritismo verso alcune cose, persone o gruppi rispetto ad altre. Questi bias possono influenzare la raccolta e l'interpretazione dei dati, la progettazione di un sistema e il modo in cui gli utenti interagiscono con il sistema. Questo tipo di bias include:

2. Errore sistematico introdotto da una procedura di campionamento o di generazione di report. Questo tipo di bias include:

Da non confondere con il termine bias nei modelli di machine learning o bias di previsione.

termine di bias (matematico) o di bias

#fundamentals

Un'intercetta o un offset da un'origine. Il bias è un parametro nei modelli di machine learning, simbolizzato da uno dei seguenti elementi:

  • b
  • W0

Ad esempio, la polarizzazione è b nella seguente formula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

In una semplice linea bidimensionale, bias significa semplicemente "intercetta sull'asse y". Ad esempio, la polarizzazione della linea nella seguente illustrazione è 2.

Il grafico di una retta con una pendenza di 0,5 e una polarizzazione (intercetta sull'asse y) di 2.

La differenziazione esiste perché non tutti i modelli iniziano dall'origine (0,0). Ad esempio, supponiamo che l'ingresso a un parco divertimenti costi 2 euro e ulteriori 0,5 euro per ogni ora di soggiorno del cliente. Pertanto, un modello che mappa il costo totale ha una bias pari a 2 perché il costo più basso è di 2 euro.

Il bias da non confondere con il bias di etica ed equità o con pregiudizi di previsione.

classificazione binaria

#fundamentals

Un tipo di attività di classificazione che prevede una delle due classi che si escludono a vicenda:

Ad esempio, i seguenti due modelli di machine learning eseguono ciascuno la classificazione binaria:

  • Un modello che determina se i messaggi email sono spam (classe positiva) o non spam (classe esclusa).
  • Un modello che valuta i sintomi medici per determinare se una persona è affetta da una determinata malattia (categoria positiva) o non soffre di tale malattia (classe negativa).

Sono opposte alla classificazione multi-classe.

Vedi anche regressione logistica e soglia di classificazione.

bucket

#fundamentals

La conversione di una singola funzionalità in più caratteristiche binarie chiamate bucket o bin, in genere in base a un intervallo di valori. La funzionalità suddivisa è in genere una funzionalità continua.

Ad esempio, anziché rappresentare la temperatura come una singola caratteristica continua a virgola mobile, potresti suddividere gli intervalli di temperature in bucket discreti, ad esempio:

  • <= 10 gradi Celsius sarebbe il bucket "a freddo".
  • 11 - 24 gradi Celsius è il bucket "temperato".
  • >= 25 gradi Celsius sarebbe il bucket "caldo".

Il modello tratterà in modo identico tutti i valori nello stesso bucket. Ad esempio, i valori 13 e 22 si trovano entrambi nel bucket temperato, quindi il modello tratta i due valori in modo identico.

C

dati categorici

#fundamentals

Funzionalità con un insieme specifico di valori possibili. Ad esempio, prendi in considerazione una funzionalità di categoria denominata traffic-light-state, che può avere solo uno dei seguenti tre valori:

  • red
  • yellow
  • green

Rappresentando traffic-light-state come funzionalità categorica, un modello può apprendere gli impatti diversi di red, green e yellow sul comportamento dei conducenti.

Le funzionalità categoriche vengono talvolta chiamate funzionalità discrete.

Contrasta con i dati numerici.

classe

#fundamentals

Una categoria a cui può appartenere un'etichetta. Ad esempio:

  • In un modello di classificazione binaria che rileva lo spam, le due classi potrebbero essere spam e non spam.
  • In un modello di classificazione multi-classe che identifica le razze di cani, le classi potrebbero essere barboncino, beagle, pug e così via.

Un modello di classificazione prevede una classe. Al contrario, un modello di regressione prevede un numero anziché una classe.

modello di classificazione

#fundamentals

Un model la cui previsione è una model. Ad esempio, di seguito sono riportati tutti i modelli di classificazione:

  • Un modello che prevede la lingua di una frase di input (francese? Spagnolo? Italiano?).
  • Un modello che prevede le specie di alberi (acero? Oak? Baobab?).
  • Un modello che prevede la classe positiva o negativa per una determinata condizione medica.

Al contrario, i modelli di regressione prevedono numeri anziché classi.

Due tipi comuni di modelli di classificazione sono:

soglia di classificazione

#fundamentals

In una classificazione binaria, un numero compreso tra 0 e 1 che converte l'output non elaborato di un modello di regressione logistica in una previsione della classe positiva o della classe negativa. Tieni presente che la soglia di classificazione è un valore scelto da un essere umano, non un valore scelto dall'addestramento del modello.

Un modello di regressione logistica restituisce un valore non elaborato compreso tra 0 e 1. Quindi:

  • Se questo valore non elaborato è maggiore della soglia di classificazione, viene prevista la classe positiva.
  • Se questo valore non elaborato è inferiore alla soglia di classificazione, viene prevista la classe negativa.

Ad esempio, supponiamo che la soglia di classificazione sia 0,8. Se il valore non elaborato è 0,9, il modello prevede la classe positiva. Se il valore non elaborato è 0,7, il modello prevede la classe negativa.

La scelta della soglia di classificazione influisce fortemente sul numero di falso positivi e falso negativo.

set di dati con classe non bilanciata

#fundamentals

Un set di dati per un problema di classificazione in cui il numero totale di etichette di ogni classe differisce in modo significativo. Ad esempio, considera un set di dati di classificazione binaria le cui due etichette sono suddivise come segue:

  • 1.000.000 di etichette negative
  • 10 etichette positive

Il rapporto tra etichette negative e positive è compreso tra 100.000 e 1, quindi questo è un set di dati non bilanciato in classe.

Al contrario, il seguente set di dati non è sbilanciato in classe perché il rapporto tra etichette negative ed etichette positive è relativamente vicino a 1:

  • 517 etichette escluse
  • 483 etichette positive

I set di dati multi-classe possono anche essere sbilanciati in classe. Ad esempio, anche il seguente set di dati per la classificazione multi-classe è sbilanciato in base alla classe perché un'etichetta contiene molti più esempi degli altri due:

  • 1.000.000 di etichette con la classe "verde"
  • 200 etichette con la classe "viola"
  • 350 etichette con la classe "arancione"

Vedi anche entropia, classe maggiore e classe di minoranza.

ritaglio

#fundamentals

Una tecnica per gestire i outlier eseguendo una o entrambe le seguenti operazioni:

  • Ridurre i valori di feature che superano una soglia massima fino a quella soglia massima.
  • Aumentare i valori delle funzionalità inferiori alla soglia minima fino alla soglia minima.

Ad esempio, supponi che meno dello 0,5% dei valori per una determinata caratteristica non rientri nell'intervallo 40-60. In questo caso, potresti procedere nel seguente modo:

  • Ritaglia tutti i valori oltre 60 (la soglia massima) in modo che corrispondano esattamente a 60.
  • Ritaglia tutti i valori al di sotto di 40 (la soglia minima) in modo che siano esattamente 40.

I valori anomali possono danneggiare i modelli, a volte causando l'overflow dei pesi durante l'addestramento. Alcune anomalie possono anche compromettere drasticamente metriche come l'accuratezza. Il ritaglio è una tecnica comune per limitare i danni.

Il ritaglio con sfumatura forza i valori gradiente all'interno di un intervallo designato durante l'addestramento.

matrice di confusione

#fundamentals

Una tabella NxN che riassume il numero di previsioni corrette ed errate eseguite da un modello di classificazione. Ad esempio, considera la seguente matrice di confusione per un modello di classificazione binaria:

Tumore (previsto) Non tumorale (previsto)
Tumore (dati empirici reali) 18 (TP) 1 (FN)
Non basato su tumori (dati empirici reali) 6 (FP) 452 (TN)

La matrice di confusione precedente mostra quanto segue:

  • Delle 19 previsioni in cui i dati empirici reali erano Tumor, il modello ne ha classificato 18 e erroneamente 1.
  • Su 458 previsioni in cui i dati empirici reali non erano tumori, il modello ha classificato correttamente 452 e 6 in modo errato.

La matrice di confusione per un problema di classificazione multi-classe può aiutarti a identificare schemi di errori. Ad esempio, considera la seguente matrice di confusione per un modello di classificazione multi-classe a 3 classi che classifica tre diversi tipi di iride (Virginica, Versicolor e Setosa). Quando i dati empirici reali erano la Virginica, la matrice di confusione mostra che il modello era molto più probabile di prevedere erroneamente Versicolor rispetto a Setosa:

  Setosa (previsto) Versicolor (previsto) Virginica (previsto)
Setosa (dati empirici reali) 88 12 0
Versicolor (dati empirici reali) 6 141 7
Virginica (dati empirici reali) 2 27 109

Come altro esempio, una matrice di confusione potrebbe rivelare che un modello addestrato a riconoscere cifre scritte a mano tende a prevedere erroneamente 9 anziché 4 o a prevedere erroneamente 1 anziché 7.

Le matrici di confusione contengono informazioni sufficienti per calcolare una serie di metriche sulle prestazioni, tra cui precisione e richiamo.

funzionalità continua

#fundamentals

Una funzionalità con virgola mobile con una gamma infinita di valori possibili, come temperatura o peso.

Contrasta con la funzionalità discreta.

convergenza

#fundamentals

Uno stato raggiunto quando i valori di perdita cambiano molto poco o per niente a ogni iterazione. Ad esempio, la seguente curva di perdita suggerisce la convergenza a circa 700 iterazioni:

grafico cartesiano. Asse X è una perdita. L&#39;asse Y indica il numero di iterazioni di addestramento. La perdita è molto elevata durante le prime iterazioni, ma
          diminuisce drasticamente. Dopo circa 100 iterazioni, la perdita è ancora decrescente, ma molto più graduale. Dopo circa 700 iterazioni,
          la perdita rimane invariata.

Un modello converge quando l'addestramento aggiuntivo non migliora il modello.

Nel deep learning, i valori di perdita a volte rimangono costanti, o quasi per molte iterazioni, prima di scendere definitivamente. Durante un lungo periodo di valori di perdita costanti, potresti temporaneamente sentire un falso senso di convergenza.

Vedi anche interruzione anticipata.

D

DataFrame

#fundamentals

Un tipo di dati panda popolare per la rappresentazione di set di dati in memoria.

Un DataFrame è analogo a una tabella o a un foglio di lavoro. Ogni colonna di un DataFrame ha un nome (un'intestazione) e ogni riga è identificata da un numero univoco.

Ogni colonna in un DataFrame è strutturata come un array 2D, tranne per il fatto che a ogni colonna può essere assegnato un proprio tipo di dati.

Vedi anche la pagina di riferimento pandas.DataFrame ufficiale.

set di dati o set di dati

#fundamentals

Una raccolta di dati non elaborati, organizzati comunemente (ma non esclusivamente) in uno dei seguenti formati:

  • un foglio di lavoro
  • Un file in formato CSV (valori separati da virgola)

modello deep

#fundamentals

Una rete neurale contenente più di un livello nascosto.

Un modello deep è anche chiamato rete neurale profonda.

Contrasta con il modello largo.

elemento ad alta densità

#fundamentals

Una feature in cui la maggior parte o tutti i valori sono diversi da zero, in genere un Tensor di valori a virgola mobile. Ad esempio, il seguente tensore di 10 elementi è denso perché 9 dei suoi valori sono diversi da zero:

8 3 7 5 2 4 0 4 9 6

Contrasta con la funzionalità scarsa.

profondità

#fundamentals

La somma di quanto segue in una rete neurale:

Ad esempio, una rete neurale con cinque livelli nascosti e un livello di output ha una profondità pari a 6.

Nota che il livello di input non influisce sulla profondità.

funzionalità discreta

#fundamentals

Una feature con un insieme limitato di valori possibili. Ad esempio, una funzionalità i cui valori possono essere solo animal, vegetable o mineral è una funzionalità discreta (o categorica).

Contrasta con la funzionalità continua.

dinamico

#fundamentals

Qualcosa che viene eseguito frequentemente o continuamente. I termini dinamico e online sono sinonimi del machine learning. Di seguito sono riportati gli utilizzi comuni degli attributi dinamico e online nel machine learning:

  • Un modello dinamico (o modello online) è un modello che viene riaddestrato di frequente o continuamente.
  • L'addestramento dinamico (o addestramento online) è il processo di addestramento frequente o continuo.
  • L'inferenza dinamica (o inferenza online) è il processo di generazione di previsioni on demand.

modello dinamico

#fundamentals

Un model che viene riaddestrato di frequente (anche in modo continuo). Un modello dinamico è uno "apprendimento permanente" che si adatta costantemente ai dati in evoluzione. Un modello dinamico è anche noto come modello online.

Contrasto con il modello statico.

E

interruzione anticipata

#fundamentals

Un metodo per la regolazione che prevede il termine dell'addestramento prima che la perdita di addestramento finisca di diminuire. Nell'interruzione anticipata, l'addestramento del modello viene interrotto intenzionalmente quando la perdita su un set di dati di convalida inizia ad aumentare, ovvero quando le prestazioni della generalizzazione peggiora.

strato di incorporamento

#language
#fundamentals

Uno speciale livello nascosto che si addestra su una funzionalità categorica ad alta dimensione per apprendere gradualmente un vettore di incorporamento di dimensioni inferiori. Un livello di incorporamento consente a una rete neurale di eseguire l'addestramento in modo molto più efficiente rispetto all'addestramento categorico ad alta dimensione.

Ad esempio, attualmente la Terra supporta circa 73.000 specie di alberi. Supponiamo che le specie di albero siano una funzionalità nel modello, quindi il livello di input del modello includa un vettore a caldo di 73.000 elementi. Ad esempio, baobab potrebbe essere rappresentato in modo simile al seguente:

Un array di 73.000 elementi. I primi 6232 elementi contengono il valore 0. L&#39;elemento successivo contiene il valore 1. Gli ultimi 66.767 elementi contengono
     il valore zero.

Un array di 73.000 elementi è molto lungo. Se non aggiungi un livello di incorporamento al modello, l'addestramento richiederà molto tempo a causa della moltiplicazione di 72.999 zeri. Magari scegliete il livello di incorporamento in 12 dimensioni. Di conseguenza, lo strato di incorporamento apprenderà gradualmente un nuovo vettore di incorporamento per ogni specie di alberi.

In alcune situazioni, l'hashing è un'alternativa ragionevole a un livello di incorporamento.

periodo

#fundamentals

Un passaggio completo di addestramento sull'intero set di addestramento in modo che ogni esempio venga elaborato una volta.

Un'epoca rappresenta N/dimensione del batch di addestramento delle iterazioni, dove N è il numero totale di esempi.

Ad esempio, supponiamo che:

  • Il set di dati è composto da 1000 esempi.
  • La dimensione del batch è di 50 esempi.

Pertanto, una singola epoca richiede 20 iterazioni:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

esempio

#fundamentals

I valori di una riga di features ed eventualmente di un'etichetta. Gli esempi nell'apprendimento supervisionato rientrano in due categorie generali:

  • Un esempio etichettato è costituito da una o più funzionalità e da un'etichetta. Gli esempi etichettati vengono utilizzati durante l'addestramento.
  • Un esempio senza etichetta è costituito da una o più funzionalità, ma nessuna etichetta. Gli esempi senza etichetta vengono utilizzati durante l'inferenza.

Ad esempio, supponiamo che tu stia addestrando un modello per determinare l'influenza delle condizioni meteo sui punteggi dei test degli studenti. Ecco tre esempi etichettati:

Funzionalità Etichetta
Temperatura Umidità Pressione Punteggio del test
15 47 998 Buoni
19 34 1020 Eccellente
18 92 1012 Scadente

Ecco tre esempi senza etichetta:

Temperatura Umidità Pressione  
12 62 1014  
21 47 1017  
19 41 1021  

In genere, la riga di un set di dati è l'origine non elaborata di un esempio. Ciò significa che un esempio è costituito in genere da un sottoinsieme delle colonne nel set di dati. Inoltre, le funzionalità in un esempio possono includere anche funzionalità sintetiche, come incroci delle funzionalità.

F

falso negativo (FN)

#fundamentals

Esempio in cui il modello prevede erroneamente la classe negativa. Ad esempio, il modello prevede che un determinato messaggio email non sia spam (la classe esclusa), ma che quel messaggio email in realtà sia spam.

falso positivo (FP)

#fundamentals

Esempio in cui il modello prevede erroneamente la classe positiva. Ad esempio, il modello prevede che un determinato messaggio email sia spam (la classe positiva), ma che tale messaggio in realtà non è spam.

tasso di falsi positivi

#fundamentals

La proporzione di esempi negativi effettivi per i quali il modello ha previsto erroneamente la classe positiva. La seguente formula calcola il tasso di falsi positivi:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Il tasso di falsi positivi è l'asse x in una curva ROC.

caratteristica

#fundamentals

Una variabile di input per un modello di machine learning. Un esempio è costituito da una o più funzionalità. Ad esempio, supponiamo che tu stia addestrando un modello per determinare l'influenza delle condizioni meteo sui punteggi dei test degli studenti. La tabella seguente mostra tre esempi, ciascuno dei quali contiene tre caratteristiche e un'etichetta:

Funzionalità Etichetta
Temperatura Umidità Pressione Punteggio del test
15 47 998 92
19 34 1020 84
18 92 1012 87

Contrasta con label.

croce di caratteristiche

#fundamentals

Una funzionalità sintetica formata da funzionalità "crossing" categoriche o con bucket.

Ad esempio, considera un modello di "previsione dell'umore" che rappresenta la temperatura in uno dei seguenti quattro bucket:

  • freezing
  • chilly
  • temperate
  • warm

e rappresenta la velocità del vento in una delle seguenti tre sezioni:

  • still
  • light
  • windy

Senza incroci di caratteristiche, il modello lineare viene addestrato in modo indipendente su ciascuno dei sette vari bucket precedenti. Quindi, il modello viene addestrato, ad esempio, freezing, indipendentemente dall'addestramento, ad esempio windy.

In alternativa, potresti creare una combinazione di caratteristiche tra temperatura e velocità del vento. Questa funzionalità sintetica avrebbe i seguenti 12 valori possibili:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Grazie agli incroci delle caratteristiche, il modello può apprendere le differenze di umore tra un giorno freezing-windy e un giorno freezing-still.

Se crei una caratteristica sintetica da due caratteristiche che hanno ciascuna molti bucket diversi, la combinazione di caratteristiche risultante avrà un numero enorme di combinazioni possibili. Ad esempio, se una caratteristica ha 1000 bucket e l'altra 2000 bucket, la croce di caratteristiche risultante ne avrà 2.000.000.

Formalmente, una croce è un prodotto cartesiano.

I croci di caratteristiche vengono utilizzati principalmente con i modelli lineari e raramente con le reti neurali.

feature engineering

#fundamentals
#TensorFlow

Una procedura che prevede i seguenti passaggi:

  1. Determinare quali funzionalità potrebbero essere utili per l'addestramento di un modello.
  2. Convertire i dati non elaborati del set di dati in versioni efficienti di tali funzionalità.

Ad esempio, potresti determinare che temperature potrebbe essere una funzionalità utile. Poi, potresti sperimentare con i bucket per ottimizzare ciò che il modello può imparare da diversi intervalli temperature.

L'ingegneria delle caratteristiche è talvolta chiamata estrazione delle caratteristiche.

insieme di funzionalità

#fundamentals

Il gruppo di funzionalità su cui viene eseguito l'addestramento del modello di machine learning. Ad esempio, il codice postale, le dimensioni della proprietà e la condizione della proprietà potrebbero comprendere un semplice set di funzionalità per un modello che prevede i prezzi degli alloggi.

vettore di caratteristiche

#fundamentals

L'array di valori feature che comprende un esempio. Il vettore di caratteristiche viene inserito durante l'addestramento e durante l'inferenza. Ad esempio, il vettore di caratteristiche per un modello con due caratteristiche discrete potrebbe essere:

[0.92, 0.56]

Quattro livelli: un livello di input, due livelli nascosti e un livello di output.
          Il livello di input contiene due nodi, uno contenente il valore 0,92 e l&#39;altro con il valore 0,56.

Ogni esempio fornisce valori diversi per il vettore di caratteristiche, quindi il vettore di caratteristiche per l'esempio successivo potrebbe essere simile al seguente:

[0.73, 0.49]

L'ingegneria delle caratteristiche determina come rappresentare le caratteristiche nel vettore di caratteristiche. Ad esempio, una caratteristica categorica binaria con cinque possibili valori potrebbe essere rappresentata con la codifica one-hot. In questo caso, la parte del vettore di caratteristiche per un particolare esempio sarebbe composta da quattro zeri e da un singolo 1,0 nella terza posizione, come segue:

[0.0, 0.0, 1.0, 0.0, 0.0]

Per fare un altro esempio, supponiamo che il tuo modello sia formato da tre caratteristiche:

  • una caratteristica categorica binaria con cinque possibili valori rappresentati con la codifica one-hot; ad esempio: [0.0, 1.0, 0.0, 0.0, 0.0]
  • un'altra caratteristica categorica binaria con tre possibili valori rappresentati con la codifica one-hot; ad esempio: [0.0, 0.0, 1.0]
  • una funzionalità con virgola mobile, ad esempio 8.3.

In questo caso, il vettore di caratteristiche per ogni esempio è rappresentato da nove valori. Dati i valori di esempio nell'elenco precedente, il vettore di caratteristiche sarebbe:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

ciclo di feedback

#fundamentals

Nel machine learning, una situazione in cui le previsioni di un modello influenzano i dati di addestramento per lo stesso modello o per un altro. Ad esempio, un modello che consiglia i film influenzerà i film visti dalle persone, il che influirà sui successivi modelli di suggerimenti cinematografici.

G

generalizzazione

#fundamentals

La capacità di un modello di effettuare previsioni corrette su dati nuovi, non visibili in precedenza. Un modello che può generalizzare è l'opposto di un modello di overfitting.

curva di generalizzazione

#fundamentals

Un grafico della perdita dell'addestramento e della perdita della convalida in funzione del numero di iterazioni.

Una curva di generalizzazione può aiutarti a rilevare un possibile overfitting. Ad esempio, la seguente curva di generalizzazione suggerisce l'overfitting, perché la perdita di convalida diventa notevolmente più elevata rispetto alla perdita di addestramento.

Un grafico cartesiano in cui l&#39;asse Y è contrassegnato come &quot;perdita&quot; e l&#39;asse X è contrassegnato come &quot;iterazioni&quot;. Vengono visualizzati due grafici. Un grafico mostra la perdita di addestramento, mentre l&#39;altro mostra la perdita di convalida.
          I due grafici iniziano in modo simile, ma la perdita di addestramento alla fine cala molto al di sotto di quella di convalida.

discesa del gradiente

#fundamentals

Una tecnica matematica per ridurre al minimo la perdita. La discesa del gradiente regola in modo iterativo i pesi e i bias, trovando gradualmente la combinazione migliore per ridurre al minimo la perdita.

La discesa del gradiente è più vecchia del machine learning.

dati empirici reali

#fundamentals

Realtà.

Ciò che è effettivamente successo.

Ad esempio, prendi in considerazione un modello di classificazione binaria che prevede se uno studente al primo anno di università si laureerà entro sei anni. I dati empirici reali di questo modello indicano se lo studente si è effettivamente laureato entro sei anni.

V

livello nascosto

#fundamentals

Un livello in una rete neurale tra il livello di input (le caratteristiche) e il livello di output (la previsione). Ogni livello nascosto è costituito da uno o più neuroni. Ad esempio, la seguente rete neurale contiene due livelli nascosti, il primo con tre neuroni e il secondo con due neuroni:

Quattro livelli. Il primo livello è un livello di input contenente due caratteristiche. Il secondo livello è uno strato nascosto contenente tre neuroni. Il terzo strato è uno strato nascosto contenente due neuroni. Il quarto è un livello di output. Ogni caratteristica contiene tre bordi, ciascuno dei quali punta a un neurone diverso nel secondo strato. Ciascuno dei neuroni del secondo strato contiene due bordi, ciascuno dei quali punta a un diverso neurone nel terzo strato. Ciascuno dei neuroni nel terzo livello contiene un bordo, ognuno dei quali punta al livello di output.

Una rete neurale profonda contiene più di un livello nascosto. Ad esempio, l'illustrazione precedente è una rete neurale profonda perché il modello contiene due livelli nascosti.

iperparametro

#fundamentals

Le variabili che tu o un servizio di ottimizzazione degli iperparametri regolano durante le esecuzioni successive dell'addestramento di un modello. Ad esempio, tasso di apprendimento è un iperparametro. Puoi impostare il tasso di apprendimento su 0,01 prima di una sessione di addestramento. Se determini che 0,01 è troppo alto, potresti impostare il tasso di apprendimento su 0,003 per la sessione di addestramento successiva.

Al contrario, i parametri sono i vari ponderazioni e bias che il modello apprende durante l'addestramento.

I

distribuiti in modo indipendente e identico (ad es.)

#fundamentals

Dati ricavati da una distribuzione che non cambia e in cui ogni valore tracciato non dipende da valori tracciati in precedenza. Un esempio è il gas ideale del machine learning, un costrutto matematico utile che non si trova quasi mai esattamente nel mondo reale. Ad esempio, la distribuzione dei visitatori di una pagina web può avvenire, ad esempio, per un breve periodo di tempo; in altre parole, la distribuzione non cambia durante quel breve lasso di tempo e la visita di una persona è generalmente indipendente dalla visita di un'altra. Tuttavia, se espandi questa finestra temporale, potrebbero esserci differenze stagionali tra i visitatori della pagina web.

Vedi anche nonstationarity.

inferenza

#fundamentals

Nel machine learning, il processo di creazione di previsioni mediante l'applicazione di un modello addestrato ad esempi senza etichetta.

L'inferenza ha un significato leggermente diverso in statistica. Per informazioni dettagliate, consulta l' articolo di Wikipedia sull'inferenza statistica.

livello di input

#fundamentals

Il livello di una rete neurale che contiene il vettore di caratteristiche. In altre parole, il livello di input fornisce esempi per l'addestramento o l'inferenza. Ad esempio, il livello di input nella seguente rete neurale è costituito da due funzionalità:

Quattro livelli: un livello di input, due livelli nascosti e un livello di output.

interpretabilità

#fundamentals

La capacità di spiegare o presentare a una persona il ragionamento di un modello di ML in termini comprensibili.

La maggior parte dei modelli di regressione lineare, ad esempio, è altamente interpretabile. (basta esaminare i pesi addestrati per ogni funzionalità.) Anche le foreste decisionali sono altamente interpretabili. Alcuni modelli, tuttavia, richiedono una visualizzazione sofisticata per diventare interpretabili.

Puoi utilizzare lo Strumento di interpretabilità dell'apprendimento (LIT) per interpretare i modelli di ML.

iterazione

#fundamentals

Un singolo aggiornamento dei parametri del modello, ovvero le ponderazioni e i bias del modello, durante l'addestramento. La dimensione del batch determina il numero di esempi elaborati dal modello in una singola iterazione. Ad esempio, se la dimensione del batch è 20, il modello elabora 20 esempi prima di modificare i parametri.

Durante l'addestramento di una rete neurale, una singola iterazione prevede i seguenti due passaggi:

  1. Un passaggio in avanti per valutare la perdita di un singolo batch.
  2. Un passaggio a ritroso (backpropagation) per regolare i parametri del modello in base alla perdita e al tasso di apprendimento.

L

Regolarizzazione L0

#fundamentals

Un tipo di regolazione che penalizza il numero totale di ponderazioni diverse da zero in un modello. Ad esempio, un modello con 11 ponderazioni diverse da zero verrebbe penalizzato più di un modello simile con 10 ponderazioni diverse da zero.

La regolarizzazione L0 è talvolta chiamata regolazione L0-norm.

Perdita L1

#fundamentals

Una funzione di perdita che calcola il valore assoluto della differenza tra i valori effettivi dell'etichetta e i valori previsti da un model. Ad esempio, ecco il calcolo della perdita di L1 per un batch di cinque esempi:

Valore effettivo dell'esempio Valore previsto del modello Valore assoluto del delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = perdita L1

La perdita L1 è meno sensibile alle perdite rispetto alla perdita L1.

L'errore assoluto medio è la perdita media L1 per esempio.

Regolarizzazione L1

#fundamentals

Un tipo di regolazione che penalizza le ponderazioni in proporzione alla somma del valore assoluto delle ponderazioni. La regolarizzazione L1 aiuta a portare i pesi delle caratteristiche non pertinenti o appena pertinenti a esattamente 0. Una funzionalità con ponderazione pari a 0 viene effettivamente rimossa dal modello.

Contrasta con la regolazione L2.

Perdita L2

#fundamentals

Una funzione di perdita che calcola il quadrato della differenza tra i valori effettivi dell'etichetta e i valori previsti da un model. Ad esempio, ecco il calcolo della perdita di L2 per un batch di cinque esempi:

Valore effettivo dell'esempio Valore previsto del modello Quadrato del delta
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = perdita L2

A causa dello squaring, la perdita di L2 amplifica l'influenza delle outlier. In altre parole, la perdita di L2 reagisce più fortemente alle previsioni errate rispetto alla perdita di L1. Ad esempio, la perdita di L1 per il batch precedente sarebbe 8 anziché 16. Nota che un singolo outlier rappresenta 9 su 16.

I modelli di regressione in genere utilizzano la perdita L2 come funzione di perdita.

L'errore al quadrato medio è la perdita media L2 per esempio. Perdita quadrata è un altro nome per la perdita L2.

Regolarizzazione L2

#fundamentals

Un tipo di regolazione che penalizza le pesi in proporzione alla somma dei quadrati delle ponderazioni. La regolarizzazione L2 aiuta a indirizzare ponderazioni outlier (con valori positivi alti o negativi) più vicini a 0 ma non del tutto a 0. Le funzionalità con valori molto vicini a 0 rimangono nel modello, ma non influiscono molto sulla previsione del modello.

La regolarizzazione L2 migliora sempre la generalizzazione nei modelli lineari.

Contrasta con la regolazione L1.

etichetta

#fundamentals

Nel machine learning supervisionato, la parte "risposta" o "risultato" di un esempio.

Ogni esempio etichettato è costituito da una o più funzionalità e un'etichetta. Ad esempio, in un set di dati per il rilevamento di spam, l'etichetta potrebbe essere "spam" o "non spam". In un set di dati sulle precipitazioni, l'etichetta potrebbe essere la quantità di pioggia caduta in un determinato periodo.

esempio con etichetta

#fundamentals

Un esempio che contiene una o più funzionalità e un'etichetta. Ad esempio, la seguente tabella mostra tre esempi etichettati provenienti da un modello di valutazione di una casa, ciascuno con tre caratteristiche e un'etichetta:

Numero di camere Numero di bagni Età del nucleo familiare Prezzo interno (etichetta)
3 2 15 345.000 €
2 1 72 179.000 €
4 2 34 392.000 €

Nel machine learning supervisionato, i modelli vengono addestrati in base a esempi etichettati ed effettuano previsioni su esempi non etichettati.

Confronta l'esempio con etichetta con gli esempi senza etichetta.

Lambda

#fundamentals

Sinonimo di tasso di regolarizzazione.

Lambda è un termine sovraccarico. Qui ci concentreremo sulla definizione del termine all'interno della regolazione.

strato

#fundamentals

Un insieme di neuroni in una rete neurale. Ecco tre tipi comuni di livelli:

Ad esempio, la seguente illustrazione mostra una rete neurale con un livello di input, due livelli nascosti e un livello di output:

Una rete neurale con un livello di input, due livelli nascosti e un livello di output. Il livello di input è costituito da due funzionalità. Il primo strato nascosto è costituito da tre neuroni e il secondo strato nascosto da due neuroni. Il livello di output è costituito da un singolo nodo.

In TensorFlow, i livelli sono anche funzioni Python che utilizzano i tensori e le opzioni di configurazione come input e producono altri tensori come output.

tasso di apprendimento

#fundamentals

Un numero in virgola mobile che indica all'algoritmo di discesa del gradiente l'intensità con cui regolare ponderazioni e bias per ogni iterazione. Ad esempio, un tasso di apprendimento pari a 0,3 regolerebbe ponderazioni e bias tre volte più intensamente rispetto a un tasso di apprendimento pari a 0,1.

Il tasso di apprendimento è un iperparametro chiave. Se imposti un tasso di apprendimento troppo basso, l'addestramento richiederà troppo tempo. Se imposti il tasso di apprendimento troppo alto, la discesa del gradiente spesso fa fatica a raggiungere la convergenza.

lineare

#fundamentals

Una relazione tra due o più variabili che può essere rappresentata esclusivamente tramite l'aggiunta e la moltiplicazione.

Il grafico di una relazione lineare è una linea.

Contrasto con non lineare.

modello lineare

#fundamentals

Un model che assegna un model per model per effettuare model. I modelli lineari anche incorporano un bias. Al contrario, la relazione tra le caratteristiche e le previsioni nei modelli profondi è generalmente non lineare.

I modelli lineari sono in genere più facili da addestrare e più interpretabili rispetto ai modelli deep. Tuttavia, i modelli profondi sono in grado di apprendere relazioni complesse tra le caratteristiche.

La regressione lineare e la regressione logistica sono due tipi di modelli lineari.

regressione lineare

#fundamentals

Un tipo di modello di machine learning in cui entrambe le seguenti condizioni sono vere:

  • Il modello è un modello lineare.
  • La previsione è un valore con virgola mobile. (Questa è la parte della regressione della regressione lineare.)

Contrasta la regressione lineare con la regressione logistica. Inoltre, la regressione del contrasto con la classificazione.

regressione logistica

#fundamentals

Un tipo di modello di regressione che prevede una probabilità. I modelli di regressione logistica hanno le seguenti caratteristiche:

  • L'etichetta è categorical. Il termine regressione logistica di solito si riferisce alla regressione logistica binaria, ovvero a un modello che calcola le probabilità delle etichette con due possibili valori. Una variante meno comune, la regressione logistica multinomiale, calcola le probabilità per le etichette con più di due valori possibili.
  • La funzione di perdita durante l'addestramento è Log Loss. È possibile posizionare più unità di perdita di log in parallelo per le etichette con più di due valori possibili.
  • Il modello ha un'architettura lineare, non una rete neurale profonda. Tuttavia, la parte restante di questa definizione si applica anche ai modelli profondi che prevedono le probabilità per le etichette categoriche.

Ad esempio, considera un modello di regressione logistica che calcola la probabilità che un'email di input sia spam o non spam. Durante l'inferenza, supponiamo che il modello preveda 0,72. Di conseguenza, il modello stima:

  • Una probabilità del 72% che l'email sia spam.
  • Una probabilità del 28% che l'email non sia spam.

Un modello di regressione logistica utilizza la seguente architettura in due passaggi:

  1. Il modello genera una previsione non elaborata (y') applicando una funzione lineare delle caratteristiche di input.
  2. Il modello utilizza la previsione non elaborata come input in una funzione sigmoide, che converte la previsione non elaborata in un valore compreso tra 0 e 1 esclusi.

Come ogni modello di regressione, un modello di regressione logistica prevede un numero. Tuttavia, questo numero in genere diventa parte di un modello di classificazione binario come segue:

  • Se il numero previsto è maggiore della soglia di classificazione, il modello di classificazione binaria prevede la classe positiva.
  • Se il numero previsto è inferiore alla soglia di classificazione, il modello di classificazione binario prevede la classe negativa.

Perdita di log

#fundamentals

La funzione di perdita utilizzata nella regressione logistica binaria.

quota logaritmica

#fundamentals

Il logaritmo delle probabilità di un evento.

sconfitta

#fundamentals

Durante l'addestramento di un modello supervisionato, una misura di quanto dista la previsione di un modello dalla sua etichetta.

Una funzione di perdita calcola la perdita.

curva di perdita

#fundamentals

Un grafico della perdita in funzione del numero di iterazioni di addestramento. Il seguente grafico mostra una tipica curva di perdita:

Un grafico cartesiano della perdita rispetto alle iterazioni di addestramento, che mostra un rapido calo della perdita per le iterazioni iniziali, seguito da un calo graduale e poi da una pendenza piatta durante le iterazioni finali.

Le curve di perdita possono aiutarti a determinare quando il tuo modello è convergente o overfitting.

Le curve di perdita possono tracciare tutti i seguenti tipi di perdita:

Vedi anche curva di generalizzazione.

funzione di perdita

#fundamentals

Durante l'addestramento o il test, una funzione matematica che calcola la perdita su un batch di esempi. Una funzione di perdita restituisce una perdita inferiore per i modelli che eseguono previsioni accurate rispetto ai modelli che eseguono previsioni errate.

L'obiettivo dell'addestramento è generalmente quello di ridurre al minimo la perdita restituita da una funzione di perdita.

Esistono molti tipi diversi di funzioni di perdita. Scegli la funzione di perdita appropriata per il tipo di modello che stai creando. Ad esempio:

L

machine learning

#fundamentals

Un programma o sistema che addestra un modello a partire dai dati di input. Il modello addestrato può fare previsioni utili da dati nuovi (inediti) ricavati dalla stessa distribuzione utilizzata per addestrare il modello.

Il machine learning si riferisce anche al campo di studio interessato a questi programmi o sistemi.

classe maggioranza

#fundamentals

L'etichetta più comune in un set di dati non bilanciato a livello di classe. Ad esempio, un set di dati contenente il 99% di etichette negative e l'1% di etichette positive, le etichette escluse rappresentano la classe di maggioranza.

Contrasta con la classe di minoranza.

mini-batch

#fundamentals

Un piccolo sottoinsieme selezionato in modo casuale di un batch elaborato in un'iterazione. La dimensione del batch di un mini-batch è in genere compresa tra 10 e 1000 esempi.

Ad esempio, supponiamo che l'intero set di addestramento (il batch completo) sia composto da 1000 esempi. Supponi inoltre di impostare la dimensione del batch di ogni mini-batch su 20. Pertanto, ogni iterazione determina la perdita su 20 esempi casuali dei 1000 esempi,quindi aggiusta di conseguenza ponderazioni e bias.

È molto più efficiente calcolare la perdita su un mini-batch rispetto a quella su tutti gli esempi nel batch completo.

classe di minoranza

#fundamentals

L'etichetta meno comune in un set di dati non bilanciati a livello di classe. Ad esempio, un set di dati contenente il 99% di etichette negative e l'1% di etichette positive, le etichette positive sono la classe di minoranza.

Contrasta con la classe di maggioranza.

model

#fundamentals

In generale, qualsiasi costrutto matematico che elabora i dati di input e restituisce un output. Detto in modo diverso, un modello è l'insieme di parametri e la struttura necessari a un sistema per fare previsioni. Nel machine learning supervisionato, un modello prende un esempio come input e deduce una previsione come output. Nell'ambito del machine learning supervisionato, i modelli sono leggermente diversi. Ad esempio:

  • Un modello di regressione lineare è costituito da un insieme di ponderazioni e un errore.
  • Un modello di rete neurale è costituito da:
    • Un insieme di livelli nascosti, ciascuno contenente uno o più neuroni.
    • I pesi e il bias associati a ciascun neurone.
  • Un modello ad albero decisionale è costituito da:
    • La forma dell'albero, ovvero lo schema in cui sono collegate le condizioni e le foglie.
    • Le condizioni e le foglie.

Puoi salvare, ripristinare o creare copie di un modello.

Anche il machine learning non supervisionato genera modelli, in genere una funzione in grado di mappare un esempio di input al cluster più appropriato.

classificazione multi-classe

#fundamentals

Nell'apprendimento supervisionato, si tratta di un problema di classificazione in cui il set di dati contiene più di due classi di etichette. Ad esempio, le etichette nel set di dati Iris devono rientrare in una delle tre classi seguenti:

  • Iris setosa
  • Iris virginica
  • Iris versicolor

Un modello addestrato sul set di dati Iris che prevede il tipo Iris su nuovi esempi esegue una classificazione multi-classe.

Al contrario, i problemi di classificazione che distinguono tra esattamente due classi sono modelli di classificazione binari. Ad esempio, un modello email che prevede spam o non spam è un modello di classificazione binario.

Nei problemi di clustering, la classificazione multi-classe si riferisce a più di due cluster.

No

classe esclusa

#fundamentals

Nella classificazione binaria, una classe viene chiamata positiva e l'altra viene definita negativa. La classe positiva è l'elemento o l'evento per il quale il modello sta testando, mentre la classe negativa è l'altra possibilità. Ad esempio:

  • La classe negativa in un test medico potrebbe essere "non un tumore".
  • La classe esclusa in un classificatore di email potrebbe essere "non spam".

Contrasta con classe positiva.

feed-forward

#fundamentals

Un model contenente almeno un livello nascosto. Una rete neurale profonda è un tipo di rete neurale contenente più di un livello nascosto. Ad esempio, il seguente diagramma mostra una rete neurale profonda contenente due livelli nascosti.

Una rete neurale con un livello di input, due livelli nascosti e un livello di output.

Ogni neurone di una rete neurale si connette a tutti i nodi nel livello successivo. Ad esempio, nel diagramma precedente, puoi notare che ciascuno dei tre neuroni nel primo strato nascosto si connette separatamente a entrambi i due neuroni nel secondo strato nascosto.

Le reti neurali implementate sui computer sono a volte chiamate reti neurali artificiali per distinguerle dalle reti neurali presenti nel cervello e in altri sistemi nervosi.

Alcune reti neurali possono imitare relazioni non lineari estremamente complesse tra le diverse caratteristiche e l'etichetta.

Vedi anche rete neurale convoluzionale e rete neurale ricorrente.

neurone

#fundamentals

Nel machine learning, un'unità distinta all'interno di un livello nascosto di una rete neurale. Ogni neurone esegue la seguente azione in due passaggi:

  1. Calcola la somma ponderata dei valori di input moltiplicata per le ponderazioni corrispondenti.
  2. Trasferisce la somma ponderata come input a una funzione di attivazione.

Un neurone nel primo livello nascosto accetta gli input dai valori delle caratteristiche nel livello di input. Un neurone in qualsiasi livello nascosto oltre il primo accetta gli input dai neuroni nello strato nascosto precedente. Ad esempio, un neurone nel secondo livello nascosto accetta gli input dai neuroni nel primo livello nascosto.

La seguente illustrazione evidenzia due neuroni e i loro input.

Una rete neurale con un livello di input, due livelli nascosti e un livello di output. Vengono evidenziati due neuroni: uno nel primo livello nascosto e uno nel secondo livello nascosto. Il neurone evidenziato nel primo livello nascosto riceve input da entrambe le funzionalità nel livello di input. Il neurone evidenziato nel secondo livello nascosto riceve input da ciascuno dei tre neuroni nel primo livello nascosto.

Un neurone di una rete neurale imita il comportamento dei neuroni nel cervello e in altre parti del sistema nervoso.

nodo (rete neurale)

#fundamentals

Un neurone in un livello nascosto.

non lineare

#fundamentals

Una relazione tra due o più variabili che non può essere rappresentata esclusivamente tramite l'aggiunta e la moltiplicazione. Una relazione lineare può essere rappresentata come una linea, mentre una relazione non lineare non può essere rappresentata come una linea. Ad esempio, considera due modelli, ognuno dei quali mette in relazione una singola caratteristica con una singola etichetta. Il modello a sinistra è lineare, il modello a destra non è lineare:

Due trame. Un grafico è una linea, quindi questa è una relazione lineare.
          L&#39;altro grafico è una curva, quindi questa è una relazione non lineare.

non stazionarietà

#fundamentals

Una funzionalità i cui valori cambiano in base a una o più dimensioni, in genere nel tempo. Ad esempio, considera i seguenti esempi di nonstazionalità:

  • Il numero di costumi da bagno venduti in un determinato negozio varia a seconda della stagione.
  • La quantità di un frutto raccolto in una particolare regione è pari a zero per gran parte dell'anno, ma è elevata per un breve periodo.
  • A causa del cambiamento climatico, le temperature medie annuali stanno cambiando.

Contrasto con la stazionalità.

normalizzazione

#fundamentals

In generale, il processo di conversione dell'intervallo effettivo di valori di una variabile in un intervallo standard di valori, ad esempio:

  • Da -1 a +1
  • Da 0 a 1
  • la distribuzione normale

Ad esempio, supponi che l'intervallo effettivo di valori di una determinata funzionalità sia compreso tra 800 e 2400. Nell'ambito del feature engineering, puoi normalizzare i valori effettivi fino a un intervallo standard, ad esempio da -1 a +1.

La normalizzazione è un'attività comune nell'ingegneria delle caratteristiche. In genere, i modelli vengono addestrati più velocemente (e producono previsioni migliori) quando ogni caratteristica numerica nel vettore di caratteristiche ha all'incirca lo stesso intervallo.

dati numerici

#fundamentals

Funzionalità rappresentate come numeri interi o numeri a valore reale. Ad esempio, un modello di valutazione di una casa rappresenterebbe probabilmente le dimensioni di una casa (in piedi quadrati o metri quadrati) come dati numerici. Rappresentare una caratteristica come dati numerici indica che i relativi valori hanno una relazione matematica con l'etichetta. In altre parole, il numero di metri quadrati di un'abitazione ha probabilmente una relazione matematica con il valore della casa.

Non tutti i dati interi devono essere rappresentati come dati numerici. Ad esempio, in alcune parti del mondo i codici postali sono numeri interi; tuttavia, i codici postali interi non devono essere rappresentati come dati numerici nei modelli. Questo perché un codice postale 20000 non è il doppio (o la metà) più potente di un codice postale 10.000. Inoltre, sebbene diversi codici postali corrispondano a valori immobiliari diversi, non possiamo presupporre che i valori degli immobili con il codice postale 20000 abbiano un valore doppio rispetto ai valori degli immobili con il codice postale 10000. I codici postali devono invece essere rappresentati come dati categorici.

Gli elementi numerici vengono talvolta chiamati funzionalità continue.

O

offline

#fundamentals

Sinonimo di static.

inferenza offline

#fundamentals

Il processo di un modello che genera un batch di previsioni e quindi memorizza nella cache (salvando) queste previsioni. Le app possono quindi accedere alla previsione desiderata dalla cache anziché eseguire di nuovo il modello.

Ad esempio, considera un modello che genera le previsioni meteo locali (previsioni) una volta ogni quattro ore. Dopo ogni esecuzione del modello, il sistema memorizza nella cache tutte le previsioni meteo locali. Le app Meteo recuperano le previsioni dalla cache.

L'inferenza offline è anche chiamata inferenza statica.

È in contrasto con l'inferenza online.

codifica one-hot

#fundamentals

Rappresentare i dati categorici come un vettore in cui:

  • Un elemento è impostato su 1.
  • Tutti gli altri elementi vengono impostati su 0.

La codifica one-hot viene comunemente utilizzata per rappresentare stringhe o identificatori che hanno un insieme finito di valori possibili. Ad esempio, supponi che una determinata funzionalità categorica denominata Scandinavia abbia cinque valori possibili:

  • "Danimarca"
  • "Svezia"
  • "Norvegia"
  • "Finlandia"
  • "Islanda"

La codifica one-hot potrebbe rappresentare ciascuno dei cinque valori nel seguente modo:

country Vettoriale
"Danimarca" 1 0 0 0 0
"Svezia" 0 1 0 0 0
"Norvegia" 0 0 1 0 0
"Finlandia" 0 0 0 1 0
"Islanda" 0 0 0 0 1

Grazie alla codifica one-hot, un modello può apprendere connessioni diverse in base a ciascuno dei cinque paesi.

Rappresentare una funzionalità come dati numerici è un'alternativa alla codifica one-hot. Sfortunatamente, rappresentare i paesi scandinavi numericamente non è una buona scelta. Ad esempio, considera la seguente rappresentazione numerica:

  • "Danimarca" è 0
  • "Svezia" è 1
  • "Norvegia" è 2
  • "Finlandia" è 3
  • "Islanda" compie 4

Con la codifica numerica, un modello interpreta i numeri non elaborati in modo matematica e cerca di eseguire l'addestramento su questi numeri. Tuttavia, l'Islanda non è in realtà il doppio (o la metà) di qualcosa rispetto alla Norvegia, quindi il modello trarrebbe strane conclusioni.

uno contro tutti

#fundamentals

Dato un problema di classificazione con N classi, una soluzione composta da N classificatori binari distinti, un classificatore binario per ogni possibile risultato. Ad esempio, dato un modello che classifica esempi come animale, vegetale o minerale, una soluzione uno o tutto fornirebbe i seguenti tre classificatori binari separati:

  • animale anziché animale
  • verdure/non verdure
  • confronto tra minerale e non minerale

online

#fundamentals

Sinonimo di dynamic.

inferenza online

#fundamentals

Generare previsioni on demand. Ad esempio, supponi che un'app passi l'input a un modello e invii una richiesta di previsione. Un sistema che utilizza l'inferenza online risponde alla richiesta eseguendo il modello (e restituendo la previsione all'app).

È in contrasto con l'inferenza offline.

livello di output

#fundamentals

Il livello "finale" di una rete neurale. Il livello di output contiene la previsione.

L'illustrazione seguente mostra una piccola rete neurale profonda con un livello di input, due livelli nascosti e un livello di output:

Una rete neurale con un livello di input, due livelli nascosti e un livello di output. Il livello di input è costituito da due funzionalità. Il primo strato nascosto è costituito da tre neuroni e il secondo strato nascosto da due neuroni. Il livello di output è costituito da un singolo nodo.

overfitting

#fundamentals

Creare un model che corrisponda ai model a tal punto che il modello non riesce a fare previsioni corrette sui nuovi dati.

La regolarizzazione può ridurre l'overfitting. Anche l'addestramento con un set di addestramento ampio e diversificato può ridurre l'overfitting.

P

panda

#fundamentals

Un'API di analisi dei dati orientata alle colonne basata su numpy. Molti framework di machine learning, tra cui TensorFlow, supportano le strutture di dati pandas come input. Per ulteriori dettagli, consulta la documentazione di Panda.

parametro

#fundamentals

Le pesi e i bias che un modello apprende durante l'addestramento. Ad esempio, in un modello di regressione lineare, i parametri sono costituiti dal bias (b) e da tutti i pesi (w1, w2 e così via) nella seguente formula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Al contrario, iperparametro sono i valori che tu (o un servizio di rotazione iperparametri) fornisci al modello. Ad esempio, frequenza di apprendimento è un iperparametro.

classe positiva

#fundamentals

Il corso per cui stai eseguendo il test.

Ad esempio, la classe positiva in un modello tumorale potrebbe essere il "tumore". La classe positiva in un classificatore di email potrebbe essere "spam".

Contrasto con classe negativa.

post-elaborazione

#fairness
#fundamentals

Regolare l'output di un modello dopo che questo è stato eseguito. La post-elaborazione può essere utilizzata per applicare vincoli di equità senza modificare i modelli stessi.

Ad esempio, si potrebbe applicare la post-elaborazione a un classificatore binario impostando una soglia di classificazione in modo che venga mantenuta l'uguaglianza di opportunità per alcuni attributi controllando che il tasso reale positivo sia lo stesso per tutti i valori di quell'attributo.

previsione

#fundamentals

L'output di un modello. Ad esempio:

  • La previsione di un modello di classificazione binario è una classe positiva o negativa.
  • La previsione di un modello di classificazione multi-classe è una classe.
  • La previsione di un modello di regressione lineare è un numero.

etichette proxy

#fundamentals

Dati utilizzati per approssimare le etichette non direttamente disponibili in un set di dati.

Ad esempio, supponiamo che sia necessario addestrare un modello per prevedere il livello di stress dei dipendenti. Il set di dati contiene molte funzionalità predittive, ma non contiene un'etichetta denominata livello di stress. Immediatamente, scegli "incidenti sul lavoro" come etichetta proxy per il livello di stress. Dopotutto, i dipendenti in condizioni di stress elevato ricevono più incidenti piuttosto che calmare i dipendenti. Oppure sì? Forse gli incidenti sul posto di lavoro in realtà aumentano o diminuiscono per diversi motivi.

Come secondo esempio, supponiamo di volere sta piovendo? come etichetta booleana per il set di dati, ma il set di dati non contiene dati relativi alla pioggia. Se sono disponibili fotografie, potresti creare immagini di persone che trasportano ombrelli come etichetta alternativa per sta piovendo? È un'etichetta proxy valida? Probabilmente, ma in alcune culture è più probabile che le persone portino con sé degli ombrelli per proteggersi dal sole rispetto alla pioggia.

Le etichette dei proxy sono spesso imperfette. Se possibile, scegli le etichette effettive anziché le etichette del proxy. Detto questo, quando un'etichetta effettiva è assente, sceglila con molta attenzione, scegliendo l'etichetta proxy meno orribile.

R

votante

#fundamentals

Una persona che fornisce etichette per esempi. "Annotatore" è un altro nome utilizzato per indicare il valutatore.

Unità lineare rettificata (ReLU)

#fundamentals

Una funzione di attivazione con il seguente comportamento:

  • Se l'input è negativo o zero, l'output è 0.
  • Se l'input è positivo, l'output è uguale all'input.

Ad esempio:

  • Se l'input è -3, l'output è 0.
  • Se l'input è +3, l'output è 3,0.

Ecco un grafico delle ReLU:

Grafico a cartesiano di due righe. La prima riga ha un valore y costante pari a 0, lungo l&#39;asse x da -infinito,0 a 0,-0.
          La seconda riga inizia da 0,0. Questa retta ha una pendenza di +1, quindi va da 0,0 a +infinito,+infinito.

ReLU è una funzione di attivazione molto popolare. Nonostante il suo comportamento semplice, ReLU consente comunque a una rete neurale di apprendere le relazioni non lineari tra le caratteristiche e l'etichetta.

modello di regressione

#fundamentals

In modo informale, si tratta di un modello che genera una previsione numerica. Al contrario, un modello di classificazione genera una previsione delle classi. Ad esempio, di seguito sono riportati tutti modelli di regressione:

  • Un modello che prevede il valore di una determinata casa, ad esempio 423.000 euro.
  • Un modello che prevede l'aspettativa di vita di un determinato albero, ad esempio 23,2 anni.
  • Un modello che prevede la quantità di pioggia che cadrà in una determinata città nelle sei ore successive, ad esempio 45 mm.

Due tipi comuni di modelli di regressione sono:

  • Regressione lineare, che trova la retta che meglio si adatta ai valori delle etichette alle caratteristiche.
  • Regressione logistica, che genera una probabilità compresa tra 0,0 e 1,0 che un sistema in genere mappa a una previsione di classe.

Non tutti i modelli che forniscono previsioni numeriche sono modelli di regressione. In alcuni casi, una previsione numerica è in realtà solo un modello di classificazione che ha nomi di classi numerici. Ad esempio, un modello che prevede un codice postale numerico è un modello di classificazione, non un modello di regressione.

regolarizzazione

#fundamentals

Qualsiasi meccanismo che riduca l'overfitting. I tipi più comuni di regolarizzazione includono:

La regolarizzazione può essere definita anche come la penalizzazione sulla complessità di un modello.

tasso di regolarizzazione

#fundamentals

Un numero che specifica l'importanza relativa della regolazione durante l'addestramento. L'aumento del tasso di regolarizzazione riduce l'overfitting, ma può ridurre la capacità predittiva del modello. Al contrario, la riduzione o l'omissione del tasso di regolarizzazione aumenta l'overfitting.

ReLU

#fundamentals

Abbreviazione di Rectified Linear Unit.

generazione incrementata dal recupero

#fundamentals

Un'architettura software comunemente utilizzata nelle applicazioni LLM (Large Language Model). Le motivazioni più comuni per utilizzare la generazione aumentata dal recupero sono:

  • Aumentare l'accuratezza fattuale delle risposte generate dal modello
  • Concedere al modello l'accesso alle conoscenze su cui non è stato addestrato
  • Modifica delle conoscenze utilizzate dal modello
  • Abilitazione del modello a citare le fonti

Ad esempio, supponiamo che un'app di chimica utilizzi l'API PalLM per generare riepiloghi relativi alle query degli utenti. Quando il backend dell'app riceve una query, prima cerca ("recupera") i dati pertinenti alla query dell'utente, accoda ("incrementi") i dati chimici pertinenti alla query dell'utente e indica all'LLM di creare un riepilogo basato sui dati aggiunti.

Curva ROC (caratteristica operativa del ricevitore)

#fundamentals

Un grafico della percentuale di veri positivi rispetto alla percentuale di falsi positivi per diverse soglie di classificazione nella classificazione binaria.

La forma di una curva ROC suggerisce la capacità di un modello di classificazione binaria di separare le classi positive da quelle negative. Supponiamo, ad esempio, che un modello di classificazione binario separa perfettamente tutte le classi negative da tutte le classi positive:

Una linea numerica con 8 esempi positivi a destra e 7 esempi negativi a sinistra.

La curva ROC per il modello precedente si presenta come segue:

Una curva ROC. L&#39;asse x corrisponde al tasso di falsi positivi e l&#39;asse y
 è il tasso di veri positivi. La curva ha una forma a L invertita. La curva inizia da (0,0,0,0) e va direttamente fino a (0,0,1,0). Quindi la curva va da (0,0,1,0) a (1,0,1,0).

Al contrario, la seguente illustrazione mostra i valori di regressione logistica non elaborata per un modello terribile che non può separare affatto le classi negative dalle classi positive:

Una linea numerica con esempi positivi e classi negative
          completamente mescolate.

La curva ROC per questo modello è la seguente:

Una curva ROC, che in realtà è una linea retta da (0,0,0,0) a (1,0,1,0).

Nel frattempo, nel mondo reale, la maggior parte dei modelli di classificazione binari separa in una certa misura le classi positive e negative, ma di solito non perfettamente. Quindi, una tipica curva ROC cade tra i due estremi:

Una curva ROC. L&#39;asse x corrisponde al tasso di falsi positivi e l&#39;asse y
 è il tasso di veri positivi. La curva ROC si avvicina a un arco oscillante che attraversa i punti della bussola da ovest a nord.

Il punto su una curva ROC più vicina a (0,0,1,0) identifica teoricamente la soglia di classificazione ideale. Tuttavia, molti altri problemi reali influenzano la scelta della soglia di classificazione ideale. Ad esempio, forse i falsi negativi causano molto più sofferenza dei falsi positivi.

Una metrica numerica chiamata AUC riassume la curva ROC in un singolo valore in virgola mobile.

Errore quadratico medio (RMSE)

#fundamentals

La radice quadrata dell'errore al quadrato medio.

S

funzione sigmoidea

#fundamentals

Una funzione matematica che "schiaccia" un valore di input in un intervallo vincolato, in genere da 0 a 1 o da -1 a +1. In altre parole, puoi passare qualsiasi numero (due, un milione, un miliardo negativo o qualsiasi altra cosa) a un sigmoide e l'output sarà ancora compreso nell'intervallo vincolato. Un grafico della funzione di attivazione sigmoide ha il seguente aspetto:

Un grafico curvo bidimensionale con valori x che coprono il dominio:
          dall&#39;infinito a + positivo, mentre i valori y coprono l&#39;intervallo da quasi 0 a
          quasi 1. Quando x è 0, y è 0,5. La pendenza della curva è sempre positiva, con la pendenza più alta a 0,0,5 e pendenze gradualmente decrescenti man mano che aumenta il valore assoluto di x.

La funzione sigmoide ha diversi usi nel machine learning, tra cui:

softmax

#fundamentals

Una funzione che determina le probabilità per ogni possibile classe in un modello di classificazione multi-classe. Le probabilità sommano esattamente 1,0. Ad esempio, la tabella seguente mostra in che modo softmax distribuisce varie probabilità:

L'immagine è... Probability
cane .85
gatto .13
cavallo ,02

Softmax è anche chiamato full softmax.

Sono in contrasto con il campionamento dei candidati.

funzionalità sparsa

#language
#fundamentals

Una funzionalità i cui valori sono prevalentemente zero o vuoti. Ad esempio, una caratteristica contenente un singolo valore 1 e un milione di valori 0 è scarsa. Al contrario, una funzionalità densa ha valori che principalmente non sono zero o vuoti.

Nel machine learning, un numero sorprendente di funzionalità sono sparse. Le caratteristiche categoriche sono in genere sparse. Tra le 300 possibili specie di alberi in una foresta, un singolo esempio potrebbe identificare solo un acero. Oppure, dei milioni di possibili video in una raccolta video, un solo esempio potrebbe identificare solo "Casablanca".

In un modello, in genere rappresenti caratteristiche sparse con la codifica one-hot. Se la codifica one-hot è di grandi dimensioni, puoi aggiungere un livello di incorporamento sopra la codifica one-hot per una maggiore efficienza.

rappresentazione sparsa

#language
#fundamentals

Memorizzazione solo delle posizioni degli elementi diversi da zero in un elemento sparso.

Ad esempio, supponiamo che un elemento categorico denominato species identifichi le 36 specie di alberi in una particolare foresta. Supponiamo inoltre che ogni esempio identifichi solo una singola specie.

Potresti utilizzare un vettore a caldo per rappresentare le specie di alberi in ciascun esempio. Un vettore a caldo conterrebbe un singolo 1 (per rappresentare la particolare specie di alberi nell'esempio) e 35 0 (per rappresentare le 35 specie di alberi non in questo esempio). Quindi, la rappresentazione one-hot di maple potrebbe avere il seguente aspetto:

Un vettore in cui le posizioni da 0 a 23 contengono il valore 0, la posizione 24 contiene il valore 1 e le posizioni da 25 a 35 contengono il valore 0.

In alternativa, una rappresentazione sparsa identificherebbe semplicemente la posizione della particolare specie. Se maple si trova alla posizione 24, la rappresentazione sparsa di maple sarebbe semplicemente:

24

Nota che la rappresentazione sparsa è molto più compatta rispetto alla rappresentazione one-hot.

vettore sparso

#fundamentals

Un vettore i cui valori sono per lo più zeri. Vedi anche funzionalità sparsa e sparsità.

perdita al quadrato

#fundamentals

Sinonimo di L2 perdita.

static

#fundamentals

Qualcosa che si ripete una sola volta anziché in modo continuativo. I termini statico e offline sono sinonimi. Di seguito sono riportati alcuni utilizzi comuni di statico e offline nel machine learning:

  • modello statico (o modello offline) è un modello addestrato una volta e poi utilizzato per un certo periodo.
  • L'addestramento statico (o addestramento offline) è il processo di addestramento di un modello statico.
  • L'inferenza statica (o inferenza offline) è un processo in cui un modello genera un batch di previsioni alla volta.

Contrasto con dinamico.

inferenza statica

#fundamentals

Sinonimo di inferenza offline.

stazionarietà

#fundamentals

Una funzionalità i cui valori non cambiano in una o più dimensioni, in genere nel tempo. Ad esempio, una caratteristica i cui valori sono all'incirca gli stessi nel 2021 e nel 2023 mostra una stazionarietà.

Nel mondo reale, sono davvero poche le caratteristiche che mostrano una stazionarietà. Anche gli elementi con sinonimi con stabilità (come il livello del mare) cambiano nel tempo.

Contrasta con nonstationarity.

discesa del gradiente stocastico (SGD)

#fundamentals

Un algoritmo di discesa del gradiente in cui la dimensione del batch è uno. In altre parole, SGD si addestra su un singolo esempio scelto in modo uniforme a caso da un set di addestramento.

machine learning supervisionato

#fundamentals

Addestra un model utilizzando le model e le relative model corrispondenti. Il machine learning supervisionato è analogo all'apprendimento di una materia mediante lo studio di una serie di domande e delle relative risposte. Dopo aver imparato la mappatura tra domande e risposte, uno studente può fornire risposte a nuove domande (mai prima lette) sullo stesso argomento.

Fai un confronto con il machine learning non supervisionato.

funzionalità sintetica

#fundamentals

Una funzionalità non presente tra le caratteristiche di input, ma creata da una o più di esse. I metodi per la creazione di caratteristiche sintetiche includono quanto segue:

  • Bucketing una caratteristica continua in bin di intervalli.
  • Crea un insieme di funzionalità.
  • Moltiplicare (o dividere) il valore di un elemento per altri valori di una caratteristica o per se stesso. Ad esempio, se a e b sono funzionalità di input, ecco alcuni esempi di funzionalità sintetiche:
    • ab
    • a2
  • Applicazione di una funzione trascendentale a un valore di caratteristica. Ad esempio, se c è una funzionalità di input, ecco alcuni esempi di caratteristiche sintetiche:
    • sin(c)
    • ln(c)

Le funzionalità create da solo tramite la normalizzazione o la scalabilità non sono considerate funzionalità sintetiche.

T

perdita di test

#fundamentals

Una metrica che rappresenta la perdita di un modello rispetto al set di test. Quando crei un model, in genere cerchi di ridurre al minimo la perdita di test. Questo perché una bassa perdita di test è un segnale di qualità più forte rispetto a una bassa perdita di addestramento o a una bassa perdita di convalida.

Un ampio divario tra la perdita dei test e la perdita dell'addestramento o della convalida a volte suggerisce la necessità di aumentare il tasso di regolarizzazione.

addestramento

#fundamentals

Il processo di determinazione dei parametri ideali (ponderazioni e bias) che comprendono un modello. Durante l'addestramento, un sistema legge gli esempi e regola gradualmente i parametri. L'addestramento utilizza ogni esempio ovunque, da alcune volte a miliardi di volte.

perdita di addestramento

#fundamentals

Una metrica che rappresenta la perdita di un modello durante una particolare iterazione di addestramento. Ad esempio, supponiamo che la funzione di perdita sia Errore al quadrato medio. Forse la perdita di addestramento (l'errore quadrato medio) per la decima iterazione è 2,2, mentre la perdita di addestramento per la 100a iterazione è 1,9.

Una curva di perdita traccia la perdita di addestramento rispetto al numero di iterazioni. Una curva di perdita fornisce i seguenti suggerimenti sull'addestramento:

  • Una pendenza verso il basso implica che il modello sta migliorando.
  • Un'inclinazione verso l'alto implica che il modello stia peggiorando.
  • Una pendenza piatta implica che il modello ha raggiunto la convergenza.

Ad esempio, la seguente curva di perdita in qualche modo idealizzata mostra:

  • Una ripida pendenza verso il basso durante le iterazioni iniziali, che implica un rapido miglioramento del modello.
  • Una pendenza gradualmente appiattita (ma ancora verso il basso) fino alla fine dell'addestramento, il che implica un miglioramento continuo del modello a un ritmo leggermente più lento rispetto alle iterazioni iniziali.
  • Una pendenza piatta verso la fine dell'addestramento, che suggerisce la convergenza.

Il grafico della perdita di addestramento e delle iterazioni. Questa curva di perdita inizia con un ripido pendenza in discesa. La pendenza si appiattisce gradualmente fino a quando la pendenza non diventa zero.

Sebbene la perdita di addestramento sia importante, consulta anche la generalizzazione.

disallineamento addestramento/produzione

#fundamentals

La differenza tra le prestazioni di un modello durante l'addestramento e le prestazioni dello stesso modello durante la pubblicazione.

set di addestramento

#fundamentals

Il sottoinsieme del set di dati utilizzato per addestrare un modello.

Tradizionalmente, gli esempi nel set di dati sono suddivisi nei seguenti tre sottoinsiemi distinti:

Idealmente, ogni esempio nel set di dati dovrebbe appartenere solo a uno dei sottoinsiemi precedenti. Ad esempio, un singolo esempio non deve appartenere sia al set di addestramento che al set di convalida.

vero negativo (TN)

#fundamentals

Un esempio in cui il modello prevede correttamente la classe esclusa. Ad esempio, il modello deduce che un determinato messaggio email non è spam e che in realtà non è spam.

vero positivo (TP)

#fundamentals

Un esempio in cui il modello prevede correttamente la classe positiva. Ad esempio, il modello deduce che un determinato messaggio email è spam e che in realtà si tratta di un messaggio email.

tasso di veri positivi

#fundamentals

Sinonimo di richiamo. Ossia:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Il tasso reale positivo è l'asse y in una curva ROC.

U

underfitting

#fundamentals

Produrre un model con scarsa capacità predittiva perché il modello non ha acquisito completamente la complessità dei dati di addestramento. Molti problemi possono causare un adattamento insufficiente, tra cui:

esempio senza etichetta

#fundamentals

Un esempio che contiene features ma nessuna etichetta. Ad esempio, la seguente tabella mostra tre esempi senza etichetta di un modello di valutazione di una casa, ciascuno con tre caratteristiche ma nessun valore della casa:

Numero di camere Numero di bagni Età del nucleo familiare
3 2 15
2 1 72
4 2 34

Nel machine learning supervisionato, i modelli vengono addestrati in base a esempi etichettati ed effettuano previsioni su esempi non etichettati.

Nell'apprendimento semi-supervisionato e non supervisionato, vengono utilizzati esempi senza etichetta durante l'addestramento.

Contrasta l'esempio senza etichetta con l'esempio etichettato.

machine learning non supervisionato

#clustering
#fundamentals

Addestramento di un model per trovare pattern in un set di dati, in genere un set di dati senza etichetta.

L'uso più comune del machine learning non supervisionato è cluster i dati in gruppi di esempi simili. Ad esempio, un algoritmo di machine learning non supervisionato può raggruppare i brani in base a varie proprietà della musica. I cluster risultanti possono diventare un input per altri algoritmi di machine learning (ad esempio per un servizio di suggerimenti musicali). Il clustering può essere utile quando le etichette utili sono scarse o assenti. Ad esempio, in domini quali anti-abuso e attività fraudolenta, i cluster possono aiutare gli esseri umani a comprendere meglio i dati.

Sono opposti al machine learning supervisionato.

V

validation

#fundamentals

La valutazione iniziale della qualità di un modello. La convalida controlla la qualità delle previsioni di un modello in base al set di convalida.

Poiché il set di convalida è diverso dal set di addestramento, la convalida aiuta a evitare l'overfitting.

Potresti considerare la valutazione del modello in base al set di convalida come prima fase di test e la valutazione del modello rispetto al set di test come seconda fase di test.

perdita di convalida

#fundamentals

Una metrica che rappresenta la perdita di un modello nel set di convalida durante una particolare iterazione dell'addestramento.

Vedi anche curva di generalizzazione.

set di convalida

#fundamentals

Il sottoinsieme del set di dati che esegue la valutazione iniziale rispetto a un modello addestrato. In genere, il modello addestrato viene valutato diverse volte rispetto al set di convalida prima di valutare il modello con il set di test.

Tradizionalmente, gli esempi nel set di dati vengono suddivisi nei seguenti tre sottoinsiemi distinti:

Idealmente, ogni esempio nel set di dati dovrebbe appartenere solo a uno dei sottoinsiemi precedenti. Ad esempio, un singolo esempio non deve appartenere sia al set di addestramento che al set di convalida.

W

weight

#fundamentals

Un valore che un modello moltiplica per un altro valore. L'addestramento è il processo di determinazione dei pesi ideali di un modello; l'inferenza è il processo di utilizzo dei pesi appresi per fare previsioni.

somma ponderata

#fundamentals

La somma di tutti i valori di input pertinenti moltiplicati per le ponderazioni corrispondenti. Ad esempio, supponiamo che gli input pertinenti siano costituiti dai seguenti elementi:

valore di input peso inserito
2 -1.3
-1 0.6
3 0.4

La somma ponderata è pertanto:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Una somma ponderata è l'argomento di input di una funzione di attivazione.

Z

Normalizzazione del punteggio z

#fundamentals

Una tecnica di scalabilità che sostituisce un valore non elaborato di funzionalità con un valore in virgola mobile che rappresenta il numero di deviazioni standard dalla media di tale caratteristica. Ad esempio, considera una caratteristica la cui media è 800 e la cui deviazione standard è 100. La tabella seguente mostra come la normalizzazione del punteggio Z associa il valore non elaborato al suo punteggio Z:

Valore non elaborato Z-score
800 0
950 +1,5
575 -2.25

Il modello di machine learning si addestra in base ai punteggi Z per quella caratteristica anziché sui valori non elaborati.