Glossario del machine learning: concetti di base del machine learning

Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Questa pagina contiene i termini del glossario di ML Fundamentals. Per tutti i termini del glossario, fai clic qui.

A

accuratezza

#fundamentals

Il numero di previsioni di classificazione corrette diviso per il numero totale di previsioni. Ossia:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Ad esempio, un modello che ha effettuato 40 previsioni corrette e 10 previsioni errate avrebbe un'accuratezza di:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

La classificazione binaria fornisce nomi specifici per le diverse categorie di previsioni corrette e previsioni non corrette. Pertanto, la formula di precisione per la classificazione binaria è la seguente:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

dove:

Confrontare la precisione dei valori di contrasto con la precisione e il richiamo.

funzione di attivazione

#fundamentals

Una funzione che consente alle reti neurali di apprendere relazioni non lineari (complesse) tra caratteristiche e complesso

Le funzioni di attivazione più comuni includono:

I grafici delle funzioni di attivazione non sono mai singole rette. Ad esempio, il grafico della funzione di attivazione ReLU è costituito da due rette:

Una trama cartesiana su due righe. La prima riga ha un valore y costante pari a 0, in esecuzione lungo l'asse x da -infinito,da 0 a 0,-0.
          La seconda riga inizia da 0,0. Questa linea ha una pendenza di +1, quindi
          va da 0,0 a +infinità,+infinito.

Un grafico della funzione di attivazione sigmoidea ha il seguente aspetto:

Un grafico curvo bidimensionale con valori x che coprono il dominio
          da - infinito a +positivo, mentre i valori y coprono l'intervallo da quasi 0 a
          quasi 1. Quando x è 0, y è 0,5. La pendenza della curva è sempre positiva, con la pendenza più alta di 0,0,5 e che diminuisce gradualmente le pendenze man mano che il valore assoluto di x aumenta.

intelligenza artificiale

#fundamentals

Un programma o un modello non umano che può risolvere attività sofisticate. Ad esempio, un programma o un modello che traduce il testo o un programma o modello che identifica malattie da immagini radiologiche presenta entrambi un'intelligenza artificiale.

Il machine learning è un sottocampo dell'intelligenza artificiale. Tuttavia, negli ultimi anni, alcune organizzazioni hanno iniziato a usare i termini intelligenza artificiale e machine learning in modo intercambiabile.

AUC (area sotto la curva ROC)

#fundamentals

Un numero compreso tra 0,0 e 1,0 che rappresenta un modello di classificazione binaria per separare le classi positive dalle classi negative. Più l'AUC è vicina a 1,0, migliore è la capacità del modello di separare le classi l'una dall'altra.

Ad esempio, nell'illustrazione seguente viene mostrato un modello di classificazione che separa perfettamente le classi positive (ovali verdi) dalle classi negative (rettangoli viola). Questo modello irrealisticamente perfetto ha un'AUC di 1,0:

Una riga di numeri con 8 esempi positivi su un lato e 9 esempi negativi sull'altro lato.

Al contrario, la seguente illustrazione mostra i risultati per un modello di classificatore che ha generato risultati casuali. Questo modello ha un'AUC di 0,5:

Una riga di numeri con 6 esempi positivi e 6 esempi negativi.
          La sequenza di esempi è positiva, negativa, positiva, negativa, positiva, negativa, positiva, negativa, positiva, negativa, positiva, negativa.

Sì, il modello precedente ha un AUC di 0,5 e non 0,0.

La maggior parte dei modelli si trova tra i due estremi. Ad esempio, il seguente modello separa i positivi da quelli negativi e, di conseguenza, ha un AUC compreso tra 0,5 e 1,0:

Una riga di numeri con 6 esempi positivi e 6 esempi negativi.
          La sequenza di esempi è negativa, negativa, negativa, negativa, positiva, negativa, positiva, positiva, negativa, positiva, positiva, positiva.

AUC ignora qualsiasi valore impostato per la soglia di classificazione. AUC prende in considerazione tutte le soglie di classificazione possibili.

B

propagazione

#fundamentals

L'algoritmo che implementa la discendenza gradiente nelle reti neurali.

L'addestramento di una rete neurale prevede molte iterazioni del seguente ciclo in due passaggi:

  1. Durante il pass in avanti, il sistema elabora un batch di esempi per generare previsioni. Il sistema confronta ogni previsione con il valore di ogni label. La differenza tra la previsione e il valore dell'etichetta è la loss di questo esempio. Il sistema aggrega le perdite di tutti gli esempi per calcolare la perdita totale per il batch corrente.
  2. Durante il pass a ritroso (propagazione), il sistema riduce la perdita regolando i pesi di tutti i neuroni in tutti i livelli nascosti.

Le reti neurali spesso contengono molti neuroni in molti livelli nascosti. Ciascuno di questi neuroni contribuisce alla perdita complessiva in modi diversi. La propagazione determina se aumentare o diminuire i pesi applicati a determinati neuroni.

La percentuale di apprendimento è un moltiplicatore che controlla il grado in cui ogni pass a ritroso aumenta o diminuisce ogni peso. Un tasso di apprendimento elevato comporta l'aumento o la diminuzione di ogni peso rispetto a un tasso di apprendimento ridotto.

In termini di calcolo, la retropropagazione implementa il calcolo' regola della catena. In altre parole, la retropropagazione calcola la derivata parziale dell'errore in riferimento a ciascun parametro. Per maggiori dettagli, guarda questo tutorial nel corso sugli arresti anomali del machine learning.

Anni fa, i professionisti del machine learning dovevano scrivere del codice per implementare la retropropagazione. Le API di ML moderne come TensorFlow ora implementano la propagazione per te. Finalmente.

batch

#fundamentals

Il set di esempi utilizzati in un'iterazione di addestramento. Le dimensioni del batch determinano il numero di esempi in un batch.

Consulta la sezione epoca per una spiegazione della correlazione tra un batch e un periodo.

dimensione del batch

#fundamentals

Il numero di esempi in un gruppo. Ad esempio, se la dimensione del batch è 100, il modello elabora 100 esempi per iterazione.

Di seguito sono riportate le strategie di dimensione collettiva più utilizzate:

  • Discendenza sfumatura stocastica (SGD), in cui la dimensione del batch è 1.
  • batch completo, in cui la dimensione del batch è il numero di esempi nell'intero set di addestramento. Ad esempio, se il set di addestramento contiene un milione di esempi, la dimensione del batch corrisponde a un milione di esempi. Il batch completo è generalmente una strategia inefficiente.
  • mini-batch in cui la dimensione del batch è generalmente compresa tra 10 e 1000. Il mini-batch è solitamente la strategia più efficiente.

bias (etica/equità)

#fairness
#fundamentals

1. Eventuali stereotipi, pregiudizi o favoritismi nei confronti di alcuni soggetti, persone o gruppi rispetto ad altri. Questi bias possono influire sulla raccolta e sull'interpretazione dei dati, sulla progettazione di un sistema e sul modo in cui gli utenti interagiscono con un sistema. I tipi di bias comprendono:

2. Errore sistematico introdotto da una procedura di campionamento o di reporting. I tipi di bias comprendono:

Da non confondere con il termine di bias nei modelli di machine learning o di pregiudizio di previsione.

bias (math) o termine di bias

#fundamentals

Un'intercetta o una differenza rispetto a un'origine. La bias è un parametro nei modelli di machine learning, che è rappresentato da uno dei seguenti elementi:

  • B
  • W0

Ad esempio, il bias è la b nella formula seguente:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

In una semplice linea bidimensionale, i pregiudizi significano solo "intercetta-y". Ad esempio, il bias della riga nella seguente illustrazione è 2.

Il grafico di una linea con una pendenza di 0,5 e un bias (intercetta y) di 2.

I bias esistono perché non tutti i modelli iniziano dall'origine (0,0). Ad esempio, supponiamo che un parco divertimenti costi i 2 euro per l'ingresso e altri 0,5 euro per ogni ora in cui il cliente soggiorna. Pertanto, un modello che mappa il costo totale ha una bias di 2 perché il costo più basso è di 2 euro.

Bias non va confuso con le premesse in termini di etica e correttezza o pregiudizi di previsione.

classificazione binaria

#fundamentals

Un tipo di attività di classificazione che prevede una di due classi che si escludono a vicenda:

Ad esempio, i seguenti due modelli di machine learning eseguono la classificazione binaria:

  • Un modello che determina se i messaggi email sono spam (la classe positiva) o non spam (la classe negativa).
  • Un modello che valuta i sintomi medici per determinare se una persona ha una determinata malattia (la classe positiva) o se non ha questa malattia (la classe negativa).

Contrasto con la classificazione multi-classe.

Consulta anche la regressione logistica e la soglia di classificazione.

bucket

#fundamentals

Conversione di una singola funzionalità in più funzionalità binarie chiamate bucket o bin, in genere in base a un intervallo di valori. La funzionalità tagliata è in genere una funzionalità continua.

Ad esempio, anziché rappresentare la temperatura come un unico elemento mobile in virgola mobile, puoi tagliare intervalli di temperature in bucket discreti, in questo modo:

  • <= 10 gradi Celsius sarebbe il "freddo" secchio.
  • 11-24 gradi Celsius sarebbe il "secchio" temperato.
  • >= 25 gradi Celsius sarebbe il "tiepido" secchio.

Il modello tratterà ogni valore nello stesso bucket in modo identico. Ad esempio, i valori 13 e 22 si trovano entrambi nel bucket temperato, quindi il modello considera i due valori in modo identico.

C

dati categorici

#fundamentals

Funzionalità che hanno un insieme specifico di valori possibili. Ad esempio, considera una funzionalità di categoria denominata traffic-light-state, che può avere solo uno dei tre valori seguenti:

  • red
  • yellow
  • green

Poiché rappresenta traffic-light-state come funzionalità categoriale, un modello può apprendere l'impatto di red, green e yellow sul comportamento dei conducenti.

Le funzionalità categoriche sono talvolta chiamate funzionalità discrete.

Contrasto con i dati numerici.

classe

#fundamentals

Una categoria a cui può appartenere un'etichetta. Ad esempio:

Un modello di classificazione prevede una classe. Al contrario, un modello di regressione prevede un numero anziché una classe.

modello di classificazione

#fundamentals

Un modello la cui previsione è una class. Ad esempio, di seguito sono riportati tutti i modelli di classificazione:

  • Un modello che prevede la lingua di una frase di input (francese? Spagnolo? italiano?).
  • Un modello che prevede le specie arboree (acero? Rovere? Baobab?").
  • Un modello che prevede la classe positiva o negativa per una determinata condizione medica.

I modelli di regressione, invece, prevedono i numeri anziché le classi.

Due tipi comuni di modelli di classificazione sono:

soglia di classificazione

#fundamentals

In una classificazione binaria, un numero compreso tra 0 e 1 che converte l'output non elaborato di un modello di regressione logistica in una previsione della classe positiva o della classe negativa. Tieni presente che la soglia di classificazione è un valore scelto da un essere umano, non un valore scelto dall'addestramento del modello.

Un modello di regressione logistica genera un valore non elaborato compreso tra 0 e 1. Quindi:

  • Se il valore non elaborato è superiore alla soglia di classificazione, si prevede che la classe positiva.
  • Se questo valore non elaborato è inferiore alla soglia di classificazione, viene prevista la classe negativa.

Ad esempio, supponiamo che la soglia di classificazione sia 0,8. Se il valore non elaborato è 0,9, il modello prevede la classe positiva. Se il valore non elaborato è 0,7, il modello prevede la classe negativa.

La scelta della soglia di classificazione influisce notevolmente sul numero di false positivi e di falsi negativi.

set di dati con bilanciamento del corso

#fundamentals

Un set di dati per un problema di classificazione in cui il numero totale di etichette di ogni classe è significativamente diverso. Ad esempio, considera un set di dati di classificazione binari le cui due etichette sono divise come segue:

  • 1.000.000 di etichette negative
  • 10 etichette positive

Il rapporto tra etichette negative e positive è 100.000 a 1, quindi si tratta di un set di dati con bilanciamento del corso.

Al contrario, il seguente set di dati non è squilibrato di classe perché il rapporto tra etichette negative e etichette positive è relativamente vicino a 1:

  • 517 etichette negative
  • 483 etichette positive

Anche i set di dati multi-classe possono essere sbilanciati. Ad esempio, il seguente set di dati di classificazione multi-classe è anch'esso squisito perché un'etichetta ha molti più esempi delle altre due:

  • 1.000.000 di etichette con classe "verde".
  • 200 etichette con classe "viola".
  • 350 etichette con classe "arancione".

Vedi anche entropy, classe di maggioranza e classe di minoranza.

ritaglio

#fundamentals

Una tecnica per gestire gli irregolari eseguendo una o entrambe le seguenti operazioni:

  • Riduzione dei valori di feature superiori a una soglia massima fino a quella soglia massima.
  • Aumento dei valori delle caratteristiche che sono inferiori a una soglia minima fino a quella minima.

Ad esempio, supponi che <0,5% dei valori di un determinato elemento non rientri nell'intervallo 40-60. In questo caso, puoi procedere nel seguente modo:

  • Clip tutti i valori oltre 60 (la soglia massima) per essere esattamente 60.
  • Clip tutti i valori sotto 40 (la soglia minima) per essere esattamente 40.

I valori anomali possono danneggiare i modelli, causando il riversamento del peso durante l'addestramento. Alcuni valori anomali possono anche rovinare drasticamente metriche come precisione. Il ritaglio è una tecnica comune per limitare il danno.

Clip di sfumatura forza gradiente valori entro un intervallo designato durante l'addestramento.

matrice di confusione

#fundamentals

Una tabella NxN che riepiloga il numero di previsioni corrette e non corrette eseguite da un modello di classificazione. Ad esempio, considera la seguente matrice di confusione per un modello di classificazione binaria:

Tumor (previsto) Non tumor (previsto)
Tumor (basato su dati empirici reali) 18 (TP) 1 (FP)
Non Tumor (basato su dati empirici reali) 6 (FN) 452 (TN)

La matrice di confusione precedente mostra quanto segue:

  • Di queste 19 previsioni, secondo la quale i dati empirici reali era Tumor, il modello ha classificato correttamente 18 e erroneamente 1.
  • Delle 458 previsioni in cui i dati empirici reali erano Non-Tumor, il modello ha classificato correttamente 452 e erroneamente 6.

La matrice di confusione per un problema di classificazione multi-classe può aiutarti a identificare i pattern di errori. Ad esempio, considera la seguente matrice di confusione per un modello di classificazione multi-classe a tre classi che classifica tre diversi tipi di diaframma (Virginica, Versicolor e Setosa). Quando la verità di base era Virginica, la matrice di confusione mostra che il modello aveva molte più probabilità di prevedere erroneamente il Versicolor rispetto a Setosa:

  Setosa (previsione) Versicolor (previsto) Virginica (previsione)
Setosa (la verità di base) 88 12 0
Versicolor (basato su dati empirici reali) 6 141 7
Virginica (basato su dati empirici reali) 2 27 109

Ancora un altro esempio, una matrice di confusione potrebbe rivelare che un modello addestrato a riconoscere cifre scritte a mano tende a prevedere erroneamente 9 invece di 4 o a prevedere erroneamente 1 invece di 7.

Le matrici di confusione contengono informazioni sufficienti per calcolare una varietà di metriche delle prestazioni, tra cui precisione e richiamo.

funzionalità continua

#fundamentals

Una funzionalità con virgola mobile con un intervallo infinito di possibili valori, come la temperatura o il peso.

Contrasto con la funzionalità discreta.

convergenza

#fundamentals

Uno stato raggiunto quando i valori di loss cambiano molto poco o non vengono rimossi affatto a ogni iterazione. Ad esempio, la seguente curva di perdita suggerisce una convergenza intorno a 700 iterazioni:

Trama cartesiana. Asse X è perdita. L&#39;asse Y rappresenta il numero di iterazioni dell&#39;addestramento. La perdita è molto elevata durante le prime iterazioni, ma
          diminuisce drasticamente. Dopo circa 100 iterazioni, la perdita è ancora in discesa, ma molto più gradualmente. Dopo circa 700 iterazioni,
          la perdita rimane invariata.

Un modello converge quando l'addestramento aggiuntivo non migliorerà il modello.

Nel deep learning, i valori delle perdite a volte rimangono costanti o quasi per molte iterazioni prima di essere finalmente discendenti. Durante un lungo periodo di valori di perdita costante, potresti sentire temporaneamente un falso senso di convergenza.

Vedi anche interruzione anticipata.

D

DataFrame

#fundamentals

Un tipo di dati pandas popolare per rappresentare i set di dati in memoria.

Un DataFrame è simile a una tabella o a un foglio di lavoro. Ogni colonna di un DataFrame ha un nome (un'intestazione) e ogni riga è identificata da un numero univoco.

Ogni colonna in un DataFrame è strutturata come un array 2D, tranne per il fatto che a ogni colonna può essere assegnato il proprio tipo di dati.

Consulta anche la pagina di riferimento ufficiale di pandas.DataFrame.

set di dati o set di dati

#fundamentals

Una raccolta di dati non elaborati, generalmente (ma non esclusivamente) organizzati in uno dei seguenti formati:

  • un foglio di lavoro
  • un file in formato CSV (valori separati da virgola)

modello profondo

#fundamentals

Una rete neurale contenente più di un livello nascosto.

Un modello profondo è chiamato anche rete neurale profonda.

Contrasto con il modello largo.

funzionalità densa

#fundamentals

Una funzionalità in cui la maggior parte o tutti i valori sono diversi da zero, in genere un Tensor di valori in virgola mobile. Ad esempio, il seguente Tensor di 10 elementi è denso perché 9 dei suoi valori sono diversi da zero:

8 3 7 5 2 4 0 4 9 6

Contrasto con la funzionalità vuota.

profondità

#fundamentals

La somma di quanto segue in una rete neurale:

Ad esempio, una rete neurale con cinque livelli nascosti e un livello di output ha una profondità di 6.

Tieni presente che il livello di input non influisce sulla profondità.

funzionalità discreta

#fundamentals

Una funzionalità con un insieme finito di valori possibili. Ad esempio, una caratteristica i cui valori possono essere solo animale, vegetale o minerale è una funzionalità discreta (o categoriale).

Contrasto con la funzionalità continua.

dinamico

#fundamentals

Operazioni effettuate di frequente o di continuo. I termini dinamico e online sono sinonimi del machine learning. Di seguito sono riportati gli utilizzi comuni dei sistemi dinamici e online nel machine learning:

  • Un modello dinamico (o modello online) è un modello addestrato di frequente o in modo continuo.
  • La formazione dinamica (o formazione online) è il processo di addestramento frequente o continuo.
  • L'inferenza dinamica (o inferenza online) è il processo di generazione di previsioni on demand.

modello dinamico

#fundamentals

Un modello che viene spesso aggiornato (magari anche di continuo). Un modello dinamico è un "apprendimento continuo" che si adatta costantemente ai dati in evoluzione. Il modello dinamico è noto anche come modello online.

Contrasto con il modello statico.

E

interruzione anticipata

#fundamentals

Un metodo per la regolarizzazione che prevede l'interruzione della formazione prima di una riduzione dell'addestramento. All'inizio, interrompi intenzionalmente l'addestramento del modello quando la perdita su un set di dati di convalida inizia ad aumentare, ovvero quando le prestazioni della generalizzazione peggiorano.

livello di incorporamento

#language
#fundamentals

Uno livello nascosto speciale che viene addestrato su una funzionalità categoria di grandi dimensioni per imparare gradualmente un vettore di incorporamento di dimensione inferiore. Un livello di incorporamento consente a una rete neurale di apprendere molto più in modo efficiente rispetto all'addestramento relativo alla caratteristica categoria ad alta dimensione.

Ad esempio, attualmente Earth supporta circa 73.000 specie di alberi. Supponiamo che le specie di alberi siano una funzionalità nel modello, quindi il livello di input del modello include un vettore caldo di 73.000 elementi. Ad esempio, baobab potrebbe essere rappresentato in questo modo:

Un array di 73.000 elementi. I primi 6232 elementi contengono il valore
     0. L&#39;elemento successivo contiene il valore 1. Gli ultimi 66.767 elementi contengono il valore zero.

Un array di 73.000 elementi è molto lungo. Se non si aggiunge un livello di incorporamento al modello, l'addestramento richiederà molto tempo perché si moltiplicano 72.999 zeri. Magari scegli il livello di incorporamento composto da 12 dimensioni. Di conseguenza, il livello di incorporamento apprenderà gradualmente un nuovo vettore di incorporamento per ciascuna specie di albero.

In alcuni casi, l'hashing è un'alternativa ragionevole al livello di incorporamento.

periodo

#fundamentals

Un pass per l'addestramento completo sull'intero set di addestramento in modo che ogni esempio sia stato elaborato una volta.

Un periodo rappresenta N/dimensioni del batch addestramento iterazioni, dove N è il numero totale di esempi.

Ad esempio, supponiamo che:

  • Il set di dati è composto da 1000 esempi.
  • La dimensione del batch è di 50 esempi.

Pertanto, un singolo periodo richiede 20 iterazioni:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

Esempio

#fundamentals

I valori di una riga di funzionalità e possibilmente un'etichetta. Gli esempi di apprendimento supervisionato rientrano in due categorie generali:

  • Un esempio con etichetta è costituito da una o più funzionalità e da un'etichetta. Durante l'addestramento vengono utilizzati esempi etichettati.
  • Un esempio senza etichetta è costituito da una o più funzionalità, ma senza etichetta. Gli esempi senza etichetta vengono utilizzati durante l'inferenza.

Ad esempio, supponi di addestrare un modello per determinare l'influenza delle condizioni meteorologiche sui punteggi dei test degli studenti. Ecco tre esempi etichettati:

Funzionalità Etichetta
Temperatura Umidità Pressione Punteggio test
15 47 998 Buoni
19 34 1020 Eccellente
18 92 1012 Scadente

Ecco tre esempi senza etichetta:

Temperatura Umidità Pressione  
12 62 1014  
21 47 1017  
19 41 1021  

La riga di un set di dati è in genere l'origine non elaborata di un esempio. In altre parole, un esempio è costituito in genere da un sottoinsieme di colonne nel set di dati. Inoltre, le funzionalità in un esempio possono includere anche funzionalità sintetiche, come i crossing delle funzionalità.

F

falso negativo (FN)

#fundamentals

Un esempio in cui il modello prevede per errore la classe negativa. Ad esempio, il modello prevede che un determinato messaggio email non è spam (la classe negativa), ma che in realtà è spam.

falso positivo (FP)

#fundamentals

Un esempio in cui il modello prevede per errore la classe positiva. Ad esempio, il modello prevede che un determinato messaggio email sia spam (la classe positiva), ma che in realtà non è spam.

tasso di falsi positivi (FPR)

#fundamentals

La proporzione di esempi negativi effettivi per i quali il modello ha previsto in modo errato la classe positiva. La formula seguente calcola la percentuale di falsi positivi:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

La percentuale di falsi positivi è l'asse x in una curva ROC.

caratteristica

#fundamentals

Una variabile di input per un modello di machine learning. Un esempio è costituito da una o più funzionalità. Ad esempio, supponi di addestrare un modello per determinare l'influenza delle condizioni meteorologiche sui punteggi dei test degli studenti. La tabella seguente mostra tre esempi, ognuno dei quali contiene tre caratteristiche e un'etichetta:

Funzionalità Etichetta
Temperatura Umidità Pressione Punteggio test
15 47 998 92
19 34 1020 84
18 92 1012 87

Contrasto con label.

cross-feature

#fundamentals

Una funzionalità sintetica formata da ""crossing" categoria o bucketed.

Ad esempio, considera un modello di "previsione dell'umore" che rappresenti la temperatura in uno dei seguenti quattro bucket:

  • freezing
  • chilly
  • temperate
  • warm

e rappresenta la velocità del vento in uno dei tre bucket seguenti:

  • still
  • light
  • windy

Senza incroci delle caratteristiche, il modello lineare viene addestrato in modo indipendente su ciascuno dei sette bucket precedenti. Ad esempio, il modello viene addestrato, ad esempio, freezing indipendentemente dall'addestramento, ad esempio windy.

In alternativa, potresti creare un cross-feature della temperatura e della velocità del vento. Questa funzione sintetica avrà i seguenti 12 valori possibili:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Grazie alle diverse croci, il modello può imparare le differenze di umore tra freezing-windy giorni e freezing-still giorni.

Se crei una funzionalità sintetica da due elementi che hanno molti bucket diversi, la combinazione di elementi risultante avrà un numero enorme di possibili combinazioni. Ad esempio, se una funzionalità ha 1000 bucket e l'altra ha 2000 bucket, la dimensione incrociata risultante avrà 2.000.000 bucket.

Una forma incrociata è un prodotto cartesiano.

Le cross-feature sono utilizzate principalmente con modelli lineari e raramente vengono utilizzate con le reti neurali.

feature engineering

#fundamentals
#TensorFlow

Una procedura che prevede i seguenti passaggi:

  1. Determinare quali funzionalità potrebbero essere utili per addestrare un modello.
  2. Conversione dei dati non elaborati dal set di dati in versioni efficienti di queste funzionalità.

Ad esempio, potresti stabilire che temperature potrebbe essere una funzionalità utile. Quindi, puoi sperimentare il bucketing per ottimizzare ciò che il modello può apprendere da diversi intervalli temperature.

La progettazione delle funzionalità è talvolta chiamata estrazione di funzionalità.

set di funzionalità

#fundamentals

Il gruppo di funzionalità tuo machine learning modello treni su. Ad esempio, il codice postale, le dimensioni e le condizioni della proprietà potrebbero comporre un semplice set di funzionalità per un modello che prevede i prezzi degli alloggi.

caratteristica Vettore

#fundamentals

La matrice dei valori feature che comprendono un esempio. Il Vettore di funzionalità viene inserito durante l'addestramento e durante l'inferenza. Ad esempio, il vettore delle caratteristiche per un modello con due caratteristiche distinte potrebbe essere:

[0.92, 0.56]

Quattro livelli: un livello di input, due livelli nascosti e un livello di output.
          Il livello di input contiene due nodi, uno contenente il valore
          0,92 e l&#39;altro contenente il valore 0,56.

Ogni esempio fornisce valori diversi per il vettore delle caratteristiche, pertanto il vettore delle caratteristiche per l'esempio successivo potrebbe essere simile a questo:

[0.73, 0.49]

Ingegneria delle funzionalità determina come rappresentare le caratteristiche nel vettore delle caratteristiche. Ad esempio, una caratteristica categoria binaria con cinque possibili valori potrebbe essere rappresentata con la codifica one-hot. In questo caso, la porzione del vettore di caratteristiche per un particolare esempio sarebbe composta da quattro zeri e da un singolo 1.0 nella terza posizione, come segue:

[0.0, 0.0, 1.0, 0.0, 0.0]

Per fare un altro esempio, supponiamo che il tuo modello includa tre funzionalità:

  • una funzionalità categorica binaria con cinque valori possibili rappresentati con la codifica one-hot; ad esempio: [0.0, 1.0, 0.0, 0.0, 0.0]
  • un'altra funzionalità categorica binaria con tre valori possibili rappresentati con la codifica one-hot; ad esempio: [0.0, 0.0, 1.0]
  • una funzionalità con virgola mobile, ad esempio 8.3.

In questo caso, il vettoriale della caratteristica per ogni esempio sarebbe rappresentato da nove valori. Considerando i valori di esempio nell'elenco precedente, il vettore delle caratteristiche sarebbe:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

ciclo di feedback

#fundamentals

Nel machine learning, una situazione in cui le previsioni di un modello influenzano i dati di addestramento dello stesso modello o di un altro modello. Ad esempio, un modello che consiglia film influenzerà i film guardati dagli utenti, il che influenzerà i modelli di consigli successivi.

G

generalizzazione

#fundamentals

La possibilità di model's di fare previsioni corrette su dati nuovi non visti in precedenza. Un modello che può generalizzare è l'opposto di un modello che è overfitting.

curva di generalizzazione

#fundamentals

Un grafico di perdita dell'addestramento e di una perdita di convalida in funzione del numero di iterazioni.

Una curva di generalizzazione può aiutarti a rilevare possibili fitfit. Ad esempio, la seguente curva di generalizzazione suggerisce un adattamento eccessivo, in quanto la perdita di convalida diventa in definitiva superiore rispetto alla perdita di addestramento.

Un grafico cartesiano in cui l&#39;asse y è etichettato &#39;loss&#39; e l&#39;asse x
          è etichettato &#39;iterazioni&#39;. Vengono visualizzate due grafici. Uno mostra la perdita di addestramento e l&#39;altra la perdita di convalida.
          I due grafici iniziano allo stesso modo, ma alla fine la perdita di addestramento scende di gran lunga inferiore a quella della convalida.

discesa della sfumatura

#fundamentals

Una tecnica matematica per ridurre al minimo la perdita. La discesa del gradiente regola in modo iterativo pesi e biases, trovando gradualmente la combinazione migliore per ridurre al minimo la perdita.

La discesa del gradiente è più vecchia (molto, molto più vecchia) del machine learning.

dati empirici reali

#fundamentals

Realtà.

Ciò che è effettivamente successo.

Ad esempio, prendi in considerazione un modello di classificazione binaria che prevede se uno studente del primo anno di università potrà laurearsi entro sei anni. La verità fondamentale di questo modello è se questo studente si è effettivamente laureato nell'arco di sei anni.

H

livello nascosto

#fundamentals

Un livello in una rete neurale tra il livello di input (le funzionalità) e il livello di output (la previsione). Ogni livello nascosto è costituito da uno o più neuroni. Ad esempio, la seguente rete neurale contiene due strati nascosti, il primo con tre neuroni e il secondo con due neuroni:

Quattro livelli. Il primo livello è un livello di input contenente due
          caratteristiche. Il secondo livello è un livello nascosto contenente tre neuroni. Il terzo livello è un livello nascosto contenente due neuroni. Il quarto livello è un livello di output. Ogni caratteristica
          contiene tre bordi, ognuno dei quali punta a un neurone diverso
          nel secondo strato. Ciascuno dei neuroni nel secondo strato contiene due bordi, ognuno dei quali punta a un neurone diverso nel terzo strato. Ciascuno dei neuroni nel terzo strato contiene un bordo, ognuno dei quali punta al livello di output.

Una rete neurale profonda contiene più di un livello nascosto. Ad esempio, l'illustrazione precedente è una rete neurale profonda perché il modello contiene due livelli nascosti.

iperparametro

#fundamentals

Le variabili modificate da te o da un servizio di ottimizzazione degli iperparametri durante le successive esecuzioni dell'addestramento di un modello. Ad esempio, la percentuale di apprendimento è un iperparametro. Puoi impostare il tasso di apprendimento su 0,01 prima di una sessione di addestramento. Se stabilisci che 0,01 è troppo alto, potresti impostare il tasso di apprendimento su 0,003 per la sessione di addestramento successiva.

Al contrario, i parametri sono i vari ponderazioni e le bias che il modello acquisisce durante l'addestramento.

I

in modo indipendente e distribuito in modo identico (ovvero)

#fundamentals

I dati estratti da una distribuzione che non cambia e dove ogni valore disegnato non dipende dai valori che sono stati estratti in precedenza. Un "i.i.d." è il gas ideale del machine learning, un costrutto matematico utile, ma quasi mai trovato nel mondo reale. Ad esempio, la distribuzione dei visitatori di una pagina web può essere eseguita in un breve periodo di tempo; in altre parole, la distribuzione non cambia durante quella breve finestra e la visita di una persona è generalmente indipendente da quella di un altro utente. Tuttavia, se espandi la finestra temporale, potrebbero essere visualizzate le differenze stagionali nei visitatori della pagina web.

Vedi anche non stazionaria.

inferenza

#fundamentals

Nel machine learning, il processo di creazione di previsioni mediante l'applicazione di un modello addestrato a esempi senza etichetta.

L'inferenza ha un significato leggermente diverso nelle statistiche. Per informazioni dettagliate, consulta l'articolo di Wikipedia sull'inferenza statistica.

livello di input

#fundamentals

Il livello di una rete neurale che contiene il vettore delle funzionalità. In altre parole, il livello di input fornisce esempi per l'addestramento o l'inferenza. Ad esempio, il livello di input nella seguente rete neurale è costituito da due funzionalità:

Quattro livelli: un livello di input, due livelli nascosti e un livello di output.

Interpretabilità

#fundamentals

La capacità di spiegare o presentare un modello di ML che ragiona in termini comprensibili a una persona.

La maggior parte dei modelli di regressione lineare, ad esempio, sono altamente interpretabili. Occorre semplicemente esaminare le ponderazioni addestrate per ogni funzione. Le foreste decisionale sono anche altamente interpretabili. Alcuni modelli, tuttavia, richiedono una visualizzazione sofisticata per poter essere interpretati.

iterazione

#fundamentals

Un unico aggiornamento dei parametri di model's, i pesi e le bias del modello, durante l'addestramento. Le dimensioni del batch determinano quanti esempi il modello elabora in una singola iterazione. Ad esempio, se la dimensione del batch è 20, il modello elabora 20 esempi prima di regolare i parametri.

Durante l'addestramento di una rete neurale, una singola iterazione prevede i seguenti due pass:

  1. Un pass in avanti per valutare la perdita su un singolo batch.
  2. Un pass (backpropagation) a ritroso per regolare i parametri del modello in base alla perdita e alla velocità di apprendimento.

S

Regolarizzazione L0

#fundamentals

Un tipo di regolarizzazione che punta il numero totale di ponderazioni diverse da zero in un modello. Ad esempio, un modello con 11 ponderazioni diverse da zero sarà penalizzato più di un modello simile con 10 ponderazioni diverse da zero.

La regolazione L0 è utilizzata di rado.

Perdita 1

#fundamentals

Una funzione di perdita che calcola il valore assoluto della differenza tra i valori dell'etichetta effettivi e i valori previsti da un modello. Ad esempio, ecco il calcolo della perdita L1 per un batch di cinque esempi:

Valore effettivo dell'esempio Valore previsto del modello Valore assoluto delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = perdita 1

La perdita L1 è meno sensibile ai irregolari rispetto alla perdita L2.

L'errore medio assoluto corrisponde alla perdita media di 1 per esempio.

Regolarizzazione L1

#fundamentals

Un tipo di regolarizzazione che penalizza i ponderazioni in proporzione alla somma del valore assoluto delle ponderazioni. La regolazione dell'L1 aiuta a ponderare esattamente 0 ponderazioni non pertinenti o appena pertinenti. Una funzionalità con una ponderazione pari a 0 viene effettivamente rimossa dal modello.

Contrasto con L2 regolarizzazione.

L2 perdita

#fundamentals

Una funzione di perdita che calcola il quadrato della differenza tra i valori dell'etichetta effettivi e i valori previsti da un modello. Ad esempio, ecco il calcolo della perdita L2 per un batch di cinque esempi:

Valore effettivo dell'esempio Valore previsto del modello Piazza del delta
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = L2 perdita

A causa dello squadramento, la perdita L2 amplifica l'influenza dei outlier. In altre parole, la perdita L2 reagisce in modo più forte alle previsioni errate rispetto a L1 perdita. Ad esempio, la perdita L1 per il batch precedente sarebbe 8 anziché 16. Tieni presente che un singolo valore anomalo corrisponde a 9 dei 16.

I modelli di regressione in genere utilizzano la perdita L2 come funzione di perdita.

L'errore medio quadrato è la perdita media di 2 per esempio. Perdita quadrata è un altro nome per la perdita L2.

Regolarizzazione L2

#fundamentals

Un tipo di regolazione che penalizza i ponderazioni in proporzione alla somma dei quadrati dei pesi. La regolazione 2 aiuta ad aumentare i pesi dei outlier (quelli con valori alti o bassi negativi) più vicini a 0, ma non esattamente a 0. Le caratteristiche con valori molto simili a 0 rimangono nel modello, ma non influenzano molto la previsione del modello.

La regolarizzazione L2 migliora sempre la generalizzazione nei modelli lineari.

Contrasto con la regolazione L1.

etichetta

#fundamentals

Nel machine learning supervisionato, la parte di "&answer" o "risultato" di un esempio.

Ogni esempio etichettato è costituito da una o più funzionalità e da un'etichetta. Ad esempio, in un set di dati di rilevamento dello spam, l'etichetta probabilmente sarebbe "spam", oppure "non spam". In un set di dati pioggia, l'etichetta potrebbe essere la quantità di pioggia che cade durante un determinato periodo.

esempio etichettato

#fundamentals

Un esempio che contiene una o più funzionalità e un'etichetta. Ad esempio, la seguente tabella mostra tre esempi etichettati da un modello di valutazione della casa, ciascuno con tre caratteristiche e una etichetta:

Numero di camere Numero di bagni Età della casa Prezzo interno (etichetta)
3 2 15 345.000 $
2 1 72 179.000 $
4 2 34 392.000 $

Nel machine learning supervisionato, i modelli vengono addestrati utilizzando esempi etichettati e facendo previsioni sugli esempi senza etichetta.

Esempio di contrasto con esempi senza etichetta.

Lambda

#fundamentals

Sinonimo di tasso di regolarizzazione.

Lambda è un termine sovraccarico. Qui ci stiamo concentrando sulla definizione del termine all'interno della regolarizzazione.

strato

#fundamentals

Un insieme di neuroni in una rete neurale. Ecco tre tipi comuni di livelli:

Ad esempio, la seguente illustrazione mostra una rete neurale con un livello di input, due livelli nascosti e un livello di output:

Una rete neurale con un livello di input, due livelli nascosti e un livello di output. Il livello di input è costituito da due funzionalità. Il primo livello nascosto è costituito da tre neuroni, mentre il secondo nascosto è costituito da due neuroni. Il livello di output consiste in un singolo nodo.

In TensorFlow, i layer sono anche funzioni Python che utilizzano Tensor e opzioni di configurazione come input e producono altri tensori come output.

tasso di apprendimento

#fundamentals

Un numero in virgola mobile che indica l'algoritmo di discendenza gradiente della misura in cui viene regolata la ponderazione e le distorsioni su ciascuna iterazione. Ad esempio, una percentuale di apprendimento pari a 0,3 modificherà i pesi e i bias con una frequenza tre volte maggiore rispetto a una percentuale di apprendimento pari a 0,1.

Il tasso di apprendimento è un iperparametro chiave. Se imposti una percentuale di apprendimento troppo bassa, l'addestramento richiederà troppo tempo. Se imposti una velocità di apprendimento troppo elevata, spesso la discesa del gradiente ha difficoltà a raggiungere la convergenza.

modello lineare

#fundamentals

Un modello che assegna un peso per funzionalità per effettuare previsioni. I modelli lineari incorporano anche bias. Al contrario, il rapporto di funzionalità con le previsioni nei modelli profondi è in genere non lineare.

Generalmente i modelli lineari sono più facili da addestrare e più interpretabili rispetto ai modelli diretti. Tuttavia, i modelli diretti possono apprendere relazioni complesse tra funzionalità.

La regressione lineare e la regressione logistica sono due tipi di modelli lineari.

lineare

#fundamentals

Una relazione tra due o più variabili che possono essere rappresentate esclusivamente tramite l'aggiunta e la moltiplicazione.

Il grafico di una relazione lineare è una retta.

Contrasto con non lineare.

regressione lineare

#fundamentals

Un tipo di modello di machine learning in cui entrambe le seguenti condizioni sono soddisfatte:

  • Il modello è un modello lineare.
  • La previsione è un valore con virgola mobile. Questa è la parte della regressione della regressione lineare.

Contrasto di regressione lineare con regressione logistica. Inoltre, contrasta la regressione con la classificazione.

regressione logistica

#fundamentals

Un tipo di modello di regressione che prevede una probabilità. I modelli di regressione logistica hanno le seguenti caratteristiche:

  • L'etichetta è categorica. Il termine regressione logistica di solito si riferisce alla regressione logistica binaria, ovvero a un modello che calcola le probabilità per le etichette con due possibili valori. Una variante meno comune, la regressione logistica multinomiale, calcola le probabilità per le etichette con più di due valori possibili.
  • La funzione di perdita durante l'addestramento è Log Loss. (più unità di perdita di log possono essere posizionate in parallelo per le etichette con più di due valori possibili).
  • Il modello ha un'architettura lineare, non una rete neurale profonda. Tuttavia, il resto di questa definizione si applica anche ai modelli profondi che prevedono le probabilità per le etichette categoriche.

Ad esempio, prendi in considerazione un modello di regressione logistica che calcola la probabilità che un'email di input sia spam o non spam. Durante l'inferenza, supponiamo che il modello preveda 0,72. Di conseguenza, il modello stima:

  • Il 72% di probabilità che le email vengano contrassegnate come spam.
  • Il 28% di probabilità che l'email non sia spam.

Un modello di regressione logistica utilizza la seguente architettura in due passaggi:

  1. Il modello genera una previsione non elaborata (y') applicando una funzione lineare di caratteristiche di input.
  2. Il modello utilizza la previsione non elaborata come input per una funzione sigmoidea, che converte la previsione non elaborata in un valore compreso tra 0 e 1 esclusi.

Come qualsiasi modello di regressione, un modello di regressione logistica prevede un numero. Tuttavia, di solito questo numero fa parte di un modello di classificazione binari nel seguente modo:

  • Se il numero previsto è superiore alla soglia di classificazione, il modello di classificazione binaria prevede la classe positiva.
  • Se il numero previsto è inferiore alla soglia di classificazione, il modello di classificazione binari prevede la classe negativa.

Perdita logaritmica

#fundamentals

La funzione di perdita utilizzata nella regressione logistica.

log-odds

#fundamentals

Il logaritmo delle probabilità di un evento.

sconfitta

#fundamentals

Durante l'addestramento di un modello supervisionato, una misura di quanto la previsione di un modello sia distante dalla sua etichetta.

Una funzione di perdita calcola la perdita.

curva di perdita

#fundamentals

Un grafico di perdita in funzione del numero di iterazioni di addestramento. Il seguente grafico mostra una tipica curva di perdita:

Un grafico cartesiano di perdita rispetto alle iterazioni dell&#39;addestramento, che mostra un
          rapido calo della perdita per le iterazioni iniziali, seguito da un calo
          graduale e poi da un pendio piatto durante le iterazioni finali.

Le curve di perdita possono aiutarti a determinare quando il convergente o l'overfitting del modello.

Le curve di perdita possono tracciare tutti i seguenti tipi di perdita:

Vedi anche la curva di generalizzazione.

funzione di perdita

#fundamentals

Durante l'addestramento o il test, una funzione matematica che calcola la perdita su un batch di esempi. Una funzione di perdita restituisce una perdita inferiore per i modelli che effettuano previsioni valide rispetto a quelli che forniscono previsioni errate.

L'obiettivo di addestramento è in genere ridurre al minimo la perdita restituita da una funzione di perdita.

Esistono diversi tipi di funzioni di perdita. Scegli la funzione di perdita più appropriata per il tipo di modello che stai creando. Ad esempio:

M

machine learning

#fundamentals

Un programma o un sistema che addestra un modello a partire dai dati di input. Il modello addestrato può fare previsioni utili da dati nuovi (mai visti prima) tratti dalla stessa distribuzione di quella utilizzata per addestrare il modello.

Il machine learning si riferisce anche all'area di studio interessata a questi programmi o sistemi.

classe di maggioranza

#fundamentals

L'etichetta più comune in un set di dati con bilanciamento del corso. Ad esempio, se un set di dati contiene il 99% di etichette negative e l'1% di etichette positive, queste sono la classe di maggioranza.

Contrasto con la classe di minoranza.

mini-batch

#fundamentals

Un piccolo sottoinsieme selezionato casualmente di un batch elaborato in una iterazione. La dimensione del batch di un mini-batch è solitamente compresa tra 10 e 1000 esempi.

Ad esempio, supponiamo che l'intero set di addestramento (l'intero batch) sia composto da 1000 esempi. Inoltre, supponiamo di aver impostato la dimensione del batch di ogni mini-batch su 20. Pertanto, ogni iterazione determina la perdita su 20 casuali dei 1000 esempi e quindi regola i ponderazioni e le biases di conseguenza.

È molto più efficiente calcolare la perdita su un mini-batch che la perdita su tutti gli esempi nel batch completo.

classe di minoranza

#fundamentals

L'etichetta meno comune in un set di dati con bilanciamento del corso. Ad esempio, dando un set di dati contenente il 99% di etichette negative e l'1% di etichette positive, le etichette positive sono la classe di minoranza.

Contrasto con la classe di maggioranza.

modello

#fundamentals

In generale, qualsiasi costrutto matematico che elabora i dati di input e restituisce output. Espresso in modo diverso, un modello è l'insieme di parametri e la struttura necessari a un sistema per effettuare previsioni. Nel machine learning supervisionato, un modello prende un esempio come input e deduce una previsione come output. All'interno del machine learning supervisionato, i modelli sono leggermente diversi. Ad esempio:

  • Un modello di regressione lineare è composto da un insieme di ponderazioni e da bias.
  • Un modello di rete neurale è costituito da:
  • Un modello di albero decisionale è costituito da:
    • La forma dell'albero, ovvero il modello di connessione tra le condizioni e le foglie.
    • Condizioni e foglie.

Puoi salvare, ripristinare o creare copie di un modello.

Anche il machine learning non supervisionato genera modelli, in genere una funzione che può mappare un esempio di input al cluster più appropriato.

classificazione di più classi

#fundamentals

Nell'apprendimento supervisionato, un problema di classificazione in cui il set di dati contiene più di due classi di etichette. Ad esempio, le etichette nel set di dati Iris devono essere di una delle seguenti tre classi:

  • Diaframma setosa
  • Diaframma vergine
  • Diaframma versicolor

Un modello addestrato sul set di dati Iris che prevede il tipo di diaframma sui nuovi esempi sta eseguendo la classificazione multi-classe.

I problemi di classificazione che fanno distinzione tra esattamente due classi sono invece modelli di classificazione binari. Ad esempio, un modello di email che prevede spam o non spam è un modello di classificazione binari.

Nei problemi di clustering, la classificazione multi-classe si riferisce a più di due cluster.

No

classe negativa

#fundamentals

Nella classificazione binaria, una classe è definita positiva e l'altra è negativa. La classe positiva è l'elemento o l'evento per cui il modello sta eseguendo il test e la classe negativa è l'altra possibilità. Ad esempio:

  • La classe negativa in un test medico potrebbe essere "non tumore".
  • La classe negativa in una categoria di classificazione email potrebbe essere "non spam".

Contrasto con la classe positiva.

rete neurale

#fundamentals

Un modello contenente almeno un livello nascosto. Una rete neurale profonda è un tipo di rete neurale che contiene più di un livello nascosto. Ad esempio, il seguente diagramma mostra una rete neurale profonda contenente due livelli nascosti.

Una rete neurale con un livello di input, due livelli nascosti e un livello di output.

Ogni neurone in una rete neurale si connette a tutti i nodi nel livello successivo. Ad esempio, nel diagramma precedente, nota che ciascuno dei tre neuroni nel primo strato nascosto si connette separatamente a entrambi i due neuroni nel secondo strato nascosto.

Le reti neurali implementate sui computer sono a volte chiamate reti neurali artificiali per distinguerle dalle reti neurali presenti nel cervello e in altri sistemi nervosi.

Alcune reti neurali possono imitare relazioni non lineari estremamente complesse tra le diverse caratteristiche e l'etichetta.

Vedi anche rete neurale convoluzionale e rete neurale ricorrente.

Neurone

#fundamentals

Nel machine learning, un'unità distinta all'interno di un livello nascosto di una rete neurale. Ogni neurone esegue la seguente azione in due passaggi:

  1. Calcola la somma ponderata dei valori di input moltiplicati per i relativi valori di ponderazione.
  2. Trasmette la somma ponderata come input a una funzione di attivazione.

Un neurone nel primo livello nascosto accetta input dai valori delle caratteristiche nel livello di input. Un neurone in qualsiasi livello nascosto oltre il primo accetta input dai neuroni nel livello nascosto precedente. Ad esempio, un neurone nel secondo strato nascosto accetta input dai neuroni nel primo strato nascosto.

L'illustrazione seguente mette in evidenza due neuroni e i loro input.

Una rete neurale con un livello di input, due livelli nascosti e un livello di output. Sono evidenziati due neuroni: uno nel primo livello nascosto e uno nel secondo livello nascosto. Il neurone evidenziato nel primo livello nascosto riceve input da entrambe le funzionalità nel livello di input. Il neurone evidenziato nel secondo strato nascosto riceve input da ciascuno dei tre neuroni nel primo strato nascosto.

Un neurone in una rete neurale imita il comportamento dei neuroni nel cervello e in altre parti dei sistemi nervosi.

nodo (rete neurale)

#fundamentals

Un neuron in un livello nascosto.

non lineare

#fundamentals

Una relazione tra due o più variabili che non può essere rappresentata esclusivamente tramite aggiunta e moltiplicazione. Una relazione lineare può essere rappresentata come una linea; una relazione non lineare non può essere rappresentata come una linea. Ad esempio, considera due modelli che riguardano una singola caratteristica a una singola etichetta. Il modello a sinistra è lineare, mentre il modello a destra è non lineare:

Due appezzamenti. Poiché un grafico è una retta, si tratta di una relazione lineare.
          L&#39;altro grafico è una curva, quindi si tratta di una relazione non lineare.

non stazionalità

#fundamentals

Una funzionalità i cui valori cambiano in una o più dimensioni, generalmente l'orario. Ad esempio, considera i seguenti esempi di variabilità:

  • Il numero di costumi da bagno venduti in un determinato negozio varia con la stagione.
  • La quantità di un particolare frutto raccolto in una determinata regione è pari a zero per gran parte dell'anno, ma elevata per un breve periodo.
  • A causa del cambiamento climatico, le temperature medie annuali cambiano.

Contrasto con la stabilità.

normalizzazione

#fundamentals

In generale, il processo di conversione dell'intervallo effettivo di valori di una variabile in un intervallo di valori standard, ad esempio:

  • Da -1 a +1
  • 0 su 1
  • la normale distribuzione

Ad esempio, supponiamo che l'intervallo effettivo di valori di una determinata caratteristica sia compreso tra 800 e 2400. Nell'ambito della funzionalità di progettazione, potresti normalizzare i valori effettivi fino a un intervallo standard, ad esempio da -1 a +1.

La normalizzazione è un'attività comune del ingegneria delle funzionalità. In genere i modelli vengono addestrati più velocemente (e producono previsioni migliori) quando ogni caratteristica numerica nel vettore delle caratteristiche ha all'incirca lo stesso intervallo.

dati numerici

#fundamentals

Funzionalità rappresentate come numeri interi o valori reali. Ad esempio, un modello di valutazione di una casa probabilmente rappresenterebbe la dimensione di una casa (in piedi quadrati o metri quadrati) come dati numerici. Rappresentare una caratteristica come dati numerici indica che i valori di tale caratteristica hanno una relazione matematica con l'etichetta. In altre parole, il numero di metri quadrati di una casa ha probabilmente una certa relazione matematica con il valore della casa.

Non tutti i dati interi devono essere rappresentati come dati numerici. Ad esempio, i codici postali in alcune parti del mondo sono numeri interi, tuttavia, i codici postali interi non devono essere rappresentati come dati numerici nei modelli. Questo perché un codice postale 20000 non è due volte (o metà) come un codice postale 10.000. Inoltre, anche se i diversi codici postali corrispondono a valori diversi del settore immobiliare, non possiamo presumere che i valori immobiliari al codice postale 20000 abbiano il doppio del valore dei valori immobiliari al codice postale 10000. I codici postali dovrebbero essere rappresentati come dati categorici.

Le funzionalità numeriche a volte vengono chiamate funzionalità continue.

O

offline

#fundamentals

Sinonimo di statico.

inferenza offline

#fundamentals

Il processo di un modello che genera un batch di previsioni, quindi ne salva la cache (salvataggio). Le app possono quindi accedere alla previsione desiderata dalla cache anziché eseguire di nuovo il modello.

Ad esempio, prendi in considerazione un modello che genera previsioni meteo locali una volta ogni quattro ore. Dopo l'esecuzione di ogni modello, il sistema memorizza tutte le previsioni meteo locali. Le app meteo recuperano le previsioni dalla cache.

L'inferenza offline è anche chiamata inferenza statica.

Contrasto con l'inferenza online.

codifica one-hot

#fundamentals

Rappresentazione di dati categorici come un vettore in cui:

  • Un elemento è impostato su 1.
  • Tutti gli altri elementi sono impostati su 0.

La codifica one-hot viene generalmente utilizzata per rappresentare stringhe o identificatori che hanno un insieme definito di valori possibili. Ad esempio, supponiamo che una determinata funzionalità di categoria denominata Scandinavia abbia cinque possibili valori:

  • "Danimarca"
  • "Svezia"
  • "Norvegia"
  • "Finlandia"
  • "Islanda"

La codifica one-hot può rappresentare ciascuno dei cinque valori, come indicato di seguito:

country Vettoriale
"Danimarca" 1 0 0 0 0
"Svezia" 0 1 0 0 0
"Norvegia" 0 0 1 0 0
"Finlandia" 0 0 0 1 0
"Islanda" 0 0 0 0 1

Grazie alla codifica one-hot, un modello può apprendere connessioni diverse in base a ciascuno dei cinque paesi.

La rappresentazione di una funzionalità come dati numerici è un'alternativa alla codifica one-hot. Sfortunatamente, la rappresentazione numerica dei paesi scandinavi non è una buona scelta. Ad esempio, considera la seguente rappresentazione numerica:

  • "Danimarca" è 0
  • "Svezia" è 1
  • "Norvegia" è 2
  • "Finlandia" è 3
  • "Islandland" è 4

Con la codifica numerica, un modello interpreta i numeri non elaborati in modo matematico e tenta di addestrare tali numeri. Tuttavia, l'Islanda non è in realtà il doppio (o la metà) di qualcosa come la Norvegia, quindi il modello farebbe alcune conclusioni strane.

one-v-all

#fundamentals

Dato un problema di classificazione con N classi, una soluzione composta da N separati binator classificatori, una binaria binari per ogni possibile risultato. Ad esempio, in base a un modello che classifica gli esempi come animali, verdure o minerali, una soluzione basata su una formula complessiva può fornire le seguenti tre categorie binarie separate:

  • animale vs non animale
  • verdure vs non vegetali
  • minerale vs non minerale

online

#fundamentals

Sinonimo di dinamica.

inferenza online

#fundamentals

Generazione di previsioni on demand. Ad esempio, supponiamo che un'app passi l'input di un modello e invii una richiesta di previsione. Un sistema che utilizza l'inferenza online risponde alla richiesta eseguendo il modello (e restituendo la previsione all'app).

Contrasto con l'inferenza offline.

livello di output

#fundamentals

Lo "strato finale" di una rete neurale. Il livello di output contiene la previsione.

L'illustrazione seguente mostra una piccola rete neurale profonda con un livello di input, due livelli nascosti e un livello di output:

Una rete neurale con un livello di input, due livelli nascosti e un livello di output. Il livello di input è costituito da due funzionalità. Il primo livello nascosto è costituito da tre neuroni, mentre il secondo nascosto è costituito da due neuroni. Il livello di output consiste in un singolo nodo.

overfitting

#fundamentals

Creazione di un modello corrispondente ai dati di addestramento in modo tale che il modello non riesca a fare previsioni corrette sui nuovi dati.

La regolazione può ridurre il Fitfit. Un allenamento su un ampio e variegato allenamento può ridurre l'overfitting.

R

panda

#fundamentals

Un'API di analisi dei dati orientata alle colonne basata su numpy. Molti framework di machine learning, tra cui TensorFlow, supportano le strutture di dati panda come input. Per informazioni dettagliate, consulta la documentazione di Panda.

parametro

#fundamentals

Le ponderazioni e le bias che un modello apprende durante l'addestramento. Ad esempio, in un modello regressione lineare, i parametri sono costituiti dal bias (b) e da tutte le ponderazioni (w1, w2 e così via) nella seguente formula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Al contrario, gli iperparametri sono i valori che tu (o un servizio di rotazione degli iperparametri) fornisci al modello. Ad esempio, la percentuale di apprendimento è un iperparametro.

classe positiva

#fundamentals

Il corso per cui stai eseguendo il test.

Ad esempio, la classe positiva in un modello di cancro potrebbe essere "tumore". La classe positiva in una categoria di classificazione email potrebbe essere "spam".

Contrasto con la classe negativa.

post-elaborazione

#fairness
#fundamentals

Regolazione dell'output di un modello dopo l'esecuzione del modello. La post-elaborazione può essere utilizzata per applicare vincoli di equità senza modificare i modelli stessi.

Ad esempio, è possibile applicare la post-elaborazione a una categoria di classificazione binari impostando una soglia di classificazione in modo che la uguaglianza di opportunità venga mantenuta per un determinato attributo controllando che la percentuale positiva positiva sia la stessa per tutti i valori di quell'attributo.

previsione

#fundamentals

Output di un modello. Ad esempio:

  • La previsione di un modello di classificazione binaria è la classe positiva o la classe negativa.
  • La previsione di un modello di classificazione multi-classe è di una classe.
  • La previsione di un modello di regressione lineare è un numero.

etichette proxy

#fundamentals

Dati utilizzati per approssimare le etichette non direttamente disponibili in un set di dati.

Ad esempio, supponi di dover addestrare un modello per prevedere il livello di stress dei dipendenti. Il set di dati contiene molte funzionalità predittive, ma non contiene un'etichetta denominata livello di stress. Indifferente, puoi selezionare "Incidenti di lavoro" come etichetta proxy per il livello di stress. Dopo tutto, i dipendenti sotto stress possono sentirsi più che incidenti. O forse? Forse gli incidenti sul lavoro in effetti aumentano e calano per diversi motivi.

Come secondo esempio, supponiamo che tu possa piovere? sia un'etichetta booleana per il tuo set di dati, ma che il set di dati non contenga dati relativi alla pioggia. Se sono disponibili fotografie, puoi impostare le immagini di persone che trasportano ombrelloni come etichetta proxy per cui piove? È una buona etichetta proxy? Magari le persone in alcune culture potrebbero essere più propense a portare gli ombrelloni per proteggersi dal sole piuttosto che dalla pioggia.

Le etichette del proxy sono spesso imperfette. Se possibile, scegli le etichette effettive rispetto alle etichette proxy. Detto ciò, in assenza di un'etichetta effettiva, scegli con molta attenzione l'etichetta proxy, scegliendo quella che potrebbe essere la più peggiore.

R

Rater

#fundamentals

Una persona che fornisce etichette per esempi. "Annotator" è un altro nome per il revisore.

Unità lineare rettificata (ReLU)

#fundamentals

Una funzione di attivazione con il seguente comportamento:

  • Se il valore è negativo o uguale a zero, il valore è 0.
  • Se l'input è positivo, è uguale all'input.

Ad esempio:

  • Se il valore è -3, significa che è 0.
  • Se l'input è +3, significa che è 3.0.

Ecco un grafico di ReLU:

Una trama cartesiana su due righe. La prima riga ha un valore y costante pari a 0, in esecuzione lungo l&#39;asse x da -infinito,da 0 a 0,-0.
          La seconda riga inizia da 0,0. Questa linea ha una pendenza di +1, quindi
          va da 0,0 a +infinità,+infinito.

ReLU è una funzione di attivazione molto diffusa. Nonostante il suo semplice comportamento, ReLU consente comunque a una rete neurale di imparare le relazioni non lineari tra le funzionalità e l'etichetta.

modello di regressione

#fundamentals

A grandi linee, un modello che genera una previsione numerica. (al contrario, un modello di classificazione genera una previsione di classe). Ad esempio, tutti i modelli di regressione sono i seguenti:

  • Un modello che prevede il valore di una determinata casa, come 423.000 euro.
  • Un modello che prevede l'aspettativa di vita di un determinato albero, come 23,2 anni.
  • Un modello che prevede la quantità di pioggia che cadrà in una determinata città nelle prossime sei ore, ad esempio 0,18 pollici.

Due tipi comuni di modelli di regressione sono:

  • Regressione lineare, che trova la linea più adatta per i valori delle etichette.
  • Regressione logistica, che genera una probabilità tra 0,0 e 1,0 che un sistema in genere esegue la mappatura a una previsione di classe.

Non tutti i modelli che emettono previsioni numeriche sono modelli di regressione. In alcuni casi, una previsione numerica è in realtà solo un modello di classificazione che ha nomi di classi numerici. Ad esempio, un modello che prevede un codice postale numerico è un modello di classificazione, non un modello di regressione.

regolarizzazione

#fundamentals

Qualsiasi meccanismo che riduca l'overfitting. I tipi più comuni di regolarizzazione includono:

La regolarizzazione può essere definita anche come penalizzazione sulla complessità di un modello.

tasso di regolarizzazione

#fundamentals

Un numero che specifica l'importanza relativa della regolarizzazione durante l'addestramento. Aumentare il tasso di regolarizzazione riduce l'overfitting, ma può ridurre la potenza predittiva del modello. Al contrario, la riduzione o l'omissione del tasso di regolarizzazione aumenta l'overfitting.

ReLU

#fundamentals

Abbreviazione per Unità lineare rettificata.

Curva ROC (carattere operativo ricevitore)

#fundamentals

Un grafico di tasso di veri positivi rispetto a tasso di falsi positivi per diverse soglie di classificazione nella classificazione binari.

La forma di una curva ROC suggerisce la capacità di un modello di classificazione binari di separare le classi positive da quelle negative. Supponiamo, ad esempio, che un modello di classificazione binari separa perfettamente tutte le classi negative da tutte le classi positive:

Una riga di numeri con 8 esempi positivi sul lato destro e 7 esempi negativi sul lato sinistro.

La curva ROC per il modello precedente ha il seguente aspetto:

Una curva ROC. L&#39;asse x è il tasso di falsi positivi, mentre l&#39;asse y è il valore di questo valore. La curva ha una forma L invertita. La curva inizia da (0.0,0.0) e va direttamente fino a (0.0,1.0). Quindi la curva va da (0.0,1.0) a (1.0,1.0).

Invece, la seguente illustrazione mostra i valori di regressione logistica non elaborati per un modello terribile che non può separare le classi negative da quelle positive:

Una riga di numero con esempi positivi e classi negative completamente miste.

La curva ROC per questo modello ha il seguente aspetto:

Una curva ROC, che in realtà è una linea retta da (0.0,0.0)
          a (1.0,1.0).

Nel frattempo, nel mondo reale, la maggior parte dei modelli di classificazione binari separa in una certa misura le classi positive e negative, ma di solito non perfettamente. Quindi, una curva ROC tipica rientra tra i due estremi:

Una curva ROC. L&#39;asse x è il tasso di falsi positivi, mentre l&#39;asse y è il valore di questo valore. La curva ROC si avvicina a un arco mosso
          che attraversa i punti bussola da ovest a nord.

Il punto su una curva ROC più vicina a (0.0,1.0) identifica teoricamente la soglia di classificazione ideale. Tuttavia, molti altri problemi reali influiscono sulla selezione della soglia di classificazione ideale. Ad esempio, forse i falsi negativi causano molto più dolore che i falsi positivi.

Una metrica numerica denominata AUC riassume la curva ROC in un singolo valore in virgola mobile.

Errore quadratico medio (RMSE)

#fundamentals

La radice quadrata dell'errore medio quadrato.

S

funzione sigmoidea

#fundamentals

Una funzione matematica che "schiaccia": un valore di input in un intervallo vincolato, in genere compreso tra 0 e 1 o tra -1 e +1. In altre parole, puoi passare un qualsiasi numero (due, un milione, un miliardo negativo, qualunque cosa) a un sigmoide e l'output sarà comunque nell'intervallo limitato. Un grafico della funzione di attivazione sigmoidea ha il seguente aspetto:

Un grafico curvo bidimensionale con valori x che coprono il dominio
          da - infinito a +positivo, mentre i valori y coprono l&#39;intervallo da quasi 0 a
          quasi 1. Quando x è 0, y è 0,5. La pendenza della curva è sempre positiva, con la pendenza più alta di 0,0,5 e che diminuisce gradualmente le pendenze man mano che il valore assoluto di x aumenta.

La funzione sigmoidea ha diversi utilizzi nel machine learning, tra cui:

softmax

#fundamentals

Una funzione che determina le probabilità per ogni possibile classe in un modello di classificazione multi-classe. La probabilità di raggiungere la somma esattamente 1,0. Ad esempio, la seguente tabella mostra come softmax distribuisce varie probabilità:

L'immagine è un... Probability
cane 0,85
gatto 0,13
cavallo 0,02

Softmax è anche noto come softmax completo.

Confrontare il campionamento dei candidati.

caratteristica sparsa

#language
#fundamentals

Una funzionalità i cui valori sono prevalentemente zero o vuoti. Ad esempio, è utile analizzare una caratteristica contenente un singolo valore 1 e un milione di valori 0. Al contrario, una funzionalità densa ha valori che non sono prevalentemente zero o vuoti.

Nel machine learning, un numero sorprendente di funzionalità è limitato. Le caratteristiche categoriche sono generalmente caratteristiche sparse. Ad esempio, delle 300 possibili specie di alberi in una foresta, un singolo esempio potrebbe identificare solo un albero d'acero. Oppure, tra i milioni di possibili video in una raccolta video, un solo esempio potrebbe identificare solo "Casablanca"

In un modello, in genere rappresenti caratteristiche sparse con la codifica one-hot. Se la codifica one-hot è importante, potresti aggiungere un livello di incorporamento sopra la codifica one-hot per ottenere una maggiore efficienza.

rappresentazione sparsa

#language
#fundamentals

Memorizza solo le posizioni degli elementi diversi da zero in una funzionalità sparsa.

Ad esempio, supponiamo che una funzionalità categoriale denominata species identifichi le 36 specie di alberi in una determinata foresta. Supponiamo inoltre che ogni esempio identifichi una sola specie.

Potresti utilizzare un vettore one-hot per rappresentare le specie di alberi in ogni esempio. Un Vettore one-hot contenerebbe un singolo 1 (per rappresentare la particolare specie di alberi in tale esempio) e 35 0 (per rappresentare le 35 specie di alberi non in questo esempio). La rappresentazione one-hot di maple potrebbe avere il seguente aspetto:

Un vettore in cui le posizioni da 0 a 23 contengono il valore 0, la posizione 24 contiene il valore 1 e le posizioni da 25 a 35 contengono il valore 0.

In alternativa, la rappresentazione spaventosa identificherebbe semplicemente la posizione delle specie particolari. Se maple è nella posizione 24, la rappresentazione sparsa di maple sarebbe semplicemente:

24

Nota che la rappresentazione sparsa è molto più compatta della rappresentazione one-hot.

sparse vettore

#fundamentals

Un vettore i cui valori sono per lo più zeri. Vedi anche sparse feature e sparsity.

perdita al quadrato

#fundamentals

Sinonimo di L2 perdita.

static

#fundamentals

Qualcosa è stato fatto una volta anziché continuamente. I termini statici e offline sono sinonimi. Di seguito sono riportati gli utilizzi comuni dei sistemi statici e offline nel machine learning:

  • modello statico (o modello offline) è un modello addestrato una volta, poi utilizzato per un po'.
  • L'addestramento statico (o addestramento offline) è il processo di addestramento di un modello statico.
  • L'inferenza statica (o inferenza offline) è un processo in cui un modello genera un batch di previsioni alla volta.

Contrasto con dinamico.

inferenza statica

#fundamentals

Sinonimo di inferenza offline.

stasilità

#fundamentals

Una funzionalità i cui valori non cambiano in una o più dimensioni, generalmente l'orario. Ad esempio, una funzionalità i cui valori hanno quasi lo stesso aspetto nel 2020 e nel 2022 mostra una stasità.

Nel mondo reale, sono davvero pochi gli elementi che mostrano la stabilità. Anche le caratteristiche sinonimo di stabilità (come il livello del mare) cambiano nel tempo.

Contrasto con non interruzione.

discesa del gradiente stocastico (SGD)

#fundamentals

Un algoritmo di discendenza gradiente in cui la dimensione del batch è una. In altre parole, i programmi SGD vengono addestrati in base a un singolo esempio scelto in modo uniforme e casuale da un set di addestramento.

machine learning supervisionato

#fundamentals

Addestra un modello da funzionalità e dalle relative etichette corrispondenti. Il machine learning supervisionato è analogo ad apprendere una materia studiando una serie di domande e le relative risposte corrispondenti. Dopo aver imparato a utilizzare la mappatura tra domande e risposte, uno studente può fornire risposte a nuove domande (mai prima) che riguardano lo stesso argomento.

Esegui un confronto con il machine learning non supervisionato.

funzione sintetica

#fundamentals

Una funzionalità non presente tra le funzionalità di input, ma assemblata da una o più di esse. I metodi per creare caratteristiche sintetiche includono:

  • Bucketing di una funzionalità continua nei bin di intervallo.
  • Creare un cross-feature.
  • Moltiplicare (o dividere) un valore dell'elemento per altri valori o per se stesso. Ad esempio, se a e b sono funzionalità di input, di seguito sono riportati esempi di funzionalità sintetiche:
    • ab
    • A2
  • Applicazione di una funzione trascendentale a un valore di funzionalità. Ad esempio, se c è una funzionalità di input, allora sono i seguenti esempi di funzionalità sintetiche:
    • sin(c)
    • ln(c)

Le funzionalità create da normalizzazione o scalabilità non sono considerate caratteristiche sintetiche.

T

perdita di test

#fundamentals

Una metrica che rappresenta la perdita di un modello rispetto al set di test. Quando crei un modello, in genere provi a ridurre al minimo la perdita di test. Questo perché una perdita di test bassa è un indicatore di qualità superiore rispetto a una perdita di addestramento o a una perdita di convalida basse.

Un ampio divario tra perdita di test e perdita di addestramento o di convalida talvolta indica che è necessario aumentare il tasso di regolarizzazione.

addestramento

#fundamentals

Il processo di determinazione dei parametri ideali (ponderazioni e bias) che comprendono un modello. Durante l'addestramento, un sistema legge esempi e regola gradualmente i parametri. L'addestramento utilizza ogni esempio da qualche volta a miliardi di volte.

perdita di allenamento

#fundamentals

Una metrica che rappresenta la perdita di un modello durante una particolare iterazione di addestramento. Ad esempio, supponiamo che la funzione di perdita sia Errore medio quadrato. Forse la perdita di addestramento (l'errore medio quadrato) per la decima iterazione è 2,2 e la perdita di addestramento per la 100a iterazione è 1,9.

Una curva di perdita traccia la perdita di addestramento rispetto al numero di iterazioni. Una curva di perdita fornisce i seguenti suggerimenti sull'addestramento:

  • Una pendenza bassa indica che il modello sta migliorando.
  • Una pendenza verso l'alto implica che il modello sta peggiorando.
  • Una pendenza piana implica che il modello ha raggiunto la convergenza.

Ad esempio, la curva di perdita un po' idealizzata mostra:

  • Una salita ripida durante le iterazioni iniziali, che implica un rapido miglioramento del modello.
  • Una pendenza graduale (ma ancora in discesa) fino alla fine della fine dell'addestramento, il che implica un miglioramento continuo del modello a un ritmo leggermente più lento rispetto alle iterazioni iniziali.
  • Un'inclinazione piana verso la fine dell'addestramento, che indica la convergenza.

Il grafico della perdita di addestramento rispetto alle iterazioni. Questa curva di perdita inizia con una ripida pendenza. La pendenza si abbassa gradualmente fino a quando
     la pendenza non diventa zero.

Sebbene la perdita di addestramento sia importante, vedi anche la generalizzazione.

disallineamento addestramento/produzione

#fundamentals

La differenza tra le prestazioni di un modello durante l'addestramento e le prestazioni dello stesso modello durante la pubblicazione.

set di addestramento

#fundamentals

Il sottoinsieme del set di dati utilizzato per addestrare un modello.

Tradizionalmente, gli esempi nel set di dati sono suddivisi nei seguenti tre sottoinsiemi distinti:

Idealmente, ogni esempio nel set di dati dovrebbe appartenere solo a uno dei sottoinsiemi precedenti. Ad esempio, un singolo esempio non deve appartenere sia al set di addestramento sia al set di convalida.

vero negativo (TN)

#fundamentals

Un esempio in cui il modello corretta prevede la classe negativa. Ad esempio, il modello deduce che un determinato messaggio email è non spam, e quel messaggio email è davvero non spam.

vero positivo (TP)

#fundamentals

Un esempio in cui il modello corretta prevede la classe positiva. Ad esempio, il modello deduce che un determinato messaggio email è spam, mentre tale messaggio è realmente spam.

tasso di risposta positivo positivo (TPR)

#fundamentals

Sinonimo di recall. Ossia:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

La frequenza positiva reale è l'asse y in una curva ROC.

U

sottofitness

#fundamentals

Produzione di un modello con scarse capacità predittive perché il modello non ha acquisito completamente la complessità dei dati di addestramento. Molti problemi possono causare una scarsità insufficiente, tra cui:

esempio senza etichetta

#fundamentals

Un esempio che contiene funzionalità ma non etichetta. Ad esempio, la seguente tabella mostra tre esempi senza etichetta di un modello di valutazione della casa, ciascuno con tre caratteristiche ma nessun valore di casa:

Numero di camere Numero di bagni Età della casa
3 2 15
2 1 72
4 2 34

Nel machine learning supervisionato, i modelli vengono addestrati utilizzando esempi etichettati e facendo previsioni sugli esempi senza etichetta.

Nell'apprendimento supervisionato e non supervisionato, vengono utilizzati esempi senza etichetta durante l'addestramento.

Esempio di contrasto senza etichetta con esempio etichettato.

machine learning non supervisionato

#clustering
#fundamentals

Addestrare un modello per trovare pattern in un set di dati, in genere un set di dati senza etichetta.

L'uso più comune del machine learning non supervisionato è quello di cluster il raggruppamento in gruppi di esempi simili. Ad esempio, un algoritmo di machine learning non supervisionato può raggruppare i brani in base a varie proprietà della musica. I cluster risultanti possono diventare un input per altri algoritmi di machine learning (ad esempio, in un servizio di consigli musicali). Il clustering può essere utile quando le etichette utili sono scarse o assenti. Ad esempio, in domini come l'antiabuso e le frodi, i cluster possono aiutare le persone a comprendere meglio i dati.

Contrasto con il machine learning supervisionato.

V

validation

#fundamentals

La valutazione iniziale della qualità di un modello. La convalida controlla la qualità delle previsioni di un modello rispetto al set di convalida.

Poiché il set di convalida è diverso dal set di addestramento, la convalida contribuisce a evitare l'overfitting.

Puoi considerare il modello rispetto al set di convalida come il primo ciclo di test e valutare il modello in base al set di test come secondo ciclo di test.

perdita di convalida

#fundamentals

Una metrica che rappresenta la perdita di un modello nel set di convalida durante una particolare iterazione di addestramento.

Vedi anche la curva di generalizzazione.

set di convalida

#fundamentals

Il sottoinsieme del set di dati che esegue la valutazione iniziale in base a un modello addestrato. In genere, valuti il modello addestrato in base al set di convalida più volte prima di confrontare il modello con il set di test.

Tradizionalmente, dividi gli esempi nel set di dati nei seguenti tre sottoinsiemi distinti:

Idealmente, ogni esempio nel set di dati dovrebbe appartenere solo a uno dei sottoinsiemi precedenti. Ad esempio, un singolo esempio non deve appartenere sia al set di addestramento sia al set di convalida.

W

peso

#fundamentals

Un valore che un modello viene moltiplicato per un altro valore. L'addestramento è il processo di determinazione dei pesi ideali di un modello; inferenza è il processo di utilizzo di tali pesi appresi per fare previsioni.

somma ponderata

#fundamentals

La somma di tutti i valori di input pertinenti moltiplicato per le ponderazioni corrispondenti. Ad esempio, supponiamo che gli input pertinenti siano costituiti dai seguenti elementi:

valore di input peso di input
2 -1,3
-1 0,6
3 0,4

La somma ponderata è quindi:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Una somma ponderata è l'argomento di input di una funzione di attivazione.

Z

normalizzazione punteggio Z

#fundamentals

Una tecnica di scalabilità che sostituisce il valore non elaborato di una funzionalità con un valore in virgola mobile che rappresenta il numero di deviazioni standard dalla caratteristica di tale caratteristica. Ad esempio, considera una caratteristica la cui media è 800 e la cui deviazione standard è 100. La tabella seguente mostra come la normalizzazione del punteggio Z mappa il valore non elaborato sul suo punteggio Z:

Valore non elaborato Punteggio Z
800 0
950 +1,5
575 -2,25

Il modello di machine learning esegue l'addestramento con i punteggi Z per quella funzionalità invece che sui valori non elaborati.