Esplora le opzioni seguenti.
Supponi di voler sviluppare un modello di machine learning supervisionato per prevedere
se un'email è "spam" o "non spam". Quali delle seguenti affermazioni sono vere?
Le email non contrassegnate come "spam" o "non spam" sono esempi senza etichetta.
Poiché la nostra etichetta è costituita dai valori "spam" e "not spam",
le email non ancora contrassegnate come spam o non spam sono un
esempio senza etichetta.
Le parole nell'intestazione dell'oggetto avranno buone etichette.
Le parole nell'intestazione dell'oggetto possono rappresentare caratteristiche eccellenti, ma non sono buone etichette.
Utilizzeremo esempi senza etichetta per addestrare il modello.
Utilizzeremo esempi etichettati per addestrare il modello. Possiamo quindi eseguire il modello addestrato utilizzando esempi senza etichetta per dedurre se i messaggi email senza etichetta sono spam o meno.
Le etichette applicate ad alcuni esempi potrebbero non essere attendibili.
Certamente. È importante controllare l'affidabilità dei tuoi dati. Le etichette di questo set di dati probabilmente provengono da utenti di email che contrassegnano determinati messaggi email come spam. Poiché
la maggior parte degli utenti non contrassegna ogni messaggio email sospetto come spam, potremmo
avere difficoltà a capire se si tratta di un'email. Inoltre,
gli spammer potrebbero avvelenare intenzionalmente il nostro modello fornendo etichette
errate.