Czym są systemy uczące się (nadzorowane)? Oznacza to, że:
- Systemy uczące się uczą się łączyć dane wejściowe w celu tworzenia przydatnych prognoz dotyczących wcześniejszych danych.
Poznaj podstawową terminologię systemów uczących się.
Etykiety
Etykieta to przewidywana przez nas zmienna y
w prostej regresji liniowej. Może to być na przykład przyszła cena pszenicy, rodzaj zwierzęcia pokazanego na zdjęciu, znaczenie klipu audio lub prawie wszystko.
Funkcje
Funkcja jest zmienną wejściową – zmienną x
w prostej regresji liniowej. Prosty projekt systemów uczących się może korzystać z jednej funkcji, a bardziej zaawansowany projekt systemów uczących się – z milionów funkcji określonych jako:
\[\\{x_1, x_2, ... x_N\\}\]
W przykładzie do wykrywania spamu funkcje mogą obejmować:
- słowa w e-mailu
- adres nadawcy
- pora dnia, o której wysłano e-maila.
- e-mail zawiera frazę "jeden dziwny sztuczka."
Przykłady
Przykład to konkretna instancja danych, x. (Symbol x jest pogrubiony, aby wskazać, że jest to wektor). Przykłady dzielimy na 2 kategorie:
- przykłady oznaczone etykietami
- przykłady bez etykiety
Przykład z etykietą zawiera zarówno funkcje, jak i etykietę. Czyli:
labeled examples: {features, label}: (x, y)
Aby wytrenować model, użyj etykiet. W naszym przykładzie wykrywania spamu byłyby to e-maile, które użytkownicy wyraźnie oznaczyli jako „spam” i „nie spam”."
Na przykład w tej tabeli podano 5 przykładów oznaczonych etykietą ze zbioru danych zawierającej informacje o cenach mieszkaniowych w Kalifornii:
medianAge (funkcja) |
łączna liczba sal (funkcja) |
łączna_sypialnia (funkcja) |
medianHouseValue (etykieta) |
---|---|---|---|
15 | 5612 | 1283 | 66900 |
19 | 7650 | 1901 | 80100 |
17 | 720 | 174 | 85700 |
14 | 1501 | 337 | 73400 |
20 | 1454 | 326 | 65500 |
Przykład bez etykiety zawiera funkcje, ale nie etykietę. Czyli:
unlabeled examples: {features, ?}: (x, ?)
Oto 3 oznaczenia bez etykiety z tego samego zbioru danych mieszkaniowych, które wykluczają atrybut medianHouseValue
:
medianAge (funkcja) |
łączna liczba sal (funkcja) |
łączna_sypialnia (funkcja) |
---|---|---|
42 | 1686 | 361 |
34 | 1226 | 180 |
33 | 1077 | 271 |
Gdy już wytrenujemy model na podstawie przykładów z etykietą, użyjemy go, aby przewidzieć etykietę na przykładach bez etykiety. W przykładzie do wykrywania spamu przykłady bez etykiety to nowe e-maile, które nie zostały jeszcze oznaczone przez ludzi.
Modele
Model definiuje zależność między funkcjami a etykietą. Na przykład model wykrywania spamu może silnie kojarzyć pewne funkcje z zasobami &spamu. Wyróżniamy 2 fazy życia modelu:
Trening oznacza utworzenie lub nauczenie modelu. Oznacza to, że wyświetlasz model z przykładami i zezwalasz na stopniowe poznawanie zależności między cechami a etykietami.
Wniosek oznacza zastosowanie wytrenowanego modelu do przykładów bez etykiety. Oznacza to, że używasz wytrenowanego modelu do tworzenia przydatnych przewidywań (
y'
). Podczas wnioskowania możesz na przykład prognozowaćmedianHouseValue
dla nowych przykładów bez etykiety.
Regresja a klasyfikacja
Model regresji przewiduje wartości ciągłe. Modele regresji potrafią na przykład tworzyć odpowiedzi na pytania takie jak:
Jaka jest wartość domu w Kalifornii?
Jakie jest prawdopodobieństwo, że użytkownik kliknie tę reklamę?
Model klasyfikacji prognozuje wartości odrębne. Modele klasyfikacji tworzą na przykład odpowiedzi na pytania takie jak:
Czy dana wiadomość e-mail jest spamem, czy nie jest spamem?
To zdjęcie psa, kota czy chomika?