Ta strona została przetłumaczona przez Cloud Translation API.

Słowniczek z systemami uczącymi się: grupowanie

Ta strona zawiera pojęcia z glosariusza dotyczącej grupowania. Aby poznać wszystkie terminy z glosariusza, kliknij tutaj.

A

klastering aglomeracyjny

#clustering

Zobacz hierarchiczne grupowanie.

C

centroid

#clustering

Środek klastra określony przez algorytm k-średnich lub k-median. Jeśli na przykład k = 3, algorytm k-średnich lub k-median znajdzie 3 centroidy.

Więcej informacji znajdziesz w sekcji Algorytmy klastrowe w Kursie z klastrów.

grupowanie oparte na centroidach

#clustering

Kategoria algorytmów grupowania, które porządkują dane w grupy niehierarchiczne. Algorytm k-średnich to najczęściej używany algorytm grupowania oparty na środku ciężkości.

Porównaj z algorytmami hierarchicznego grupowania.

Więcej informacji znajdziesz w sekcji Algorytmy klastrowe w Kursie z klastrów.

grupowanie

#clustering

grupowanie powiązanych przykładów, zwłaszcza podczas uczenia nienadzorowanego; Gdy wszystkie przykłady zostaną pogrupowane, użytkownik może opcjonalnie nadać znaczenie poszczególnym klasterom.

Istnieje wiele algorytmów grupowania. Na przykład algorytm k-średnich grupował przykłady według ich bliskości do środka ciężkości, jak widać na tym diagramie:

Wykres dwuwymiarowy, na którym oś X ma etykietę „szerokość drzewa”, a oś Y – „wysokość drzewa”. Wykres zawiera 2 centroidy i kilkanaście punktów danych. Punkty danych są kategoryzowane na podstawie ich bliskości. Oznacza to, że punkty danych
najbliższe jednego centroidu są klasyfikowane jako klaster 1, a
najbliższe drugiego centroidu – jako klaster 2.

Następnie badacz może przejrzeć klastry i na przykład oznaczyć klaster 1 jako „karłowate drzewa”, a klaster 2 jako „drzewa w normalnym rozmiarze”.

Innym przykładem jest algorytm grupowania oparty na odległości przykładu od punktu środkowego, jak pokazano na ilustracji:

Kilkanaście punktów danych jest rozmieszczonych w kolistych okręgach, niemal jak otwory wokół środka tarczy do rzutu lotką. Najwewnętrzny pierścień punktów danych jest skategoryzowany jako klaster 1, środkowy pierścień jako klaster 2, a zewnętrzny jako klaster 3.

Więcej informacji znajdziesz w Kursie dotyczącym klasteringu.

D

podział na podzbiory

#clustering

Zobacz hierarchiczne grupowanie.

H

grupowanie hierarchiczne

#clustering

Kategoria algorytmów klasterowania, które tworzą drzewo klastrów. Gromadzenie hierarchiczne jest odpowiednie do danych hierarchicznych, takich jak systemy klasyfikacji biologicznej. Istnieją 2 rodzaje hierarchicznych algorytmów grupowania:

Klasterowanie aglomeracyjne polega na przypisaniu każdego przykładu do własnego klastra, a następnie na iteracyjnym łączeniu najbliższych klastrów w celu utworzenia hierarchicznego drzewa.
Klasteryzacja dzieląca najpierw grupuje wszystkie przykłady w jeden klaster, a potem dzieli go iteracyjnie na drzewo hierarchiczne.

Porównaj z zagnieżdżonym zgrupowaniem na podstawie środka ciężkości.

Więcej informacji znajdziesz w sekcji Algorytmy klastrowania w Kursie z klasteringu.

K

k-średnich

#clustering

Popularny algorytm zagnieżdżonego podziału, który grupował przykłady w ramach uczenia się nienadzorowanego. Algorytm k-średnich wykonuje te czynności:

Metoda iteracyjna określa najlepsze k punktów środkowych (zwanych centroidami).
Przypisuje każdy przykład do najbliższego centroidu. Przykłady, które są najbliżej tego samego centroidu, należą do tej samej grupy.

Algorytm k-średnich wybiera lokalizacje centroidów, aby zminimalizować kwadrat odległości od każdego przykładu do najbliższego centroidu.

Rozważ na przykład wykres wysokości i szerokości psa:

Układ kartezjański z kilkudziesięcioma punktami danych.

Jeśli k=3, algorytm k-średnich określi 3 centroidy. Każdy przykład jest przypisany do najbliższego centroidu, co daje 3 grupy:

Ten sam układ współrzędnych kartezjańskich co na poprzednim rysunku, ale z dodanymi trzema środkami ciężkości.
Poprzednie punkty danych są grupowane w 3 odrębne grupy, z których każda reprezentuje punkty danych najbliższe danemu centroidowi.

Załóżmy, że producent chce określić idealne rozmiary małych, średnich i dużych swetrów dla psów. 3 centroidy określają średnią wysokość i średnią szerokość każdego psa w danym klastrze. Dlatego producent powinien określić rozmiary swetrów na podstawie tych trzech centroidów. Pamiętaj, że centrum ciężkości klastra zwykle nie jest przykładem w klastrze.

Poprzednie ilustracje pokazują k-means w przypadku przykładów z tylko dwoma cechami (wysokość i szerokość). Pamiętaj, że metoda k-średnich może grupować przykłady według wielu cech.

Więcej informacji znajdziesz w sekcji Co to jest podział na grupy według metody k-średnich? w Kursie z podziałem na grupy.

k-mediana

#clustering

Algorytm grupowania blisko związany z grupowaniem k-średnich. Praktyczna różnica między tymi 2 elementami:

W metodzie k-średnich centroidy są określane przez minimalizowanie sumy kwadratów odległości między kandydatem na centroid a każdym z jego przykładów.
W metodzie k-median centroidy są określane przez minimalizowanie sumy odległości między kandydatem na centroid a każdym z jego przykładów.

Pamiętaj, że definicje odległości również się różnią:

Grupowanie k-średnich opiera się na odległości euklidesa od centroida do przykładu. (W 2 wymiarach odległość euklidesowa oznacza użycie twierdzenia Pitagorasa do obliczenia przeciwprostokątnej). Na przykład odległość k-średnich między (2,2) a (5,-2) wynosi:

$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$

K-mediana opiera się na odległości Manhattana od centroida do przykładu. Ta odległość to suma bezwzględnych różnic w każdym wymiarze. Na przykład odległość k-mediany między (2,2) a (5,-2) wynosi:

$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

S

miara podobieństwa

#clustering

#Dane

W algorytmach zagnieżdżania jest to miara służąca do określania, jak podobne (jak podobne) są 2 dowolne przykłady.

szkicowanie

#clustering

W nienadzorowanym uczeniu maszynowym, kategorii algorytmów, które wykonują wstępną analizę podobieństwa na przykładach. Algorytmy szkicowania używają funkcji haszującej wrażliwej na lokalizację do identyfikowania punktów, które są prawdopodobnie podobne, a potem grupowania ich w worki.

Szkicowanie zmniejsza liczbę obliczeń wymaganych do obliczenia podobieństwa w przypadku dużych zbiorów danych. Zamiast obliczać podobieństwo dla każdej pary przykładów w zbiorze danych, obliczamy podobieństwo tylko dla każdej pary punktów w każdym zbiorze.

T

analiza szeregów czasowych

#clustering

Poddziedzina systemów uczących się i statystyki, która analizuje dane czasowe. Wiele typów problemów z uczenia maszynowego wymaga analizy szeregów czasowych, w tym klasyfikacji, grupowania, prognozowania i wykrywania anomalii. Możesz na przykład użyć analizy szeregów czasowych, aby prognozować przyszłe sprzedaż płaszczy zimowych według miesięcy na podstawie historycznych danych o sprzedaży.

U

uczenie maszynowe bez nadzoru

#clustering

#fundamentals

Trenowanie modelu w celu znajdowania wzorców w zbiorze danych, zwykle w zbiorze nieoznaczonym.

Najczęstszym zastosowaniem uczenia maszynowego nienadzorowanego jest zgrupowanie danych w grupy podobnych przykładów. Na przykład algorytm uczenia maszynowego bez nadzoru może grupować utwory na podstawie różnych właściwości muzyki. Uzyskane klastry mogą stać się danymi wejściowymi dla innych algorytmów uczenia maszynowego (np. dla usługi rekomendacji muzycznej). Grupowanie może być przydatne, gdy przydatnych etykiet jest niewiele lub ich brak. Na przykład w przypadku domen takich jak zapobieganie nadużyciom i oszustwo klastry mogą pomóc ludziom lepiej zrozumieć dane.

W odróżnieniu od nadzorowanego uczenia maszynowego.

Kliknij ikonę, aby dodać dodatkowe notatki.

Innym przykładem uczenia maszynowego bez nadzoru jest analiza głównych składowych (PCA). Na przykład zastosowanie analizy głównych składowych na zbiorze danych zawierającym zawartość milionów koszyków może ujawnić, że koszyki zawierające cytryny często zawierają też leki zobojętniające na sok żołądkowy.

Więcej informacji znajdziesz w części Czym są systemy uczące się? kursu Wprowadzenie do systemów uczących się.

Słowniczek z systemami uczącymi się: grupowanie Zadbaj o dobrą organizację dzięki kolekcji Zapisuj i kategoryzuj treści zgodnie ze swoimi preferencjami.

A

klastering aglomeracyjny

C

centroid

grupowanie oparte na centroidach

grupowanie

D

podział na podzbiory

H

grupowanie hierarchiczne

K

k-średnich

k-mediana

S

miara podobieństwa

szkicowanie

T

analiza szeregów czasowych

U

uczenie maszynowe bez nadzoru

Kliknij ikonę, aby dodać dodatkowe notatki.

Słowniczek z systemami uczącymi się: grupowanie