Glosariusz systemów uczących się: grupowanie

Ta strona zawiera hasła w glosariuszu grupowania. Aby uzyskać dostęp do wszystkich glosariuszy, kliknij tutaj.

A

agregacja agregacji

#clustering

Zobacz grupowanie hierarchiczne.

C

Centroid

#clustering

Centrum klastra określone za pomocą algorytmu k-media lub media-k. Jeśli na przykład wartość k to 3, algorytm k-media lub k-mediana znajdą 3 centroidy.

grupowanie na podstawie centroidów

#clustering

Kategoria algorytmów klastrowania, które porządkują dane w klastrach niehierarchicznych. K-średnia to najpopularniejszy algorytm grupowania opartego na centroidach.

kontrast z klastrami hierarchicznymi.

grupowanie

#clustering

Grupowanie przykładów w grupę, szczególnie w przypadku zdobywania wersji nadzorowanej. Po zgrupowaniu wszystkich przykładów człowiek może opcjonalnie przekazać znaczenie każdemu z klastrów.

Istnieje wiele algorytmów grupowania. Na przykład przykładowe algorytmy k-mean są oparte na ich odległości od centroida, jak widać na tym diagramie:

Dwuwymiarowy wykres, na którym oś X jest oznaczona jako „szerokość drzewa”, a oś Y – „wysokość drzewa”. Wykres zawiera 2 centymetry i kilkadziesiąt punktów danych. Punkty danych są klasyfikowane według odległości. Oznacza to, że punkty danych najbliżej jednego centroida są klasyfikowane jako „klaster 1”, a te, które znajdują się najbliżej drugiego Centroida – jako „klaster 2”.

Badacz może następnie przejrzeć klastry, na przykład oznaczyć klaster 1 „drzewami karłowatymi” i klaster 2 jako „pełnowymiarowe drzewa”.

Kolejny przykład to użycie algorytmu grupowania opartego na odległości od przykładu od punktu środkowego przedstawionego w ten sposób:

Dziesiątki punktów danych są ułożone w koncentrycznych okręgach – prawie jak otwory wokół wyśrodkowania z tarczą. Wewnętrzny pierścień punktów danych jest klasyfikowany jako „klaster 1”, środkowy pierścień jest oznaczony jako „klaster 2”, a zewnętrzny – klaster „klaster 3”.

D

grupowanie dywizyjne

#clustering

Zobacz grupowanie hierarchiczne.

H

grupowanie hierarchiczne

#clustering

Kategoria algorytmów klastrowania, które tworzą drzewo klastrów. Klaster hierarchiczny dobrze nadaje się do danych hierarchicznych, takich jak taksonomie botaniczne. Są 2 rodzaje algorytmów grupowania hierarchicznego:

  • Klaster agregacyjny najpierw przypisuje każdy przykład do własnego klastra, a potem scala najbliższe klastry, aby utworzyć drzewo hierarchiczne.
  • Grupowanie selektywne: najpierw grupuje wszystkie przykłady w jeden klaster, a potem dzieli klaster na hierarchiczne drzewo.

kontrast z grupowaniem opartym na centroidach;

K

k-średnia

#clustering

Popularny algorytm grupowania, który grupuje przykłady w przypadku uczenia się bez nadzoru. Algorytm k-średni oznacza:

  • iteracja wskazuje najlepsze punkty k punktu (tzw. centroidy).
  • Przypisuje każdy przykład do najbliższego Centroid. Przykłady znajdujące się najbliżej tej samej środkowej części należą do tej samej grupy.

Algorytm k-średnia wybiera lokalizacje Centroid, aby zminimalizować łączny kwadrat odległości między poszczególnymi przykładami.

Weźmy na przykład ten wykres Wysokość psa do jego szerokości:

Wykres kartograficzny z kilkoma punktami danych.

Jeśli k=3, algorytm k-średnia określi trzy centroidy. Każdy przykład jest przypisywany do najbliższej środkowej części, co daje 3 grupy:

Ten sam kartograficzny wykres jak na poprzedniej ilustracji, ale z dodanymi 3 centroidami.
          Poprzednie punkty danych są grupowane w 3 osobne grupy, z których każda reprezentuje punkty danych najbliższe określonemu Centroid.

Wyobraź sobie, że producent stara się określić idealne rozmiary dla małych, średnich i dużych sweterków dla psów. Trzy centroidy określają średnią wysokość i średnią szerokość każdego psa w tym klastrze. Producent powinien pewnie rozwijać te 3 centymetry. Pamiętaj, że centroid klastra nie jest przykładem tego klastra.

Na poprzednich ilustracjach widać wartości k-średnie z przykładami zawierającymi tylko dwie cechy (wysokość i szerokość). Pamiętaj, że możesz grupować przykłady według wielu funkcji.

mediana k

#clustering

Algorytm grupowania ściśle powiązany z k-średnimi. Praktyczna różnica między nimi jest następująca:

  • W k-średnich centroidy są minimalizowane przez zminimalizowanie sumy kwadratów dystansu między kandydatem centroida a każdym z jego przykładów.
  • W k-medianie centroidy są określane przez zminimalizowanie sumy odległości między kandydatem do centroida a każdym z jego przykładów.

Definicje odległości są także inne:

  • Wartość k-średnia zależy od odległości Euclideana od Centroida do przykładu. W 2 wymiarach odległość euklidesowa oznacza zastosowanie hipotezy do twierdzenia Pitagorasa. Na przykład odległość k-średnia między (2,2) i (5,-2) będzie wyglądać tak:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k-median opiera się na odległości Manhattanuod Centroid do przykładu. Odległość ta jest sumą delta bezwzględnych w każdym wymiarze. Na przykład odległość k-media między (2, 2) a (5, - 2) będzie wyglądać tak:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

S

miara podobieństwa

#clustering

W algorytmach klastrowania dane używane do określania, jak bardzo są podobne (2 podobnie) wszystkie przykłady.

szkicowanie

#clustering

W przypadku nienadzorowanych systemów uczących się kategoria algorytmów, które przeprowadzają wstępną analizę podobieństw na przykładach. Algorytmy szkicowania używają funkcji haszowania zależnego od lokalizacji, aby zidentyfikować punkty, które prawdopodobnie są podobne, a następnie grupować je w zasobnikach.

Szkicowanie zmniejsza konieczność wykonywania obliczeń na potrzeby podobieństwa w dużych zbiorach danych. Zamiast obliczać podobieństwo dla każdej pary przykładów w zbiorze danych, obliczamy podobieństwo tylko dla każdej pary punktów w każdym zasobniku.

T

analiza ciągu czasowego

#clustering

Obszar obejmujący systemy uczące się i statystyki, które analizują dane tymczasowe. Wiele typów problemów z systemami uczącymi się wymaga analizy ciągów czasowych, w tym klasyfikacji, klastrów, prognoz i wykrywania anomalii. Możesz na przykład wykorzystać analizę ciągów czasowych do prognozowania przyszłej sprzedaży płaszczy zimowych na podstawie danych historycznych o sprzedaży.

U

systemy uczące się bez nadzoru

#clustering
#fundamentals

Wytrenuj model, aby znaleźć wzorce w zbiorze danych, zwykle bez etykiety.

Najczęstszym zastosowaniem nienadzorowanych systemów uczących się jest gromadzenie danych z klastra w grupy podobnych przykładów. Na przykład nienadzorowany algorytm systemów uczących się może gromadzić utwory na podstawie różnych właściwości muzyki. Otrzymane klastry mogą stać się danymi wejściowymi do innych algorytmów systemów uczących się (np. do usługi rekomendacji muzyki). Grupowanie może pomóc w przypadku braku przydatnych etykiet lub ich braku. W domenach takich jak zapobieganie nadużyciom i oszustwom klastry mogą pomóc ludziom lepiej zrozumieć dane.

w przeciwieństwie do nadzorowanych systemów uczących się;