Przepływ pracy w klastrze

Aby połączyć dane, wykonaj te czynności:

  1. Przygotuj dane.
  2. Utwórz wskaźnik podobieństwa.
  3. Uruchom algorytm grupowania.
  4. Zinterpretuj wyniki i dostosuj grupowanie.

Ta strona zawiera krótkie omówienie kroków. Zajmiemy się nim w kolejnych sekcjach.

Cztery kroki przepływu klastra

Przygotowywanie danych

Jak w przypadku problemów z systemami uczącymi się musisz normalizować, skalować i przekształcać dane cech. Podczas grupowania musisz jednak upewnić się, że przygotowane dane pozwalają dokładnie obliczyć podobieństwo między przykładami. Kolejne sekcje omawiają tę możliwość.

Utwórz wskaźnik podobieństwa

Zanim algorytm grupowania będzie mógł grupować dane, musi wiedzieć, jak podobne są przykłady. Aby ocenić podobieństwo między przykładami, utwórz dane o podobieństwie. Aby utworzyć dane o podobieństwie, musisz dokładnie przeanalizować swoje dane i dowiedzieć się, jakie są ich podobieństwa.

Uruchom algorytm grupowania

Algorytm grupowania używa danych o podobieństwie do danych klastra. Ten kurs koncentruje się na k-średnich.

Interpretuj wyniki i dostosowuj

Sprawdzanie jakości danych wyjściowych klastra jest iteracyjne i eksploracyjne, ponieważ w klastrze brakuje „prawdziwości”, które mogłyby potwierdzić dane wyjściowe. Sprawdź wynik pod kątem oczekiwań na poziomie klastra i przykładowego poziomu. Aby polepszyć wynik, musisz eksperymentować z poprzednimi krokami, aby sprawdzić, jak wpływają na klaster.