Przekształcanie danych: sprawdzanie wiedzy

W przypadku tych pytań kliknij wybraną strzałkę, aby sprawdzić odpowiedź:

Wstępnie przetwarzasz dane dla modelu regresji. Jakie przekształcenia są wymagane? Zaznacz wszystkie właściwe odpowiedzi.
Przekształcanie wszystkich obiektów nieliczbowych w elementy liczbowe.
Dobra odpowiedź. To obowiązkowe przekształcenie. Musisz przekonwertować ciągi na reprezentację liczbową, ponieważ nie można mnożyć macierzy.
Znormalizuj dane liczbowe.
Normalizacja danych liczbowych może pomóc, ale jest to opcjonalna przekształcenie jakości.

 

Przeanalizujmy poniższy wykres. Na którą metodę przekształcania danych najprawdopodobniej trzeba zacząć i dlaczego? Zakładamy, że Twoim celem jest znalezienie liniowej relacji między salami PerPerson, a ceną domu.
Wynik Z
Wynik Z jest dobrym wyborem, jeśli wartości odstające są skrajne. Są one jednak ekstremalne.
Przycinanie
Przycinanie jest dobrym rozwiązaniem, ponieważ zbiór danych zawiera wartości skrajne. Zanim zastosujesz inne normalizacje, napraw błędy skrajne.
Skalowanie logów
Skalowanie logów to dobry wybór, jeśli Twoje dane potwierdzają rozkład praw. Dane te są jednak zgodne ze zwykłym rozkładem, a nie z obowiązującym prawem.
Zasobnik (binarny) z granicami kwantylowymi
Może to być dobre podejście do zniekształconych danych, jednak w tym przypadku zniekształcenie jest częściowo spowodowane skrajnymi wartościami odstającymi. Chcesz też, aby model nauczył się relacji liniowej. Dlatego dane „PerPerPerPerson” powinny mieć format liczbowy, a nie być przekształcane w kategorie, co odpowiada zasobnikom. Zamiast tego spróbuj użyć metody normalizacji.

Wykres pokazujący względną częstotliwość występowania różnych sal w pokoju, w której
liczba sal jest podzielona przez liczbę osób w budynku
mieszkalnym.  Większość danych jest rozkładana w zakresie od 0 do 5 z kilkoma punktami od 5 do 55.

 

Przeanalizujmy poniższy wykres. Na którą metodę przekształcania danych najprawdopodobniej trzeba zacząć i dlaczego?
Wynik Z
Wynik Z jest dobrym rozwiązaniem, jeśli wyniki odstające są skrajne i nie potrzebujesz klipu. W tym przypadku tak nie jest. Sposób zniekształcenia danych powinien być wskazówką.
Przycinanie
Przycinanie to dobry wybór w przypadku ekstremalnych odchyleń. Ten wykres pokazuje jednak zastosowanie prawa energetycznego. Istnieje inna technika normalizacji, która lepiej sobie z tym radzi.
Skalowanie logów
Skalowanie logów to dobry wybór, ponieważ dane są zgodne z rozkładem prawa zasilania.
Zasobnik (binarny) z granicami kwantylowymi
Kolekcjonowanie kwantylowe może być dobrym rozwiązaniem w przypadku zniekształconych danych. Chcesz jednak poznać model, aby poznać relację liniową. Dlatego dane powinny być liczbowe i nie umieszczaj ich w zasobnikach. Zamiast tego spróbuj użyć metody normalizacji.

Wykres słupkowy, którego słupki są skupione na końcu. Pierwszy zakres ma wartość 1200, drugi – 460, a trzeci – 300. Po 15 takcie wielkość wynosi około 30. Długi ogon trwa przez kolejne 90 taktów o długości rzędu powyżej dziesięciokąta.

 

Przeanalizujmy poniższy wykres. Czy model liniowy byłby dobrym wzorem do prognozowania zależności między współczynnikiem kompresji i miastem miejskim? Jeśli nie, jak możesz przekształcić dane, aby lepiej trenować model?
Tak, model prawdopodobnie znajdzie relację liniową i wykonuje dość dokładne prognozy.
Mimo że model znajdzie relację liniową, nie zapewni dokładnych prognoz. Możesz przetestować ten zbiór danych w ćwiczeniach modelowania danych, aby lepiej zrozumieć, dlaczego tak się dzieje.
Nie. Po skalowaniu model będzie prawdopodobnie dokładniejszy.
Można zastosować skalowanie liniowe, ale spadek zależności między kompresją ratio a miastem będzie wyglądać tak samo. Możesz też zobaczyć 2 oddzielne stoki – jeden dla klastra z niższym współczynnikiem kompresji i drugi na wyższy.
Nie. Występują dwa różne zachowania. Ustawienie progu na środku i użycie funkcji zgrupowanych może pomóc Ci lepiej zrozumieć, co się dzieje w tych 2 obszarach.
Dobra odpowiedź. Wyjaśnij, dlaczego i w jaki sposób wyznaczasz granice. Z ćwiczenia z modelowania danych dowiesz się, jak to podejście może pomóc w utworzeniu lepszego modelu.

Wykres rozproszony w czasie autostradowym i kompromisowy. Dwie odrębne kafelki danych, jedna znacznie większa od drugiej, pojawiają się po przeciwnych stronach osi o współczynniku kompresji. Większa grupa mieści się w zakresie 7-12 kompresja, a mniejszy – zakres 21-23. Ruch biznesowy jest zwykle nieco mniejszy w większym bloku, niż w mniejszym.

 

Zespół równorzędny informuje o postępach w swoim projekcie systemów uczących się. Obliczyli słownictwo i wytrenowali model offline. Chcą jednak uniknąć problemów z nieaktualnością, dlatego wkrótce wytrenują inny model online. Co dalej?
Model będzie aktualny w miarę napływania nowych danych. Drugi zespół będzie musiał stale monitorować dane wejściowe.
Główną zaletą trenowania dynamicznego jest unikanie nieaktualnych modeli, jednak używanie słownika z modelem wytrenowanym w trybie offline może powodować problemy.
Może się okazać, że używane przez nich indeksy nie odpowiadają słownikowi.
Dobra odpowiedź. Ostrzegaj się o ryzyku wystąpienia zniekształceń związanych z trenowaniem/udostępnianiem, a następnie zapoznaj się z kursem Google dotyczącym przygotowania danych i funkcji dla systemów uczących się, aby dowiedzieć się więcej.