Daten umwandeln: Verstehen

Klicken Sie bei den folgenden Fragen auf den gewünschten Pfeil, um Ihre Antwort zu prüfen:

Sie bereiten Daten für ein Regressionsmodell vor. Welche Transformationen sind obligatorisch? Wähle alle zutreffenden Antworten aus.
Alle nicht numerischen Funktionen in numerische Merkmale umwandeln
Richtig! Dies ist eine obligatorische Transformation. Sie müssen Strings in eine numerische Darstellung umwandeln, da keine Matrixmultiplikation für einen String möglich ist.
Numerische Daten normalisieren.
Das Normalisieren von numerischen Daten kann hilfreich sein, ist jedoch eine optionale Qualitätstransformation.

 

Sehen Sie sich dazu das folgende Diagramm an. Welches Verfahren zur Datentransformation wäre vermutlich am produktivsten und warum? Angenommen, Ihr Ziel ist eine lineare Beziehung zwischen roomsPerPerson und Hauspreis.
Z-Wert
Der Z-Wert ist eine gute Wahl, wenn Sie keine Ausreißer haben. Die Ausreißer sind hier jedoch extrem.
Beschneiden
Das Clipping ist hier eine gute Wahl, da der Datensatz extreme Ausreißer enthält. Sie sollten extreme Ausreißer beheben, bevor Sie andere Normalisierungen anwenden.
Logskalierung
Die Logskalierung ist eine gute Wahl, wenn Ihre Daten der Verteilung des Stromgesetzes entsprechen. Diese Daten entsprechen jedoch einer Normalverteilung und nicht einer Energiegesetzverteilung.
Bucketing (Gruppieren) mit Quantilgrenzen
Quantile Buckets sind ein guter Ansatz für verzerrte Daten, in diesem Fall ist das teilweise auf einige extreme Ausreißer zurückzuführen. Außerdem soll das Modell eine lineare Beziehung lernen. Daher sollten Sie „RoomsPerPerson“ numerisch halten, anstatt sie in Kategorien umzuwandeln, was beim Bucketing der Fall ist. Versuche stattdessen ein Normalisierungsverfahren.

Ein Diagramm, auf dem die relative Häufigkeit der verschiedenen RoomsPerPerson dargestellt ist, wobei RoomsPerPerson die Anzahl der Zimmer in einem Wohnsitz geteilt durch die Anzahl der Personen in diesem Wohnsitz ist.  Die meisten Daten sind zwischen 0 und 5 mit einigen wenigen Punkten zwischen 5 und 55 verteilt.

 

Sehen Sie sich dazu das folgende Diagramm an. Welches Verfahren zur Datentransformation wäre vermutlich am produktivsten und warum?
Z-Wert
Der Z-Score ist eine gute Wahl, wenn Sie nicht so stark Ausreißer wie Sie benötigen, um Ausschnitte zu erstellen. Das ist hier nicht der Fall. Die Verzerrung der Daten sollte ein Hinweis sein.
Beschneiden
Das Zuschneiden ist eine gute Wahl, wenn es extreme Ausreißer gibt. Dieses Diagramm zeigt jedoch eine Stromgesetzverteilung und es gibt eine andere Normalisierungsmethode, die besser dafür geeignet ist.
Logskalierung
Die Logskalierung ist hier eine gute Wahl, da die Daten der Leistungsverteilung entsprechen.
Bucketing (Gruppieren) mit Quantilgrenzen
Quantile Buckets sind ein guter Ansatz für verzerrte Daten. Sie suchen jedoch nach dem Modell, um eine lineare Beziehung zu lernen. Daher sollten Sie Ihre Daten numerisch halten und nicht in Buckets platzieren. Versuche stattdessen eine Normalisierungsmethode.

Ein Balkendiagramm, dessen Balken sich im unteren Bereich stark befinden Der erste Balken hat eine Stärke von 1.200, der zweite Balken hat eine Stärke von 460, der dritte Balken hat eine Stärke von 300. Am 15. Barn liegt die Stärke bei etwa 30. Ein sehr langer Schwanz wird weitere 90 Balken lang, wobei der Umfang des langen Schwanzes nie über 10 hinaus steigt.

 

Sehen Sie sich dazu das folgende Diagramm an. Würde ein lineares Modell eine gute Vorhersage für das Verhältnis zwischen Komprimierungsverhältnis und Stadt-MPG treffen? Falls nicht, wie können Sie die Daten transformieren, um das Modell besser zu trainieren?
Ja, das Modell würde wahrscheinlich eine lineare Beziehung finden und ziemlich genaue Vorhersagen treffen.
Das Modell würde zwar eine lineare Beziehung finden, das Modell würde jedoch keine sehr genauen Vorhersagen treffen. Sie können versuchen, dieses Dataset in der Datenmodellierungsübung zu trainieren, um die Gründe dafür besser zu verstehen.
Nein. Das Modell wäre nach der Skalierung wahrscheinlich genauer.
Sie können die lineare Skalierung zwar anwenden, die Steigung der Beziehung zwischen Komprimierungsverhältnis und Stadt-mpg würde aber gleich aussehen. Wenn Sie zwei separate Hänge sehen – eine für die Gruppe von Punkten im unteren Kompressionsverhältnis und eine weitere für die höhere.
Nein. Es gibt zwei unterschiedliche Verhaltensweisen. Wenn Sie einen Grenzwert in der Mitte festlegen und ein Bucket-Feature verwenden, können Sie besser verstehen, was in diesen beiden Bereichen passiert.
Richtig! Es ist wichtig, deutlich zu machen, warum und wie du die Grenzen setzt. In der Übung zur Datenmodellierung erfahren Sie mehr darüber, wie Sie mit diesem Ansatz ein besseres Modell erstellen können.

Ein Streudiagramm, das Autobahn-MPG im Verhältnis zum Kompressionsverhältnis zeigt. Zwei unterschiedliche Datengruppen, von denen eine viel größer ist als die andere, erscheinen auf den entgegengesetzten Enden der Achse für das Komprimierungsverhältnis. Der größere Klumpenbereich deckt den Kompressionsverhältnisbereich 7–12 ab, der kleinere Klumpenbereich das Kompressionsverhältnisbereich 21–23. Die Autobahn-MPG ist in der Regel im größeren Teil etwas niedriger als in der kleineren.

 

Ein Peer-Team informiert Sie über seine Fortschritte beim ML-Projekt. Sie haben ein Vokabular berechnet und ein Modell offline trainiert. Um Probleme mit veralteten Daten zu vermeiden, möchte das Unternehmen nun ein anderes Modell online trainieren. Was kann als Nächstes passieren?
Das Modell bleibt immer auf dem Laufenden, wenn neue Daten eingehen. Das andere Team muss die Eingabedaten kontinuierlich überwachen.
Obwohl die Vermeidung von veralteten Modellen der Hauptvorteil von dynamischem Training ist, kann die Verwendung eines Vokabulars mit einem offline trainierten Modell zu Problemen führen.
Möglicherweise stellen sie fest, dass die verwendeten Indexe nicht mit dem Vokabular übereinstimmen.
Richtig! Warnen Sie Ihre Kollegen vor den Gefahren von Abweichungen zwischen Training und Bereitstellung und empfehlen Sie ihnen, den Google-Kurs zu Datenvorbereitung und Feature Engineering für ML zu absolvieren, in dem sie mehr erfahren.