Transforma tu información: Comprueba tu comprensión

En las siguientes preguntas, haz clic en la flecha deseada para verificar tu respuesta:

Preprocesa datos para un modelo de regresión. ¿Qué transformaciones son obligatorias? Marca todas las opciones que correspondan.
Convertir todos los atributos no numéricos en atributos numéricos
Correcto. Esta transformación es obligatoria. Debes convertir las strings en una representación numérica porque no puedes multiplicar matrices en una string.
Normaliza los datos numéricos.
Normalizar los datos numéricos podría ayudar, pero es una transformación de calidad opcional.

 

Considera el siguiente gráfico. ¿Con qué técnica de transformación de datos sería más productivo comenzar y por qué? Supongamos que tu objetivo es encontrar una relación lineal entre ambientesPorPersona y el precio de la casa.
Puntuación Z
La puntuación Z es una buena opción si los valores atípicos no son extremos. Sin embargo, los valores atípicos son extremos.
Recorte
El recorte es una buena opción aquí porque el conjunto de datos contiene valores atípicos extremos. Debes corregir los valores atípicos extremos antes de aplicar otras normalizaciones.
Escalamiento de registros
El escalamiento de registro es una buena opción si tus datos confirman la distribución de la ley de energía. Sin embargo, estos datos se ajustan a una distribución normal en lugar de a una distribución de leyes de energía.
Agrupamiento (agrupamiento) con límites cuantiles
El agrupamiento cuantil puede ser un buen enfoque para datos sesgados, pero en este caso, este sesgo se debe en parte a algunos valores atípicos extremos. Además, quieres que el modelo aprenda una relación lineal. Por lo tanto, debes mantener RoomPerPerson numérico en vez de transformarlo en categorías, que es lo que hace el agrupamiento. En su lugar, prueba una técnica de normalización.

Un gráfico que muestra la frecuencia relativa de RoomsPerPerson, donde la cantidad de habitaciones en una residencia es dividida por la cantidad de personas en esa residencia  La mayoría de los datos se distribuyen entre 0 y 5, con un par de puntos de 5 a 55.

 

Considera el siguiente gráfico. ¿Con qué técnica de transformación de datos sería más productivo comenzar y por qué?
Puntuación Z
La puntuación Z es una buena opción si los valores atípicos no son tan extremos que necesitas recortar. No es el caso. La forma en que los datos están sesgados debe ser una pista.
Recorte
El recorte es una buena opción cuando hay valores atípicos extremos. Sin embargo, en este gráfico, se muestra la distribución de una ley de energía, y hay otra técnica de normalización que es mejor para abordar ese problema.
Escalamiento de registros
En este caso, el escalamiento logarítmico es una buena opción porque los datos cumplen con la distribución de leyes sobre energía.
Agrupamiento (agrupamiento) con límites cuantiles
El agrupamiento en cuantiles puede ser un buen enfoque para los datos sesgados. Sin embargo, lo que buscas es el modelo para aprender una relación lineal. Por lo tanto, debes mantener los datos numéricos y evitar colocarlos en depósitos. En su lugar, prueba una técnica de normalización.

Un gráfico de barras cuyas barras se concentran en gran medida en el extremo inferior. La primera barra tiene una magnitud de 1,200, la segunda tiene una magnitud de 460 y la tercera, una de 300. En la barra 15, la magnitud es de alrededor de 30. Una cola muy larga continúa durante otras 90 barras con una magnitud que nunca aumenta más de 10.

 

Considera el siguiente gráfico. ¿Un modelo lineal sería una buena predicción sobre la relación entre la proporción de compresión y el mpg de la ciudad? De lo contrario, ¿cómo podrías transformar los datos para entrenar mejor el modelo?
Sí, es probable que el modelo encuentre una relación lineal y realice predicciones bastante precisas.
Si bien el modelo encontraría una relación lineal, no realizaría predicciones muy precisas. Puedes intentar entrenar este conjunto de datos en el Ejercicio de modelado de datos para comprender mejor por qué.
No. Es probable que el modelo sea más preciso después del escalamiento.
Podrías aplicar el escalamiento lineal, pero la pendiente de la relación entre la proporción de compresión y city-mpg se vería igual. Lo que más te ayudaría ver dos pendientes diferentes: una para el clúster de puntos en la proporción de compresión más baja y otra para la mayor.
No. Parece que ocurren dos comportamientos diferentes. Establecer un límite en el medio y usar un atributo en depósitos puede ayudarte a comprender mejor lo que sucede en esas dos áreas.
Correcto. Es importante ser claro sobre por qué y cómo estableces los límites. En el Ejercicio de modelado de datos, obtendrás más información sobre cómo este enfoque puede ayudarte a crear un mejor modelo.

Un diagrama de dispersión que muestra la autopista-mpg contra la proporción de compresión. Dos grupos de datos distintos, uno más grande que el otro, aparecen en extremos opuestos del eje de compresión. El grupo más grande cubre el rango de compresión de 7 a 12; el grupo más pequeño cubre el rango de proporción de compresión de 21 a 23. En general, la autopista-mpg es un poco más baja en el grupo más grande que en el más pequeño.

 

Un equipo de pares te informa sobre el progreso que lograron en su proyecto de AA. Calcularon un vocabulario y entrenaron un modelo sin conexión. Sin embargo, quieren evitar problemas de inactividad, por lo que están a punto de entrenar un modelo diferente en línea. ¿Qué podría pasar después?
El modelo se mantendrá actualizado a medida que lleguen datos nuevos. El otro equipo deberá supervisar los datos de entrada de forma continua.
Aunque evitar el nivel de inactividad del modelo es el principal beneficio del entrenamiento dinámico, usar un vocabulario con un modelo entrenado sin conexión generará problemas.
Es posible que detecten que los índices que usan no corresponden al vocabulario.
Correcto. Advierte a tus colegas sobre los riesgos de la desviación entre el entrenamiento y la entrega y, luego, recomienda que realicen el curso de preparación de datos y de ingeniería de atributos de Google para obtener más información.