Transforme seus dados: teste seu conhecimento

Para as seguintes perguntas, clique na seta para conferir sua resposta:

Você está pré-processando dados para um modelo de regressão. Quais transformações são obrigatórias? Marque todas as opções válidas.
Converter todos os atributos não numéricos em atributos numéricos.
correto. Essa é uma transformação obrigatória. É preciso converter as strings em alguma representação numérica, porque não é possível fazer multiplicações de matrizes em uma string.
Normalizar dados numéricos.
Normalizar dados numéricos pode ajudar, mas é uma transformação de qualidade opcional.

 

Veja o gráfico abaixo. Qual técnica de transformação de dados provavelmente seria a mais produtiva e por quê? Suponha que seu objetivo seja encontrar uma relação linear entre quartos por pessoa e preço da casa.
Pontuação Z
A pontuação Z é uma boa opção se os outliers não são extremos. No entanto, os outliers são extremos aqui.
Recorte
O recorte é uma boa opção aqui porque o conjunto de dados contém outliers extremos. Corrija outliers extremos antes de aplicar outras normalizações.
Escalonamento de registros
O escalonamento de registros é uma boa opção se os dados forem confirmados para a distribuição de leis de energia. No entanto, esses dados estão em conformidade com uma distribuição normal, e não com uma distribuição de legislação de energia.
Agrupamento por classes (agrupamento) com limites de quantil
O bucket quantil pode ser uma boa abordagem para dados distorcidos, mas nesse caso, esse desvio se deve, em parte, a alguns outliers extremos. Além disso, você quer que o modelo aprenda uma relação linear. Portanto, mantenha o valor de RoomPerPerson em vez de transformá-lo em categorias, que é o que o agrupamento por classes faz. Em vez disso, tente usar uma técnica de normalização.

Um gráfico mostrando a frequência relativa de diferentes RoomsPerPerson, em que
RoomsPerPerson é o número de quartos em uma residência dividido pelo número de pessoas
nessa residência.  A maioria dos dados é distribuída entre 0 e 5, com um rastro de pontos de 5 a 55.

 

Veja o gráfico abaixo. Qual técnica de transformação de dados provavelmente seria a mais produtiva e por quê?
Pontuação Z
A pontuação Z é uma boa opção se os outliers não são tão extremos que você precisa de recorte. Esse não é o caso aqui. A forma como os dados são distorcidos é uma dica.
Recorte
O recorte é uma boa opção quando há outliers extremos. Esse gráfico, no entanto, está mostrando uma distribuição de lei de poder, e há outra técnica de normalização que é melhor para resolver isso.
Escalonamento de registros
O escalonamento de registros é uma boa opção aqui, porque os dados estão em conformidade com a distribuição da legislação de energia.
Agrupamento por classes (agrupamento) com limites de quantil
O agrupamento por classes de quantil pode ser uma boa abordagem para dados distorcidos. No entanto, você está procurando o modelo para aprender uma relação linear. Portanto, mantenha os dados numéricos e evite colocá-los em intervalos. Tente uma técnica de normalização.

Gráfico de barras com barras altamente concentradas na parte inferior. O primeiro
bar tem uma magnitude de 1.200, o segundo tem uma magnitude de 460, e o terceiro
tem uma magnitude de 300. Na 15a barra, a magnitude diminui para cerca de
30. Uma cauda muito longa continua por mais 90 barras, com a magnitude da
cauda longa nunca aumentando acima de 10.

 

Veja o gráfico abaixo. Um modelo linear faria uma boa previsão sobre a relação entre a proporção de compactação e a cidade-mpg? Em caso negativo, como transformar os dados para treinar melhor o modelo?
Sim, o modelo provavelmente encontraria uma relação linear e faria previsões muito precisas.
Embora o modelo encontre uma relação linear, ele não faz previsões muito precisas. Tente treinar esse conjunto de dados no Exercício de modelagem de dados para entender melhor os motivos.
Não. O modelo provavelmente seria mais preciso após o escalonamento.
É possível aplicar o escalonamento linear, mas a inclinação da relação entre proporção de compactação e cidade-mpg seria a mesma. O que ajudaria mais é ver duas inclinações separadas, uma para o cluster de pontos na proporção de compactação mais baixa e outra para a mais alta.
Não. Parece que há dois comportamentos diferentes acontecendo. Definir um limite no meio e usar um recurso em buckets pode ajudar você a entender melhor o que está acontecendo nessas duas áreas.
correto. É importante saber por que e como você está definindo os limites. No exercício de modelagem de dados, você aprenderá mais sobre como essa abordagem pode ajudar a criar um modelo melhor.

Um gráfico de dispersão que mostra a rodovia-mpg em relação à proporção de compactação. Dois tipos diferentes de dados, um deles muito maior do que o outro, aparecem em extremidades opostas do eixo de proporção de compactação. O nível mais alto abrange o
intervalo de 7 a 12 de proporção de compactação. O outro menor cobre o intervalo de 21 a 23
de proporção de compactação. O rodovia-mpg geralmente é um pouco mais baixo no acoplamento maior
do que o menor.

 

Uma equipe colega está informando sobre o progresso que ela fez no projeto de ML. Eles calcularam um vocabulário e treinaram um modelo off-line. No entanto, eles querem evitar problemas de inatividade, então estão prestes a treinar um modelo diferente on-line. O que acontece depois?
O modelo permanece atualizado conforme novos dados chegam. A outra equipe precisará monitorar continuamente os dados de entrada.
Evitar a inatividade dos modelos é o principal benefício do treinamento dinâmico, mas usar um vocabulário com um modelo treinado off-line vai causar problemas.
Eles podem descobrir que os índices que estão usando não correspondem ao vocabulário.
correto. Alerte seus colegas sobre os perigos do treinamento/disponibilização e recomende que eles façam o curso do Google sobre Preparação de dados e engenharia de atributos para ML para saber mais.