Para as seguintes perguntas, clique na seta para conferir sua resposta:
Você está pré-processando dados para um modelo de regressão. Quais
transformações são obrigatórias? Marque todas as opções válidas.
Converter todos os atributos não numéricos em atributos numéricos.
correto. Essa é uma transformação obrigatória. É preciso converter as strings em alguma representação numérica, porque não é possível fazer multiplicações de matrizes em uma string.
Normalizar dados numéricos.
Normalizar dados numéricos pode ajudar, mas é uma transformação de qualidade
opcional.
Veja o gráfico abaixo. Qual técnica de transformação de dados provavelmente seria a mais produtiva e por quê? Suponha que seu objetivo seja encontrar uma relação linear entre quartos por pessoa e preço da casa.
Pontuação Z
A pontuação Z é uma boa opção se os outliers não são extremos.
No entanto, os outliers são extremos aqui.
Recorte
O recorte é uma boa opção aqui porque o conjunto de dados contém outliers
extremos. Corrija outliers extremos antes de aplicar outras
normalizações.
Escalonamento de registros
O escalonamento de registros é uma boa opção se os dados forem confirmados para a distribuição de leis
de energia. No entanto, esses dados estão em conformidade com uma distribuição normal,
e não com uma distribuição de legislação de energia.
Agrupamento por classes (agrupamento) com limites de quantil
O bucket quantil pode ser uma boa abordagem para dados distorcidos, mas nesse
caso, esse desvio se deve, em parte, a alguns outliers extremos. Além disso, você quer que o modelo aprenda uma relação linear. Portanto, mantenha
o valor de RoomPerPerson em vez de transformá-lo em categorias, que é
o que o agrupamento por classes faz. Em vez disso, tente usar uma técnica de normalização.
Veja o gráfico abaixo. Qual técnica de transformação de dados provavelmente seria a mais produtiva e por quê?
Pontuação Z
A pontuação Z é uma boa opção se os outliers não são tão extremos que você
precisa de recorte. Esse não é o caso aqui. A forma como os dados são distorcidos é
uma dica.
Recorte
O recorte é uma boa opção quando há outliers extremos. Esse gráfico,
no entanto, está mostrando uma distribuição de lei de poder, e há outra técnica
de normalização que é melhor para resolver isso.
Escalonamento de registros
O escalonamento de registros é uma boa opção aqui, porque os dados estão em conformidade com a
distribuição da legislação de energia.
Agrupamento por classes (agrupamento) com limites de quantil
O agrupamento por classes de quantil pode ser uma boa abordagem para dados distorcidos. No entanto,
você está
procurando o modelo para aprender uma relação linear. Portanto, mantenha os dados numéricos e evite colocá-los em intervalos.
Tente uma técnica de normalização.
Veja o gráfico abaixo. Um modelo linear faria uma boa previsão sobre a relação entre a proporção de compactação e a cidade-mpg? Em caso negativo, como
transformar os dados para treinar melhor o modelo?
Sim, o modelo provavelmente encontraria uma relação linear e faria previsões
muito precisas.
Embora o modelo encontre uma relação linear, ele não faz previsões muito precisas. Tente treinar esse conjunto de dados no
Exercício
de modelagem de dados para entender melhor os motivos.
Não. O modelo provavelmente seria mais preciso após o escalonamento.
É possível aplicar o escalonamento linear, mas a inclinação da relação
entre proporção de compactação e cidade-mpg seria a mesma. O que
ajudaria mais é ver duas inclinações separadas, uma para o cluster de
pontos na proporção de compactação mais baixa e outra para a mais alta.
Não. Parece que há dois comportamentos diferentes acontecendo. Definir um
limite no meio e usar um recurso em buckets pode ajudar você
a entender melhor o que está acontecendo nessas duas áreas.
correto. É importante saber por que e como você está definindo os limites. No exercício de modelagem de dados, você aprenderá mais sobre como essa abordagem pode ajudar a criar um modelo melhor.
Uma equipe colega está informando sobre o progresso que ela fez no projeto
de ML. Eles calcularam um vocabulário e treinaram um modelo off-line. No entanto, eles querem
evitar problemas de inatividade, então estão prestes a treinar um
modelo diferente on-line. O que acontece depois?
O modelo permanece atualizado conforme novos dados chegam. A outra equipe precisará monitorar continuamente os dados de entrada.
Evitar a inatividade dos modelos é o principal benefício do treinamento
dinâmico, mas usar um vocabulário com um modelo treinado off-line vai causar
problemas.
Eles podem descobrir que os índices que estão usando não correspondem ao
vocabulário.
correto. Alerte seus colegas sobre os perigos do treinamento/disponibilização
e recomende que eles façam o curso do Google sobre Preparação
de dados e engenharia de atributos para ML para saber mais.