Esta página foi traduzida pela API Cloud Translation.

Transforme seus dados: teste seu conhecimento

Para as seguintes perguntas, clique na seta para conferir sua resposta:

Você está pré-processando dados para um modelo de regressão. Quais transformações são obrigatórias? Marque todas as opções válidas.

Converter todos os atributos não numéricos em atributos numéricos.

correto. Essa é uma transformação obrigatória. É preciso converter as strings em alguma representação numérica, porque não é possível fazer multiplicações de matrizes em uma string.

Normalizar dados numéricos.

Normalizar dados numéricos pode ajudar, mas é uma transformação de qualidade opcional.

Veja o gráfico abaixo. Qual técnica de transformação de dados provavelmente seria a mais produtiva e por quê? Suponha que seu objetivo seja encontrar uma relação linear entre quartos por pessoa e preço da casa.

Pontuação Z

A pontuação Z é uma boa opção se os outliers não são extremos. No entanto, os outliers são extremos aqui.

Recorte

O recorte é uma boa opção aqui porque o conjunto de dados contém outliers extremos. Corrija outliers extremos antes de aplicar outras normalizações.

Escalonamento de registros

O escalonamento de registros é uma boa opção se os dados forem confirmados para a distribuição de leis de energia. No entanto, esses dados estão em conformidade com uma distribuição normal, e não com uma distribuição de legislação de energia.

Agrupamento por classes (agrupamento) com limites de quantil

O bucket quantil pode ser uma boa abordagem para dados distorcidos, mas nesse caso, esse desvio se deve, em parte, a alguns outliers extremos. Além disso, você quer que o modelo aprenda uma relação linear. Portanto, mantenha o valor de RoomPerPerson em vez de transformá-lo em categorias, que é o que o agrupamento por classes faz. Em vez disso, tente usar uma técnica de normalização.

Um gráfico mostrando a frequência relativa de diferentes RoomsPerPerson, em que
RoomsPerPerson é o número de quartos em uma residência dividido pelo número de pessoas
nessa residência. A maioria dos dados é distribuída entre 0 e 5, com um rastro de pontos de 5 a 55.

Veja o gráfico abaixo. Qual técnica de transformação de dados provavelmente seria a mais produtiva e por quê?

Pontuação Z

A pontuação Z é uma boa opção se os outliers não são tão extremos que você precisa de recorte. Esse não é o caso aqui. A forma como os dados são distorcidos é uma dica.

Recorte

O recorte é uma boa opção quando há outliers extremos. Esse gráfico, no entanto, está mostrando uma distribuição de lei de poder, e há outra técnica de normalização que é melhor para resolver isso.

Escalonamento de registros

O escalonamento de registros é uma boa opção aqui, porque os dados estão em conformidade com a distribuição da legislação de energia.

Agrupamento por classes (agrupamento) com limites de quantil

O agrupamento por classes de quantil pode ser uma boa abordagem para dados distorcidos. No entanto, você está procurando o modelo para aprender uma relação linear. Portanto, mantenha os dados numéricos e evite colocá-los em intervalos. Tente uma técnica de normalização.

Gráfico de barras com barras altamente concentradas na parte inferior. O primeiro
bar tem uma magnitude de 1.200, o segundo tem uma magnitude de 460, e o terceiro
tem uma magnitude de 300. Na 15a barra, a magnitude diminui para cerca de
30. Uma cauda muito longa continua por mais 90 barras, com a magnitude da
cauda longa nunca aumentando acima de 10.

Veja o gráfico abaixo. Um modelo linear faria uma boa previsão sobre a relação entre a proporção de compactação e a cidade-mpg? Em caso negativo, como transformar os dados para treinar melhor o modelo?

Sim, o modelo provavelmente encontraria uma relação linear e faria previsões muito precisas.

Embora o modelo encontre uma relação linear, ele não faz previsões muito precisas. Tente treinar esse conjunto de dados no Exercício de modelagem de dados para entender melhor os motivos.

Não. O modelo provavelmente seria mais preciso após o escalonamento.

É possível aplicar o escalonamento linear, mas a inclinação da relação entre proporção de compactação e cidade-mpg seria a mesma. O que ajudaria mais é ver duas inclinações separadas, uma para o cluster de pontos na proporção de compactação mais baixa e outra para a mais alta.

Não. Parece que há dois comportamentos diferentes acontecendo. Definir um limite no meio e usar um recurso em buckets pode ajudar você a entender melhor o que está acontecendo nessas duas áreas.

correto. É importante saber por que e como você está definindo os limites. No exercício de modelagem de dados, você aprenderá mais sobre como essa abordagem pode ajudar a criar um modelo melhor.

Uma equipe colega está informando sobre o progresso que ela fez no projeto de ML. Eles calcularam um vocabulário e treinaram um modelo off-line. No entanto, eles querem evitar problemas de inatividade, então estão prestes a treinar um modelo diferente on-line. O que acontece depois?

O modelo permanece atualizado conforme novos dados chegam. A outra equipe precisará monitorar continuamente os dados de entrada.

Evitar a inatividade dos modelos é o principal benefício do treinamento dinâmico, mas usar um vocabulário com um modelo treinado off-line vai causar problemas.

Eles podem descobrir que os índices que estão usando não correspondem ao vocabulário.

correto. Alerte seus colegas sobre os perigos do treinamento/disponibilização e recomende que eles façam o curso do Google sobre Preparação de dados e engenharia de atributos para ML para saber mais.

Como transformar dados categóricos

Exercício de programação: modelagem de dados