Teste seu conhecimento

As perguntas a seguir ajudam a solidificar sua compreensão dos principais conceitos de ML.

Poder preditivo

Os modelos de ML supervisionados são treinados usando conjuntos de dados com exemplos rotulados. O modelo aprende a prever o rótulo com base nos atributos. No entanto, nem todos os atributos de um conjunto de dados têm poder preditivo. Em alguns casos, apenas alguns recursos atuam como preditores do rótulo. No conjunto de dados abaixo, use preço como o rótulo e as colunas restantes como os atributos.

Um exemplo rotulado de atributos de automóveis.

Quais são os três atributos que você acha que são os melhores indicadores para o preço de um carro?
Make_model, ano, milhas.
A marca/modelo, o ano e a quilometragem de um carro provavelmente estão entre os melhores indicadores para esse preço.
Cor, altura, make_model.
A altura e a cor de um carro não são bons indicadores do preço dele.
Milhas, caixa de engrenagem, make_model.
A caixa de câmbio não é um bom indicador do preço.
Tire_size, wheel_base, ano.
O tamanho do pneu e a base das rodas não são bons indicadores do preço de um carro.

Aprendizado supervisionado e não supervisionado

Com base no problema, você vai usar uma abordagem supervisionada ou não. Por exemplo, se você souber de antemão o valor ou a categoria que quer prever, use o aprendizado supervisionado. No entanto, se você quiser saber se o conjunto de dados contém segmentações ou agrupamentos de exemplos relacionados, use o aprendizado não supervisionado.

Suponha que você tivesse um conjunto de dados de usuários de um site de compras on-line com as seguintes colunas:

Imagem de uma linha de atributos do cliente.

Se você quisesse entender os tipos de usuário que acessam o site, usaria o aprendizado supervisionado ou não?
e não supervisionado.
Como queremos que o modelo agrupe grupos de clientes relacionados, usaríamos o aprendizado não supervisionado. Depois que o modelo agrupou os usuários, criaríamos nossos próprios nomes para cada cluster, por exemplo, "candidatos a descontos", "caçadores de ofertas", "surfistas", "leais" e "viajantes".
Aprendizado supervisionado porque estou tentando prever a que classe um usuário pertence.
No aprendizado supervisionado, o conjunto de dados precisa conter o rótulo que você está tentando prever. No conjunto de dados, não há rótulo que se refira a uma categoria de usuário.

Suponha que você tenha um conjunto de dados de uso de energia para casas com as seguintes colunas:

Imagem de uma linha de atributos da casa.

Que tipo de ML você usaria para prever os quilowatts-hora usados por ano para uma casa recém-construída?
Aprendizado supervisionado.
O aprendizado supervisionado treina com exemplos rotulados. Nesse conjunto de dados, "quilowatt-hora usado por ano" seria o rótulo, porque é o valor que você quer que o modelo preveja. Os atributos seriam "metro quadrado", "local" e "ano de construção".
e não supervisionado.
O aprendizado não supervisionado usa exemplos sem rótulos. Nesse exemplo, "quilowatt-hora usado por ano" seria o rótulo, porque esse é o valor que você quer que o modelo preveja.

Suponha que você tenha um conjunto de dados de voos com as seguintes colunas:

Uma imagem de uma linha de dados de voos.

Se você quisesse prever o custo de uma passagem de ônibus, usaria regressão ou classificação?
Regressão
A saída de um modelo de regressão é um valor numérico.
Classificação
A saída de um modelo de classificação é um valor separado, normalmente uma palavra. Nesse caso, o custo da passagem de ônibus é um valor numérico.
Com base no conjunto de dados, é possível treinar um modelo de classificação para classificar o custo de uma passagem de ônibus como "alto", "médio" ou "baixo"?
Sim, mas primeiro precisaríamos converter os valores numéricos na coluna coach_ticket_cost em valores categóricos.
É possível criar um modelo de classificação com base no conjunto de dados. Você faria algo assim:
  1. Encontre o custo médio de uma passagem do aeroporto de partida para o aeroporto de destino.
  2. Determine os limites que constituem "alto", "na média" e "baixo".
  3. Compare o custo previsto com os limites e gere saída para a categoria em que o valor se enquadra.
Não é possível criar um modelo de classificação. Os valores coach_ticket_cost são numéricos e não categóricos.
Com um pouco de trabalho, você poderia criar um modelo de classificação.
Não. Os modelos de classificação só preveem duas categorias, como spam ou not_spam. Esse modelo precisaria prever três categorias.
Os modelos de classificação podem prever várias categorias. Eles são chamados de modelos de classificação multiclasse.

Treinamento e avaliação

Depois de treinarmos um modelo, nós o avaliamos usando um conjunto de dados com exemplos rotulados e comparamos o valor previsto do modelo com o valor real do rótulo.

Selecione as duas melhores respostas para a pergunta.

Se as previsões do modelo estão muito distantes, o que você pode fazer para aprimorá-las?
Treine o modelo novamente, mas use apenas os atributos que você acredita terem o poder preditivo mais forte para o rótulo.
Treinar novamente o modelo com menos atributos, mas com mais poder de previsão, pode produzir um modelo que faz previsões melhores.
Não é possível corrigir um modelo com previsões distantes.
É possível corrigir um modelo com previsões desativadas. A maioria dos modelos requer várias rodadas de treinamento até fazer previsões úteis.
Treinar novamente o modelo usando um conjunto de dados maior e mais diversificado
Os modelos treinados com conjuntos de dados com mais exemplos e uma faixa maior de valores podem produzir previsões melhores porque o modelo tem uma solução melhor generalizada para a relação entre os atributos e o rótulo.
Tente uma abordagem de treinamento diferente. Por exemplo, se você usou uma abordagem supervisionada, tente uma não supervisionada.
Uma abordagem de treinamento diferente não produziria previsões melhores.

Agora está tudo pronto para você avançar na sua jornada de ML:

  • Guia People + AI. Se você está procurando um conjunto de métodos, práticas recomendadas e exemplos apresentados por Googlers, especialistas do setor e pesquisas acadêmicas para usar ML.

  • Definição de problemas. Se você quer uma abordagem testada em campo para criar modelos de ML e evitar armadilhas comuns.

  • Curso intensivo de machine learning Se você quiser fazer uma abordagem detalhada e prática para aprender mais sobre ML.