Como criar: principais terminologias de ML

O que é machine learning (supervisionado)? Em resumo, o seguinte é:

  • Os sistemas de ML aprendem a combinar entradas para produzir previsões úteis sobre dados nunca vistos antes.

Vamos explorar a terminologia fundamental de machine learning.

Identificadores

Um marcador é o que estamos prevendo, a variável y na regressão linear simples. O rótulo pode ser o preço futuro de trigo, o tipo de animal mostrado em uma imagem, o significado de um clipe de áudio ou qualquer outro item.

Recursos

Um recurso é uma variável de entrada: a variável x na regressão linear simples. Um projeto de machine learning simples pode usar um único recurso, enquanto um projeto de machine learning mais sofisticado pode usar milhões de atributos, especificados como:

\[\\{x_1, x_2, ... x_N\\}\]

No exemplo do detector de spam, os recursos podem incluir o seguinte:

  • palavras no texto do e-mail
  • endereço do remetente
  • hora do dia em que o e-mail foi enviado
  • o e-mail contém a frase "um truque estranho".

Exemplos

Um exemplo é uma instância específica de dados, x. Colocamos x em negrito para indicar que é um vetor. Dividimos os exemplos em duas categorias:

  • exemplos rotulados
  • exemplos sem rótulos

Um exemplo rotulado inclui os recursos e o rótulo. Ou seja:

  labeled examples: {features, label}: (x, y)

Use exemplos rotulados para treinar o modelo. Em nosso exemplo do detector de spam, os exemplos rotulados seriam e-mails individuais que os usuários marcaram explicitamente como "quot;spam" ou "não é spam".

Por exemplo, a tabela a seguir mostra cinco exemplos rotulados de um conjunto de dados que contém informações sobre preços de imóveis na Califórnia:

habitMedianAge
(recurso)
totalRooms
(recurso)
totalBedrooms
(recurso)
medianHouseValue
(rótulo)
15 5612 1283 66900
19 7650 1901 80100
17 720 174 85700
14 1501 337 73400
20 1454 326 65500

Um exemplo não rotulado contém recursos, mas não o rótulo. Ou seja:

  unlabeled examples: {features, ?}: (x, ?)

Veja a seguir três exemplos não rotulados do mesmo conjunto de dados de imóveis, que excluem medianHouseValue:

habitMedianAge
(recurso)
totalRooms
(recurso)
totalBedrooms
(recurso)
42 1686 361
34 1226 180
33 1077 271

Depois de treinarmos nosso modelo com exemplos rotulados, usamos esse modelo para prever o rótulo em exemplos não rotulados. No detector de spam, os exemplos não rotulados são novos e-mails que ainda não foram identificados por humanos.

Modelos

Um modelo define a relação entre os atributos e o rótulo. Por exemplo, um modelo de detecção de spam pode associar determinados recursos a "quot;spam"". Vamos destacar duas fases da vida de um modelo:

  • Treinamento significa criar ou aprender o modelo. Ou seja, você mostra exemplos do modelo rotulado e permite que o modelo aprenda gradativamente as relações entre os atributos e o rótulo.

  • Inferência significa aplicar o modelo treinado a exemplos não rotulados. Ou seja, use o modelo treinado para fazer previsões úteis (y'). Por exemplo, durante a inferência, é possível prever medianHouseValue para novos exemplos não rotulados.

regressão x classificação

Um modelo de regressão prevê valores contínuos. Por exemplo, os modelos de regressão fazem previsões que respondem a perguntas como as seguintes:

  • Qual é o valor de uma casa na Califórnia?

  • Qual é a probabilidade de um usuário clicar nesse anúncio?

Um modelo de classificação prevê valores discretos. Por exemplo, os modelos de classificação fazem previsões que respondem a perguntas como as seguintes:

  • Uma determinada mensagem de e-mail é spam ou não é spam?

  • Esta é uma imagem de um cachorro, um gato ou um hamster?