Classificação

Vamos começar com uma revisão rápida de uma ideia importante do Curso intensivo de machine learning. Veja a distribuição no gráfico abaixo.

Um lote de casas por latitude. O gráfico é altamente irregular, contendo baterias ao redor da latitude 36 e picos enormes ao redor das latitudes 34 e 38. Figura 1: preços das casas em comparação com a latitude.

 

Para a seguinte pergunta, clique na seta desejada para verificar sua resposta:

Considere a Figura 1. Se você acha que a latitude pode ser um bom preditor de valores de casas, deixe a latitude como um valor de ponto flutuante? Por que ou por que não? Suponha que este seja um modelo linear.
Sim: se a latitude for um valor de ponto flutuante no conjunto de dados, você não deve alterá-lo.
Se você alimentar esses valores de ponto flutuante na sua rede, ele tentará aprender uma relação linear entre o recurso e o rótulo. Mas uma relação linear não tem probabilidade de latitude. Um aumento de um grau na latitude (por exemplo, de 34 a 35 graus) pode gerar uma certa mudança na saída do modelo. Por exemplo, um aumento de um grau diferente (por exemplo, de 35 a 36 graus) pode gerar uma quantidade diferente de mudança. É um comportamento não linear.
Não. Não há relação linear entre a latitude e os valores das casas.
Você suspeita que as latitudes e os valores de casas individuais estão relacionados, mas a relação não é linear.

Em casos como o exemplo de latitude, é necessário dividir as latitudes em buckets para aprender algo diferente sobre o valor de habitação para cada bucket. Essa transformação de atributos numéricos em atributos categóricos usando um conjunto de limites é chamada de agrupamento por classes (ou agrupamento por classes). Neste exemplo de bucket, os limites são igualmente espaçados.

O mesmo gráfico de latitude x preços de imóveis que a figura anterior. No entanto, desta vez, o gráfico é dividido em 11 "bins" entre números de latitudes
inteiros.

 

Figura 2: preços internos x latitude, agora divididos em intervalos.

Agrupamento de quantis

Vamos analisar nosso conjunto de dados de preços de carros com os buckets adicionados. Com um recurso por bucket, o modelo usa a mesma capacidade para um único exemplo no intervalo >45000 e para todos os exemplos no intervalo de 5.000 a 10.000. Isso parece desperdiçado. Como poderíamos melhorar essa situação?

Um gráfico de preço do carro por número de carros vendidos por esse preço. O gráfico é dividido
em 10 buckets de tamanho igual com um intervalo de 5.000 (preço do carro). Os três primeiros buckets contêm muitos exemplos, mas os sete últimos têm muito poucos exemplos.

Figura 3: número de carros vendidos a preços diferentes.

 

O problema é que buckets igualmente espaçados não capturam bem essa distribuição. A solução é criar buckets com o mesmo número de pontos. Essa técnica é chamada de agrupamento de quantis. Por exemplo, a Figura a seguir divide os preços dos carros em intervalos de quantis. Para ter o mesmo número de exemplos em cada bucket, alguns dos buckets abrangem uma faixa de preço estrita, enquanto outros abrangem uma faixa de preço muito ampla.

Igual à Figura 3, exceto com buckets de quantil. Ou seja, os buckets agora têm tamanhos diferentes. O menor bucket tem um intervalo de aproximadamente
1.000 dólares, e o maior tem um intervalo de cerca de 25.000 dólares.
Agora, o número de carros em cada bucket é quase o
mesmo.

Figura 4: o bucket quantil dá a cada bucket o mesmo número de carros.

Resumo dos buckets

Se você optar por agrupar os atributos numéricos em buckets, seja claro sobre como define os limites e que tipo de bucket está sendo aplicado:

  • Buckets com limites igualmente espaçados: os limites são fixos e abrangem o mesmo intervalo (por exemplo, de 0 a 4 graus, 5 a 9 graus e 10 a 14 graus, ou de US $5.000 a US$ 9.999, US$ 10.000 a US$ 14.999 e US $15.000 a US$ 19.999). Alguns buckets podem conter muitos pontos, enquanto outros podem ter poucos ou nenhum.
  • Buckets com limites de quantil: cada bucket tem o mesmo número de pontos. Os limites não são fixos e podem abranger um intervalo restrito ou amplo de valores.