Vamos começar com uma revisão rápida de uma ideia importante do Curso intensivo de machine learning. Veja a distribuição no gráfico abaixo.
Figura 1: preços das casas em comparação com a latitude.
Para a seguinte pergunta, clique na seta desejada para verificar sua resposta:
Em casos como o exemplo de latitude, é necessário dividir as latitudes em buckets para aprender algo diferente sobre o valor de habitação para cada bucket. Essa transformação de atributos numéricos em atributos categóricos usando um conjunto de limites é chamada de agrupamento por classes (ou agrupamento por classes). Neste exemplo de bucket, os limites são igualmente espaçados.
Figura 2: preços internos x latitude, agora divididos em intervalos.
Agrupamento de quantis
Vamos analisar nosso conjunto de dados de preços de carros com os buckets adicionados. Com um recurso por bucket, o modelo usa a mesma capacidade para um único exemplo no intervalo >45000 e para todos os exemplos no intervalo de 5.000 a 10.000. Isso parece desperdiçado. Como poderíamos melhorar essa situação?
Figura 3: número de carros vendidos a preços diferentes.
O problema é que buckets igualmente espaçados não capturam bem essa distribuição. A solução é criar buckets com o mesmo número de pontos. Essa técnica é chamada de agrupamento de quantis. Por exemplo, a Figura a seguir divide os preços dos carros em intervalos de quantis. Para ter o mesmo número de exemplos em cada bucket, alguns dos buckets abrangem uma faixa de preço estrita, enquanto outros abrangem uma faixa de preço muito ampla.
Figura 4: o bucket quantil dá a cada bucket o mesmo número de carros.
Resumo dos buckets
Se você optar por agrupar os atributos numéricos em buckets, seja claro sobre como define os limites e que tipo de bucket está sendo aplicado:
- Buckets com limites igualmente espaçados: os limites são fixos e abrangem o mesmo intervalo (por exemplo, de 0 a 4 graus, 5 a 9 graus e 10 a 14 graus, ou de US $5.000 a US$ 9.999, US$ 10.000 a US$ 14.999 e US $15.000 a US$ 19.999). Alguns buckets podem conter muitos pontos, enquanto outros podem ter poucos ou nenhum.
- Buckets com limites de quantil: cada bucket tem o mesmo número de pontos. Os limites não são fixos e podem abranger um intervalo restrito ou amplo de valores.