Dados apropriados para florestas de decisão

As florestas de decisão são mais eficazes quando há um conjunto de dados tabular (dados que você pode representar em uma planilha, arquivo csv ou tabela de banco de dados). Os dados em tabelas são um dos formatos mais comuns, e as florestas de decisões são a solução certa para fazer a modelagem.

Tabela 1. Um exemplo de conjunto de dados tabular.

Número de trechos Número de olhos Peso (lb) Espécie (rótulo)
2 2 12 Pinguim
8 6 0,1 Aranha
4 2 44 Cachorro

Ao contrário das redes neurais, as florestas de decisão consomem nativamente dados tabulares de modelos. Ao desenvolver florestas de decisão, não é necessário fazer tarefas como as seguintes:

  • Realizar o pré-processamento, como a normalização de atributos ou a codificação one-hot.
  • Faça a computação (por exemplo, substituindo um valor ausente por -1).

No entanto, as florestas de decisão não são adequadas para consumir diretamente dados não tabulares (também chamados de dados não estruturados), como imagens ou texto. Sim, há soluções alternativas para essa limitação, mas as redes neurais geralmente processam melhor os dados não estruturados.

Performance

As florestas de decisão são eficientes em amostras. Ou seja, as florestas de decisão são adequadas para treinamento em conjuntos de dados pequenos ou em conjuntos de dados em que a proporção entre o número de atributos e o número de exemplos é alta (possivelmente mais de 1). As florestas de decisão são eficientes em todos os casos, assim como todos os modelos de machine learning, mas elas têm um desempenho melhor quando há muitos dados disponíveis.

As florestas de decisão costumam ser mais rápidas do que as redes neurais comparáveis. Por exemplo, uma floresta de decisão de tamanho médio executa a inferência em alguns microssegundos em uma CPU moderna.