Glossário de machine learning: florestas de decisão

Esta página contém termos do glossário da Decision Forests. Para todos os termos do glossário, clique aqui.

A

amostragem de atributos

#df

Uma tática para treinar uma floresta de decisão em que cada árvore de decisão considera apenas um subconjunto aleatório de atributos possíveis ao aprender a condição. Geralmente, um subconjunto diferente de recursos é amostrado para cada . Por outro lado, ao treinar uma árvore de decisão sem amostragem de atributos, todos os recursos possíveis são considerados para cada nó.

condição alinhada ao eixo

#df

Em uma árvore de decisão, uma condição que envolve apenas um único recurso. Por exemplo, se a área for um recurso, a seguinte condição será alinhada ao eixo:

area > 200

Contraste com a condição oblíqua.

B

ensaboando

#df

Um método para treinar um conjunto em que cada modelo (em inglês) é treinado em um subconjunto aleatório de exemplos de treinamento amostrados com substituição. Por exemplo, uma floresta aleatória é uma coleção de árvores de decisão treinadas com ensaio.

O termo bagging é abreviação para bootstrap aggregating.

condição binária

#df

Em uma árvore de decisão, uma condição que tem apenas dois resultados possíveis, normalmente sim ou não. Por exemplo, a seguinte é uma condição binária:

temperature >= 100

Contraste com a condição não binária.

C

condição

#df

Em uma árvore de decisão, qualquer que avalia uma expressão. Por exemplo, a parte a seguir de uma árvore de decisão contém duas condições:

Uma árvore de decisão composta de duas condições: (x > 0) e (y > 0).

Uma condição também é chamada de divisão ou teste.

Condição de contraste com folha.

Consulte também:

D

decisão florestal

#df

Um modelo criado a partir de várias árvores de decisão. Uma floresta de decisão faz uma previsão agregando as previsões das árvores de decisão. Os tipos mais conhecidos de florestas de decisão incluem florestas aleatórias e árvores aprimoradas por gradiente.

árvore de decisão

#df

Um modelo de aprendizado supervisionado composto por condições e folhas organizadas hierarquicamente. Por exemplo, veja a seguir uma árvore de decisão:

Uma árvore de decisão composta por quatro condições organizadas hierarquicamente, o que leva a cinco folhas.

E

entropia

#df

Na teoria da informação, uma descrição da imprevisibilidade da distribuição de probabilidade. Como alternativa, a entropia também é definida como a quantidade de informações que cada exemplo contém. Uma distribuição tem a maior entropia possível quando todos os valores de uma variável aleatória têm a mesma probabilidade.

A entropia de um conjunto com dois valores possíveis "0" e "1" (por exemplo, os rótulos em um problema de classificação binária) tem a seguinte fórmula:

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

onde:

  • H é a entropia.
  • p é a fração de exemplos "1".
  • q é a fração de exemplos "0". Observe que q = (1 - p)
  • log geralmente é 2. Neste caso, a unidade de entropia é um pouco.

Por exemplo, suponha que:

  • 100 exemplos contêm o valor "1"
  • 300 exemplos contêm o valor "0"

Portanto, o valor de entropia é:

  • p = 0,25
  • q = 0,75
  • H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 bits por exemplo

Um conjunto perfeitamente equilibrado (por exemplo, 200 "0" e 200 "1") tem uma entropia de 1 bit por exemplo. À medida que um conjunto se torna desbalanceado, a entropia se move em direção a 0,0.

Em árvores de decisão, a entropia ajuda a formular o ganho de informações para ajudar o divisor a selecionar as condições durante o crescimento de uma árvore de decisão de classificação.

Comparar entropia com:

A entropia é geralmente chamada de entropia de Shannon.

F

importâncias dos atributos

#df

Sinônimo de importâncias variáveis.

G

impureza do gini

#df

Uma métrica semelhante a entropia. Os divisores usam valores derivados da impureza do gini ou entropia para compor condições para classificar árvores de decisão. O ganho de informações é derivado da entropia. Não há um termo equivalente universal para a métrica derivada da impureza do gini. No entanto, essa métrica sem nome é tão importante quanto o ganho de informações.

A impureza do Gini também é chamada de índice do Gini, ou simplesmente gini.

otimização de gradiente

#df

Um algoritmo de treinamento em que modelos fracos são treinados para melhorar iterativamente a qualidade (redução da perda) de um modelo forte. Por exemplo, um modelo fraco pode ser linear ou pequeno. O modelo forte se torna a soma de todos os modelos fracos treinados anteriormente.

Na forma mais simples de otimização de gradiente, a cada iteração um modelo fraco é treinado para prever o gradiente de perda do modelo forte. Em seguida, a saída do modelo forte é atualizada subtraindo o gradiente previsto, semelhante a gradiente descendente.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

onde:

  • $F_{0}$ é o modelo forte inicial.
  • $F_{i+1}$ é o próximo modelo forte.
  • $F_{i}$ é o modelo forte atual.
  • $\xi$ é um valor entre 0,0 e 1,0 chamado redução, equivalente à taxa de aprendizado em gradiente descendente.
  • $f_{i}$ é o modelo fraco treinado para prever o gradiente de perda de $F_{i}$.

Variações modernas de otimização de gradiente também incluem a segunda derivada (Hessian) da perda em sua computação.

As árvores de decisão costumam ser usadas como modelos fracos no reforço de gradiente. Consulte árvores otimizadas por gradiente (decisão).

gradiente otimizado (decisão) árvores (GBT)

#df

Um tipo de floresta de decisão em que:

I

caminho de inferência

#df

Em uma árvore de decisão, durante a inferência, a rota que um determinado exemplo leva da raiz para outras condições, terminando com uma folha. Por exemplo, na árvore de decisão a seguir, as setas mais grossas mostram o caminho de inferência de um exemplo com os seguintes valores de recurso:

  • x = 7
  • y = 12
  • z = -3

O caminho de inferência na ilustração a seguir passa por três condições antes de chegar à folha (Zeta).

Uma árvore de decisão composta de quatro condições e cinco folhas.
          A condição raiz é (x > 0). Como a resposta é "Sim", o caminho de inferência vai da raiz até a próxima condição (y > 0).
          Como a resposta é "Sim", o caminho de inferência passa para a próxima condição (z > 0). Como a resposta é "Não", o caminho de inferência percorre o nó do terminal, que é a folha (Zeta).

As três setas grossas mostram o caminho de inferência.

ganho de informações

#df

Em florestas de decisão, a diferença entre a entropia de um nó e a soma ponderada (por número de exemplos) da entropia de seus nós filhos. A entropia de um nó é a entropia dos exemplos desse nó.

Por exemplo, considere os seguintes valores de entropia:

  • entropia do nó pai = 0,6
  • entropia de um nó filho com 16 exemplos relevantes = 0,2
  • entropia de outro nó filho com 24 exemplos relevantes = 0,1

Portanto, 40% dos exemplos estão em um nó filho e 60% estão no outro nó filho. Assim:

  • soma de entropia ponderada dos nós filhos = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Assim, o ganho de informações é:

  • ganho de informações = entropia do nó pai - soma de entropia ponderada dos nós filhos
  • ganho de informações = 0,6 - 0,14 = 0,46

A maioria dos divisores tenta criar condições que maximizam o ganho de informações.

condição no conjunto

#df

Em uma árvore de decisão, uma condição que testa a presença de um item em um conjunto de itens. Por exemplo, a seguinte condição é definida:

  house-style in [tudor, colonial, cape]

Durante a inferência, se o valor do recurso no estilo de casa for tudor, colonial ou cape, essa condição será avaliada como "Sim". Se o valor do recurso de estilo interno for diferente (por exemplo, ranch), essa condição será avaliada como "Não".

As condições definidas geralmente levam a árvores de decisão mais eficientes do que as condições que testam recursos codificados one-hot.

L

folha

#df

Qualquer endpoint em uma árvore de decisão. Ao contrário de uma condição, uma folha não executa um teste. Em vez disso, uma folha é uma possível previsão. Uma folha também é o terminal de um caminho de inferência.

Por exemplo, a árvore de decisão a seguir contém três folhas:

Uma árvore de decisão com duas condições que levam a três folhas.

N

nó (árvore de decisão)

#df

Em uma árvore de decisão, qualquer condição ou folha.

Uma árvore de decisão com duas condições e três folhas.

condição não binária

#df

Uma condição que contém mais de dois resultados possíveis. Por exemplo, a seguinte condição não binária contém três resultados possíveis:

Uma condição (number_of_legs = ?) que leva a três resultados possíveis. Um resultado (number_of_legs = 8) leva a uma folha chamada spider. Um segundo resultado (number_of_legs = 4) leva a uma folha chamada cachorro. Um terceiro resultado (number_of_legs = 2) leva a uma folha chamada pinguins.

O

condição oblíqua

#df

Em uma árvore de decisão, uma condição que envolve mais de um recurso. Por exemplo, se altura e largura forem recursos, o seguinte será uma condição oblíqua:

  height > width

Contraste com a condição alinhada ao eixo.

avaliação fora da bolsa (avaliação OOB)

#df

Um mecanismo para avaliar a qualidade de uma floresta de decisão testando cada árvore de decisão em comparação com os exemplos não usados durante o treinamento dessa árvore de decisão. Por exemplo, no diagrama a seguir, observe que o sistema treina cada árvore de decisão em cerca de dois terços dos exemplos e, em seguida, avalia em relação ao restante de um terço dos exemplos.

Uma floresta de decisão composta por três árvores de decisão.
          Uma árvore de decisão treina dois terços dos exemplos e, em seguida, usa o terço restante para avaliação de OOB.
          Uma segunda árvore de decisão treina em dois terços
          diferentes dos exemplos da árvore de decisão anterior e
          usa um terço diferente para a avaliação de OOB que a
          árvore de decisão anterior.

A avaliação fora de atividade é uma aproximação computacional e conservadora do mecanismo de validação cruzada. Na validação cruzada, um modelo é treinado para cada rodada de validação cruzada (por exemplo, 10 modelos são treinados em uma validação cruzada de 10 vezes). Com a avaliação de OOB, um único modelo é treinado. Como a baking retém alguns dados de cada árvore durante o treinamento, a avaliação de OOB pode usar esses dados para aproximar a validação cruzada.

P

importâncias da variável de permutação

#df

Um tipo de importância variável que avalia o aumento no erro de previsão de um modelo depois de permutar os valores do atributo. A importância da variável de permutação é uma métrica independente de modelo.

Direita

floresta aleatória

#df

Um conjunto de árvores de decisão em que cada árvore de decisão é treinada com um ruído aleatório específico, como ensaboamento.

As florestas aleatórias são um tipo de floresta de decisão.

raiz

#df

O inicial (a primeira condição) em uma árvore de decisão. Por convenção, os diagramas colocam a raiz no topo da árvore de decisões. Exemplo:

Uma árvore de decisão com duas condições e três folhas. A condição inicial (x > 2) é a raiz.

S

amostragem com substituição

#df

Um método de selecionar itens de um conjunto de itens candidatos em que o mesmo item pode ser escolhido várias vezes. A frase "com substituição" significa que, após cada seleção, o item selecionado é retornado ao pool de itens candidatos. O método inverso, amostragem sem substituição, significa que um item candidato só pode ser escolhido uma vez.

Por exemplo, considere o seguinte conjunto de frutas:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Suponha que o sistema escolha fig aleatoriamente como o primeiro item. Se você estiver usando a amostragem com substituição, o sistema selecionará o segundo item do seguinte conjunto:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Sim, é o mesmo conjunto de antes, então o sistema pode escolher fig novamente.

Se você estiver usando a amostragem sem substituição, depois de escolhida, a amostra não poderá ser escolhida novamente. Por exemplo, se o sistema selecionar aleatoriamente fig como a primeira amostra, não será possível escolher fig novamente. Portanto, o sistema escolhe a segunda amostra do seguinte conjunto (reduzido):

fruit = {kiwi, apple, pear, cherry, lime, mango}

de redução

#df

Um hiperparâmetro no aumento de gradiente que controla o overfitting. A redução no aumento de gradiente é análoga à taxa de aprendizado em gradiente descendente. Shrinkage é um valor decimal entre 0,0 e 1,0. Um valor de redução mais baixo reduz o overfitting mais do que um valor de redução maior.

dividir

#df

Em uma árvore de decisão, outro nome para uma condição.

divisor

#df

Ao treinar uma árvore de decisão, a rotina e o algoritmo responsáveis por encontrar a melhor condição em cada .

T

teste

#df

Em uma árvore de decisão, outro nome para uma condição.

limite (para árvores de decisão)

#df

Em uma condição alinhada ao eixo, o valor que umrecurso está comparando. Por exemplo, 75 é o valor do limite na seguinte condição:

grade >= 75

V

importâncias variáveis

#df

Um conjunto de pontuações que indica a importância relativa de cada atributo para o modelo.

Por exemplo, considere uma árvore de decisão que estima os preços das casas. Suponha que essa árvore de decisão use três atributos: tamanho, idade e estilo. Se um conjunto de importâncias variáveis para os três atributos for calculado como {size=5.8, age=2.5, style=4.7}, o tamanho será mais importante para a árvore de decisão do que idade ou estilo.

Existem diferentes métricas de importância variável, que podem informar os especialistas em ML sobre diferentes aspectos de modelos.

Qua

sabedoria da multidão

#df

A ideia de calcular a média de opiniões ou estimativas de um grande grupo de pessoas ("a multidão") costuma produzir resultados surpreendentemente bons. Por exemplo, imagine um jogo em que as pessoas pensam no número de jujubas em um pote grande. Embora a maioria dos palpites individuais seja imprecisa, a média de todos os palpites foi surpreendentemente próxima do número real de jujubas no pote.

Ensembles são um software análogo à sabedoria da multidão. Mesmo que os modelos individuais façam previsões muito imprecisas, o cálculo da média de muitos modelos normalmente gera previsões muito surpreendentes. Por exemplo, mesmo que uma árvore de decisão individual possa fazer previsões ruins, uma floresta de decisão geralmente faz previsões muito boas.