Esta página foi traduzida pela API Cloud Translation.

Glossário de machine learning: florestas de decisão

Esta página contém termos do glossário de florestas de decisão. Para ver todos os termos do glossário, clique aqui.

A

amostragem de atributos

#df

Uma tática para treinar uma floresta de decisão em que cada árvore de decisão considera apenas um subconjunto aleatório de atributos possíveis ao aprender a condição. Geralmente, um subconjunto diferente de atributos é amostrado para cada nó. Por outro lado, ao treinar uma árvore de decisão sem amostragem de atributos, todos os recursos possíveis são considerados para cada nó.

condição alinhada ao eixo

#df

Em uma árvore de decisão, uma condição que envolve apenas um único atributo. Por exemplo, se a área for um atributo, esta será uma condição alinhada ao eixo:

area > 200

Contraste com condição oblíqua.

B

enrolando

#df

Um método para treinar um ensemble em que cada modelo constituinte treina em um subconjunto aleatório de exemplos de treinamento amostrados com substituição. Por exemplo, uma floresta aleatória é uma coleção de árvores de decisão treinadas com bagging.

O termo bagging é a abreviação de bootstrap aggregating.

condição binária

#df

Em uma árvore de decisão, uma condição que tem apenas dois resultados possíveis, normalmente yes ou no. Por exemplo, esta é uma condição binária:

temperature >= 100

Contraste com condição não binária.

C

condição

#df

Em uma árvore de decisão, qualquer nó que avalie uma expressão. Por exemplo, a parte a seguir de uma árvore de decisão contém duas condições:

Uma árvore de decisão que consiste em duas condições: (x > 0) e (y > 0).

Uma condição também é chamada de divisão ou teste.

Condição de contraste com leaf.

Consulte também:

condição binária
condição não binária.
condição alinhada ao eixo
condição oblíqua

D

floresta de decisão

#df

Um modelo criado a partir de várias árvores de decisão. Uma floresta de decisão faz uma previsão agregando as previsões das respectivas árvores de decisão. Os tipos conhecidos de florestas de decisão incluem florestas aleatórias e árvores com aumento de gradiente.

árvore de decisão

#df

Um modelo de aprendizado supervisionado composto por um conjunto de conditions e conditions organizadas hierarquicamente. Por exemplo, veja a seguir uma árvore de decisão:

Uma árvore de decisão composta por quatro condições organizadas hierarquicamente, que resultam em cinco folhas.

E

entropia

#df

Na teoria da informação, uma descrição de quão imprevisível é uma distribuição de probabilidade. Como alternativa, a entropia também é definida como a quantidade de informações que cada exemplo contém (links em inglês). Uma distribuição tem a maior entropia possível quando todos os valores de uma variável aleatória são igualmente prováveis.

A entropia de um conjunto com dois valores possíveis "0" e "1" (por exemplo, os rótulos em um problema de classificação binária) tem a seguinte fórmula:

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

onde:

H é a entropia.
p é a fração dos exemplos "1".
q é a fração dos exemplos "0". Observe que q = (1 - p)
log geralmente é ₂. Nesse caso, a unidade de entropia é um pouco.

Por exemplo, suponha que:

100 exemplos contêm o valor "1"
300 exemplos contêm o valor "0"

Portanto, o valor da entropia é:

p = 0,25
q = 0,75
H = (-0,25) log₂(0,25) - (0,75) log₂(0,75) = 0,81 bits por exemplo

Um conjunto perfeitamente equilibrado (por exemplo, 200 "0" e 200 "1") teria uma entropia de 1,0 bit por exemplo. À medida que um conjunto fica mais desequilibrado, a entropia dele se move em direção a 0,0.

Em árvores de decisão, a entropia ajuda a formular o ganho de informações para ajudar o divisor a selecionar as condições durante o crescimento de uma árvore de decisão de classificação.

Comparar entropia com:

impureza gini
Função de perda entropia cruzada

A entropia muitas vezes é chamada de entropia de Shannon.

F

importâncias de atributos

#df

Sinônimo de importâncias de variáveis.

G

impureza de gini

#df

Uma métrica semelhante à entropia. Divisores usam valores derivados da impureza gini ou da entropia para compor condições para as árvores de decisão de classificação. O ganho de informações é derivado da entropia. Não existe um termo equivalente universalmente aceito para a métrica derivada da impureza gini. No entanto, essa métrica sem nome é tão importante quanto o ganho de informações.

A impureza de Gini também é chamada de índice de gini, ou simplesmente gini.

Clique no ícone para ver detalhes matemáticos sobre a impureza do gini.

A impureza de Gini é a probabilidade de classificar incorretamente um novo dado extraído da mesma distribuição. A impureza gini de um conjunto com dois valores possíveis "0" e "1" (por exemplo, os rótulos em um problema de classificação binária) é calculada a partir da seguinte fórmula:

I = 1 - (p² + q²) = 1 - (p² + (1-p)²)

onde:

I é a impureza gini.
p é a fração dos exemplos "1".
q é a fração dos exemplos "0". Observe que q = 1-p

Por exemplo, considere o conjunto de dados a seguir:

100 rótulos (0,25 do conjunto de dados) contêm o valor "1"
300 rótulos (0,75 do conjunto de dados) contêm o valor "0"

Portanto, a impureza gini é:

p = 0,25
q = 0,75
I = 1 - (0,25² + 0,75²) = 0,375

Consequentemente, um rótulo aleatório do mesmo conjunto de dados teria 37,5% de chance de ser classificado incorretamente e 62,5% de ser classificado corretamente.

Um rótulo perfeitamente equilibrado (por exemplo, 200 "0" e 200 "1") teria uma impureza gini de 0,5. Um rótulo altamente desequilibrado teria uma impureza gini próxima de 0,0.

árvores (de decisão) com aumento de gradiente (GBT)

#df

Um tipo de floresta de decisão em que:

O treinamento depende do aumento do gradiente.
O modelo fraco é uma árvore de decisão.

aumento de gradiente

#df

Algoritmo de treinamento em que modelos fracos são treinados para melhorar de forma iterativa a qualidade (reduzir a perda) de um modelo forte. Por exemplo, um modelo fraco pode ser linear ou pequeno de árvore de decisão. O modelo forte se torna a soma de todos os modelos fracos treinados anteriormente.

Na forma mais simples de otimização de gradiente, a cada iteração, um modelo fraco é treinado para prever o gradiente de perda do modelo forte. Em seguida, a saída do modelo forte é atualizada subtraindo o gradiente previsto, semelhante ao gradiente descendente.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

onde:

$F_{0}$ é o modelo inicial forte.
$F_{i+1}$ é o próximo modelo forte.
$F_{i}$ é o modelo forte atual.
$\xi$ é um valor entre 0,0 e 1,0 chamado redução, que é análogo à taxa de aprendizado no gradiente descendente.
$f_{i}$ é o modelo fraco treinado para prever o gradiente de perda de $F_{i}$.

As variações modernas de otimização de gradiente também incluem a segunda derivada (hessiano) da perda no cálculo.

As árvores de decisão são comumente usadas como modelos fracos no gradiente de otimização. Consulte árvores com gradiente otimizado (decisão).

I

caminho de inferência

#df

Em uma árvore de decisão, durante a inferência, a rota que um exemplo específico usa da raiz para outras condições, terminando com uma folha. Por exemplo, na árvore de decisão a seguir, as setas mais grossas mostram o caminho de inferência de um exemplo com estes valores de atributo:

x = 7
y = 12
z = -3

O caminho de inferência na ilustração abaixo percorre três condições antes de chegar à folha (Zeta).

Uma árvore de decisão composta de quatro condições e cinco folhas.
A condição raiz é (x > 0). Como a resposta é "Sim", o caminho de inferência viaja da raiz até a próxima condição (y > 0).
Como a resposta é "Sim", o caminho de inferência vai para a
próxima condição (z > 0). Como a resposta é "Não", o caminho de inferência
vai até o nó do terminal, que é a folha (Zeta).

As três setas grossas mostram o caminho de inferência.

ganho de informações

#df

Em florestas de decisão, a diferença entre a entropia de um nó e a soma ponderada (por número de exemplos) da entropia dos nós filhos. A entropia de um nó é a entropia dos exemplos nesse nó.

Por exemplo, considere os seguintes valores de entropia:

entropia do nó pai = 0,6
entropia de um nó filho com 16 exemplos relevantes = 0,2
entropia de outro nó filho com 24 exemplos relevantes = 0,1

Portanto, 40% dos exemplos estão em um nó filho e 60% no outro. Assim:

Soma da entropia ponderada dos nós filhos = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Então, o ganho de informações é:

ganho de informações = entropia do nó pai - soma da entropia ponderada dos nós filhos
ganho de informação = 0,6 - 0,14 = 0,46

A maioria dos divisores busca criar condições que maximizam o ganho de informações.

condição inserida

#df

Em uma árvore de decisão, uma condição que testa a presença de um item em um conjunto de itens. Por exemplo, esta é uma condição inserida:

  house-style in [tudor, colonial, cape]

Durante a inferência, se o valor do recurso de estilo interno for tudor, colonial ou cape, essa condição será avaliada como Sim. Se o valor do recurso de estilo interno for outro (por exemplo, ranch), essa condição será avaliada como Não.

As condições inseridas geralmente levam a árvores de decisão mais eficientes do que as condições que testam recursos com codificação one-hot.

L

folha

#df

Qualquer endpoint em uma árvore de decisão. Ao contrário de uma condição, uma folha não executa um teste. Em vez disso, uma folha é uma previsão possível. Uma folha também é o nó terminal de um caminho de inferência.

Por exemplo, a árvore de decisão a seguir contém três folhas:

Uma árvore de decisão com duas condições que levam a três folhas.

N

nó (árvore de decisão)

#df

Em uma árvore de decisão, qualquer condição ou folha.

Uma árvore de decisão com duas condições e três folhas.

condição não binária

#df

Uma condição que contém mais de dois resultados possíveis. Por exemplo, a condição não binária a seguir contém três resultados possíveis:

Uma condição (number_of_legs = ?) que leva a três resultados possíveis. Um resultado (number_of_legs = 8) leva a uma folha chamada aranha. Um segundo resultado (number_of_legs = 4) leva a uma folha chamada cão. Um terceiro resultado (number_of_legs = 2) leva a uma folha chamada pinguim.

O

condição oblíqua

#df

Em uma árvore de decisão, uma condição que envolve mais de um atributo. Por exemplo, se altura e largura forem atributos, o seguinte será uma condição oblíqua:

  height > width

Contraste com a condição alinhada ao eixo.

avaliação fora do pacote (avaliação de OOB)

#df

Um mecanismo para avaliar a qualidade de uma floresta de decisão testando cada árvore de decisão em relação aos exemplos não usados durante o treinamento dessa árvore de decisão. Por exemplo, no diagrama a seguir, observe que o sistema treina cada árvore de decisão em cerca de dois terços dos exemplos e, em seguida, avalia em relação ao um terço restante dos exemplos.

Uma floresta de decisão composta por três árvores de decisão.
Uma árvore de decisão é treinada em dois terços dos exemplos
e usa o um terço restante para a avaliação OOB.
Uma segunda árvore de decisão é treinada em dois terços
diferentes dos exemplos da árvore de decisão anterior e
usa um terço diferente para a avaliação OOB da
árvore de decisão anterior.

A avaliação fora do pacote é uma aproximação computacionalmente eficiente e conservadora do mecanismo de validação cruzada. Na validação cruzada, um modelo é treinado para cada rodada de validação cruzada (por exemplo, 10 modelos são treinados em uma validação cruzada de 10 vezes). Com a avaliação OOB, um único modelo é treinado. Como o bagging retém alguns dados de cada árvore durante o treinamento, a avaliação OOB pode usar esses dados para estimar a validação cruzada.

P

importâncias da variável de permutação

#df

Um tipo de importância variável que avalia o aumento no erro de previsão de um modelo após trocar os valores do atributo. A importância da variável de troca é uma métrica independente do modelo.

R

Floresta aleatória

#df

Um conjunto de árvores de decisão em que cada árvore de decisão é treinada com um ruído aleatório específico, como bagging (link em inglês).

Florestas aleatórias são um tipo de floresta de decisão.

root

#df

O nó inicial (a primeira condição) em uma árvore de decisão. Por convenção, os diagramas colocam a raiz no topo da árvore de decisão. Exemplo:

Uma árvore de decisão com duas condições e três folhas. A
condição inicial (x > 2) é a raiz.

S

amostragem com substituição

#df

Um método para escolher itens de um conjunto de itens candidatos em que o mesmo item pode ser escolhido várias vezes. A frase "com substituição" significa que, após cada seleção, o item selecionado é retornado ao conjunto de itens candidatos. O método inverso, amostragem sem substituição, significa que um item candidato só pode ser selecionado uma vez.

Por exemplo, considere o seguinte conjunto de frutas:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Suponha que o sistema escolha aleatoriamente fig como o primeiro item. Se estiver usando amostragem com substituição, o sistema escolherá o segundo item do conjunto a seguir:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Sim, esse é o mesmo conjunto de antes, então o sistema pode escolher fig novamente.

Se estiver usando amostragem sem substituição, uma vez selecionada, uma amostra não poderá ser escolhida novamente. Por exemplo, se o sistema escolher aleatoriamente fig como a primeira amostra, fig não poderá ser selecionado de novo. Portanto, o sistema escolhe a segunda amostra do conjunto (reduzido) a seguir:

fruit = {kiwi, apple, pear, cherry, lime, mango}

Clique no ícone para ver mais observações.

A palavra substituição em amostragem com substituição confunde muitas pessoas. Em inglês, substituição significa "substituição". No entanto, amostragem com substituição usa, na verdade, a definição em francês para substituição, o que significa "colocar algo de volta".

A palavra em inglês replacement é traduzida como remplacement em francês.

encolhimento

#df

Um hiperparâmetro no aumento do gradiente que controla o overfitting. A redução na otimização do gradiente é análoga à taxa de aprendizado no gradiente descendente. A redução é um valor decimal entre 0,0 e 1,0. Um valor de redução menor reduz mais o overfitting do que um valor de redução maior.

dividir

#df

Em uma árvore de decisão, outro nome para uma condição.

divisor

#df

Ao treinar uma árvore de decisão, a rotina e o algoritmo) responsável por encontrar a melhor condição em cada nó.

T

teste

#df

Em uma árvore de decisão, outro nome para uma condição.

limite (para árvores de decisão)

#df

Em uma condição alinhada ao eixo, o valor com o qual um atributo está sendo comparado. Por exemplo, 75 é o valor do limite na seguinte condição:

grade >= 75

V

importâncias das variáveis

#df

Um conjunto de pontuações que indica a importância relativa de cada atributo para o modelo.

Por exemplo, considere uma árvore de decisão que estima preços de casas. Suponha que essa árvore de decisão use três recursos: tamanho, idade e estilo. Se um conjunto de importâncias de variáveis para os três atributos for calculado como {size=5.8, age=2.5, style=4.7}, o tamanho é mais importante para a árvore de decisão do que idade ou estilo.

Existem diferentes métricas de importância variável, que podem informar a especialistas de ML sobre diferentes aspectos dos modelos.

W

a sabedoria da multidão

#df

A ideia de que calcular a média de opiniões ou estimativas de um grande grupo de pessoas ("a multidão") geralmente produz resultados surpreendentemente bons. Por exemplo, considere um jogo em que as pessoas adivinham o número de jujubas embaladas em um pote grande. Embora a maioria dos palpites seja imprecisa, demonstrou-se empiricamente que a média de todos os palpites é surpreendentemente próxima do número real de jujubas no pote.

Ensembles são um software análogo da sabedoria da multidão. Mesmo que os modelos individuais façam previsões extremamente imprecisas, a média das previsões de muitos modelos costuma gerar previsões surpreendentemente boas. Por exemplo, embora uma árvore de decisão individual possa fazer previsões ruins, uma floresta de decisão geralmente faz previsões muito boas.