Esta página contém termos do glossário da Forest Decision Forests. Para ver todos os termos do glossário, clique aqui.
A
amostragem de atributos
Uma tática para treinar uma floresta de decisão em que cada árvore de decisão considera apenas um subconjunto aleatório de atributos possíveis ao aprender a condição. Geralmente, um subconjunto diferente de recursos é amostrado para cada nó. Por outro lado, ao treinar uma árvore de decisão sem amostragem de atributos, todos os atributos possíveis são considerados para cada nó.
condição alinhada ao eixo
Em uma árvore de decisão, uma condição que envolve apenas um único recurso. Por exemplo, se a área for um recurso, o seguinte será uma condição alinhada ao eixo:
area > 200
Contraste com a condição oblíqua.
B
sacos
Um método para treinar um ensemble em que cada modelo constitui em um subconjunto aleatório de exemplos de treinamento amostrados com substituição. Por exemplo, uma floresta aleatória é uma coleção de árvores de decisão treinadas com baking.
O termo bagging é a abreviação de bootstrap aggregating.
condição binária
Em uma árvore de decisão, uma condição que tem apenas dois resultados possíveis, geralmente sim ou não. Por exemplo, esta é uma condição binária:
temperature >= 100
Contraste com a condição não binária.
C
condição
Em uma árvore de decisão, qualquer nó que avalie uma expressão. Por exemplo, a parte a seguir de uma árvore de decisões contém duas condições:
Uma condição também é chamada de divisão ou teste.
Condição de contraste com folha.
Consulte também:
D
floresta de decisão
Um modelo criado com base em várias árvores de decisão. Uma floresta de decisão faz uma previsão agregando as previsões das árvores de decisão. Os tipos conhecidos de florestas de decisão incluem flores aleatórias e árvores otimizadas com gradiente.
árvore de decisão
Um modelo de aprendizado supervisionado composto por um conjunto de condições e folhas organizadas hierarquicamente. Por exemplo, veja a seguir uma árvore de decisão:
E
entropia
Na teoria da informação, uma descrição de como é imprevisível uma distribuição de probabilidade. Como alternativa, a entropia também é definida como a quantidade de informações que cada exemplo contém. Uma distribuição tem a entropia mais alta possível quando todos os valores de uma variável aleatória são igualmente prováveis.
A entropia de um conjunto com dois valores possíveis "0" e "1" (por exemplo, os rótulos em um problema de classificação binária) tem a seguinte fórmula:
H = -p log p - q log q = -p log p - (1-p) * log (1-p)
onde:
- H é a entropia.
- p é a fração de exemplos de "quot;1"".
- q é a fração de exemplos de "quot;0"". q = (1 – p)
- log geralmente é 2. Nesse caso, a unidade de entropia é um pouco.
Por exemplo, suponha que:
- 100 exemplos contêm o valor "1"
- 300 exemplos contêm o valor "0"
Portanto, o valor de entropia é:
- p = 0,25
- q = 0,75
- H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 0,81 bits por exemplo
Um conjunto que está perfeitamente equilibrado (por exemplo, 200 "0"s e 200 "1"s) teria uma entropia de 1 bit por exemplo. À medida que um conjunto se torna mais desequilibrado, a entropia se move em direção a 0,0.
Em árvores de decisão, a entropia ajuda a formular o ganho de informações para ajudar o divisor a selecionar as condições durante o crescimento de uma árvore de decisão de classificação.
Compare a entropia com:
- impureza do gini
- Função de perda de entropia cruzada
A entropia é geralmente chamada de entropia de Shannon.
F
importâncias dos recursos
Sinônimo de importâncias de variáveis.
G
impureza do gini
Uma métrica semelhante a entropia. Os divisores usam valores derivados da impureza do gini ou entropia para compor condições para classificação árvores de decisão. O ganho de informações é derivado da entropia. Não há um termo equivalente universalmente aceito para a métrica derivada da impureza da gini. No entanto, essa métrica sem nome é tão importante quanto o ganho de informações.
A impureza do Gini também é chamada de gini index ou simplesmente gini.
otimização de gradiente
Um algoritmo de treinamento em que modelos fracos são treinados para melhorar a qualidade de forma iterativa (reduzir a perda) de um modelo forte. Por exemplo, um modelo fraco pode ser um modelo de árvore de decisão linear ou pequeno. O modelo forte se torna a soma de todos os modelos fracos treinados anteriormente.
Na forma mais simples de otimização de gradiente, a cada iteração, um modelo fraco é treinado para prever o gradiente de perda do modelo forte. Em seguida, a saída do modelo forte é atualizada subtraindo o gradiente previsto, semelhante a gradiente descendente.
onde:
- $F_{0}$ é o modelo forte inicial.
- $F_{i+1}$ é o próximo modelo forte.
- $F_{i}$ é o modelo forte atual.
- $\xi$ é um valor entre 0,0 e 1,0 chamado redução, que é análoga à taxa de aprendizado em gradiente descendente.
- $f_{i}$ é o modelo fraco treinado para prever o gradiente de perda de $F_{i}$.
As variações modernas de otimização de gradiente também incluem a segunda derivada (Hessian) da perda no cálculo.
As árvores de decisão normalmente são usadas como modelos fracos no incremento de gradiente. Consulte Árvores com aumento de gradiente (de decisão).
árvores otimizadas com gradiente (decisão) (GBT)
Um tipo de floresta de decisão em que:
- O treinamento depende do aumento de gradiente.
- O modelo fraco é uma árvore de decisão.
I
caminho de inferência
Em uma árvore de decisão, durante inferência, a rota que um determinado exemplo passa da raiz para outras condições, terminando com uma folha. Por exemplo, na árvore de decisão a seguir, as setas mais grossas mostram o caminho de inferência para um exemplo com os seguintes valores de recurso:
- x = 7
- y = 12
- z = -3
O caminho de inferência na ilustração a seguir percorre três
condições antes de chegar à folha (Zeta
).
As três setas grossas mostram o caminho de inferência.
ganho de informações
Em flores de decisão, a diferença entre a entropia de um nó e a soma ponderada (por número de exemplos) da entropia dos nós filhos. A entropia do nó é a entropia dos exemplos desse nó.
Por exemplo, considere os seguintes valores de entropia:
- entropia do nó pai = 0,6
- entropia de um nó filho com 16 exemplos relevantes = 0,2
- entropia de outro nó filho com 24 exemplos relevantes = 0,1
Portanto, 40% dos exemplos estão em um nó filho e 60% estão em outro nó filho. Assim:
- soma da entropia ponderada dos nós secundários = (0,4 * 0,2) + (0,6 * 0,1) = 0,14
O ganho de informações é:
- ganho de informações = entropia do nó pai - soma da entropia ponderada dos nós filhos
- ganho de informações = 0,6 - 0,14 = 0,46
A maioria dos divisores procura criar condições que maximizam o ganho de informações.
condição no conjunto
Em uma árvore de decisão, uma condição que testa a presença de um item em um conjunto de itens. Por exemplo, esta é uma condição definida:
house-style in [tudor, colonial, cape]
Durante a inferência, se o valor do recurso do estilo residencial for tudor
, colonial
ou cape
, essa condição será avaliada como Sim. Se
o valor do recurso de estilo casa for algo diferente (por exemplo, ranch
),
essa condição vai ser avaliada como "Não".
As condições definidas normalmente levam a árvores de decisão mais eficientes do que condições que testam recursos codificados one-hot.
L
folha
Qualquer endpoint em uma árvore de decisão. Diferentemente de uma condição, uma folha não realiza um teste. Na verdade, uma folha é uma previsão. Uma folha também é o nó do terminal de um caminho de inferência.
Por exemplo, a árvore de decisão a seguir contém três folhas:
N
nó (árvore de decisão)
Em uma árvore de decisão, qualquer condição ou folha.
condição não binária
Uma condição que contém mais de dois resultados possíveis. Por exemplo, a seguinte condição não binária contém três resultados possíveis:
O
condição oblíqua
Em uma árvore de decisão, uma condição que envolve mais de um recurso. Por exemplo, se altura e largura forem recursos, o seguinte será uma condição oblíqua:
height > width
Contraste com a condição alinhada ao eixo.
avaliação fora da bolsa (avaliação OOB)
Um mecanismo para avaliar a qualidade de uma floresta de decisão testando cada árvore de decisão em comparação aos exemplos não usados durante treinamento dessa árvore de decisão. Por exemplo, no diagrama a seguir, observe que o sistema treina cada árvore de decisão em cerca de dois terços dos exemplos e, em seguida, avalia o terço restante dos exemplos.
Essa é uma aproximação computacional e eficiente conservadora do mecanismo de validação cruzada. Na validação cruzada, um modelo é treinado para cada rodada de validação cruzada. Por exemplo, 10 modelos são treinados em uma validação cruzada de 10 vezes. Com a avaliação de OOB, um único modelo é treinado. Como a baking retém alguns dados de cada árvore durante o treinamento, a avaliação de OOB pode usar esses dados para aproximar a validação cruzada.
P
importâncias da variável de permutação
Um tipo de importância da variável que avalia o aumento no erro de previsão de um modelo depois de permutar os valores do recurso. A importância da variável de permutação é uma métrica agnóstica de modelo.
R
floresta aleatória
Um conjunto de árvores de decisão em que cada árvore de decisão é treinada com um ruído aleatório específico, como rolagem.
As florestas aleatórias são um tipo de floresta de decisão.
raiz
O nó inicial (a primeira condição) em uma árvore de decisão. Por convenção, os diagramas colocam a raiz na parte superior da árvore de decisão. Exemplo:
S
amostragem com substituição
Um método para escolher itens de um conjunto de itens candidatos em que o mesmo item pode ser selecionado várias vezes. A frase "com substituição" significa que, após cada seleção, o item selecionado é retornado ao pool de itens candidatos. O método inverso, amostragem sem substituição, significa que um item candidato só pode ser selecionado uma vez.
Por exemplo, considere o seguinte conjunto de frutas:
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
Suponha que o sistema escolha aleatoriamente fig
como o primeiro item.
Se você usar amostragem com substituição, o sistema escolherá o
segundo item do seguinte conjunto:
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
Sim, é o mesmo conjunto de antes, então o sistema pode escolher
fig
novamente.
Se for usada a amostragem sem substituição, depois de selecionada, a amostra não poderá ser selecionada novamente. Por exemplo, se o sistema selecionar fig
aleatoriamente como a
primeira amostra, então fig
não poderá ser selecionado novamente. Portanto, o sistema
escolhe a segunda amostra do conjunto a seguir (reduzido):
fruit = {kiwi, apple, pear, cherry, lime, mango}
redução
Um hiperparâmetro (em inglês) na otimização de gradiente que controla o overfitting. A redução na otimização de gradiente é análoga à taxa de aprendizado em gradiente descendente. A redução é um valor decimal entre 0,0 e 1,0. Um valor de redução menor reduz o overfitting mais do que um valor de redução maior.
dividir
Em uma árvore de decisão, outro nome para uma condição.
divisor
Ao treinar uma árvore de decisão, a rotina e o algoritmo responsáveis por encontrar a melhor condição em cada nó.
T
teste
Em uma árvore de decisão, outro nome para uma condição.
limite (para árvores de decisão)
Em uma condição alinhada ao eixo, o valor de um recurso é comparado. Por exemplo, 75 é o valor do limite na seguinte condição:
grade >= 75
V
importâncias de variáveis
Um conjunto de pontuações que indica a importância relativa de cada atributo para o modelo.
Por exemplo, considere uma árvore de decisões que estima os preços de casas. Suponha que essa árvore de decisão use três recursos: tamanho, idade e estilo. Se um conjunto de importâncias variáveis para os três atributos for calculado como {size=5.8, age=2.5, style=4.7}, o tamanho é mais importante para a árvore de decisão do que a idade ou estilo.
Há diferentes métricas de importância variável, que podem informar os especialistas em ML sobre diferentes aspectos dos modelos.
W
sabedoria da multidão
A ideia de que, em média, as opiniões ou estimativas de um grande grupo de pessoas ("a multidão") geralmente produz resultados surpreendentemente bons. Por exemplo, imagine um jogo em que as pessoas adivinham o número de jujubas em um pote grande. Embora a maioria dos adivinhados individuais não seja precisa, a média de todos os palpites foi empiricamente surpreendentemente próxima do número real de jujubas no jar.
Os Ensembles são um software analógico de sabedoria da multidão. Mesmo que modelos individuais façam previsões muito imprecisas, a média de previsões de muitos modelos costuma gerar previsões surpreendentemente boas. Por exemplo, mesmo que uma árvore de decisão individual possa fazer previsões ruins, mas uma floresta de decisão muitas vezes faz previsões muito boas.