Esta página contiene los términos del glosario sobre los bosques de decisión. Para todos los términos del glosario, haz clic aquí.
A
muestreo de atributos
Táctica para entrenar un bosque de decisión en el que cada árbol de decisión considera solo un subconjunto aleatorio de posibles atributos cuando aprende la condición. En general, se realiza un muestreo de un subconjunto diferente de características para cada nodo. Por el contrario, cuando entrenas un árbol de decisión sin muestreo de atributos, se consideran todos los atributos posibles para cada nodo.
condición del eje alineado
En un árbol de decisión, es una condición que solo involucra un atributo. Por ejemplo, si el área es un atributo, la siguiente es una condición alineada al eje:
area > 200
Compara esto con la condición obligada.
B
embalaje
Un método para entrenar un ensamble en el que cada modelo constituyente se entrena en un subconjunto aleatorio de ejemplos de entrenamiento con muestras de reemplazo. Por ejemplo, un bosque aleatorio es una colección de árboles de decisión entrenados con envases.
El término bolsa es el acrónimo en inglés de bootstrap aggregaring.
condición binaria
En un árbol de decisión, una condición que solo tiene dos resultados posibles, generalmente sí o no. Por ejemplo, la siguiente es una condición binaria:
temperature >= 100
Compara esto con las condiciones no binarias.
C
condición
En un árbol de decisión, cualquier nodo que evalúe una expresión. Por ejemplo, la siguiente parte de un árbol de decisión contiene dos condiciones:
Una condición también se denomina división o prueba.
Compara la condición con leaf.
También consulta lo siguiente:
D
bosque de decisiones
Un modelo creado a partir de varios árboles de decisión. Un bosque de decisión realiza una predicción mediante la agregación de las predicciones de sus árboles de decisión. Los tipos populares de bosques de decisión incluyen bosques aleatorios y árboles con boosting del gradiente.
árbol de decisión
Modelo de aprendizaje supervisado compuesto por un conjunto de condiciones y hojas organizadas de forma jerárquica. Por ejemplo, el siguiente es un árbol de decisión:
E
entropía
En la teoría de la información, una descripción de qué tan impredecible es una distribución de probabilidad. De forma alternativa, la entropía también se define como la cantidad de información que contiene cada ejemplo. Una distribución tiene la entropía más alta posible cuando todos los valores de una variable aleatoria son igual de probables.
La entropía de un conjunto con dos valores posibles (por ejemplo, las etiquetas en un problema de clasificación binaria) tiene la siguiente fórmula:
H = -p log p - q log q = -p log p - (1-p) * log (1-p)
Donde:
- H es la entropía.
- p es la fracción de “1”.
- q es la fracción de "0" de ejemplo. Ten en cuenta que q = (1 - p)
- log suele ser un registro2. En este caso, la unidad de entropía es un poco.
Por ejemplo, supongamos lo siguiente:
- 100 ejemplos contienen el valor "1"
- 300 ejemplos contienen el valor "0"
Por lo tanto, el valor de entropía es el siguiente:
- p = 0,25
- q = 0.75
- H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 0.81 bits por ejemplo
Un conjunto que está perfectamente equilibrado (por ejemplo, 200 &;200 "1"s) tendría una entropía de 1.0 bits por ejemplo. A medida que un conjunto se vuelve más desequilibrado, su entropía se mueve hacia 0.0.
En los árboles de decisión, la entropía ayuda a formular la obtención de información para ayudar al divisor a seleccionar las condiciones durante el crecimiento de un árbol de decisión de clasificación.
Compare la entropía con:
- impureza gini
- Función de pérdida entropía cruzada
La entropía suele llamarse entropía de Shannon.
F
importancias de los atributos
Sinónimo de importancias variables.
G
impureza gini
Una métrica similar a la entropía. Los divisores usan valores derivados de la impureza de gini o la entropía a fin de componer condiciones para árboles de decisión de clasificación. Aumento de la información deriva de la entropía. No existe un término equivalente universal para la métrica derivada de la impureza de gini. Sin embargo, esta métrica sin nombre es tan importante como la ganancia de la información.
La impureza de Gini también se llama índice de gini o simplemente gini.
boosting de gradiente
Algoritmo de entrenamiento en el que los modelos débiles se entrenan para mejorar de forma iterativa la calidad (reducir la pérdida) de un modelo sólido. Por ejemplo, un modelo débil puede ser un modelo de árbol de decisión pequeño o lineal. El modelo sólido se convierte en la suma de todos los modelos débiles previamente entrenados.
En la forma más simple de boosting de gradiente, en cada iteración, se entrena un modelo débil para predecir la gradiente de pérdida del modelo fuerte. Luego, el resultado del modelo fuerte se actualiza restando el gradiente previsto, similar al descenso de gradientes.
Donde:
- $F_{0}$ es el modelo inicial sólido.
- $F_{i+1}$ es el próximo modelo sólido.
- $F_{i}$ es el modelo sólido actual.
- $\xi$ es un valor entre 0.0 y 1.0 llamado reducción, que es similar a la tasa de aprendizaje en descenso de gradientes.
- $f_{i}$ es el modelo débil entrenado para predecir la gradiente de pérdida de $F_{i}$.
Las variaciones modernas de potenciación de gradiente también incluyen la segunda derivada (hessiana) de la pérdida en su cálculo.
Los árboles de decisión se suelen usar como modelos débiles para aumentar la gradiente. Consulta árboles con boosting del gradiente (decisión).
Árboles de impulso de gradiente (GBT)
Un tipo de bosque de decisión en el que:
- El entrenamiento se basa en el aumento de gradientes.
- El modelo débil es un árbol de decisión.
I
ruta de inferencia
En un árbol de decisión, durante la inferencia, la ruta que toma un ejemplo particular de la raíz a otras condiciones, que termina con una hoja. Por ejemplo, en el siguiente árbol de decisión, las flechas más gruesas muestran la ruta de inferencia para un ejemplo con los siguientes valores de atributos:
- x = 7
- y = 12
- z = -3
La ruta de inferencia en la siguiente ilustración viaja a través de tres condiciones antes de alcanzar la hoja (Zeta
).
Las tres flechas gruesas muestran la ruta de inferencia.
aumento en la información
En los bosques de decisión, la diferencia entre la entropía de un nodo y la ponderada ponderada (por la cantidad de ejemplos) de la entropía de sus nodos secundarios La entropía de un nodo es la entropía de los ejemplos en ese nodo.
Por ejemplo, considera los siguientes valores de entropía:
- entropía del nodo superior = 0.6
- entropía de un nodo secundario con 16 ejemplos relevantes = 0.2
- entropía de otro nodo secundario con 24 ejemplos relevantes = 0.1
Por lo tanto, el 40% de los ejemplos se encuentra en un nodo secundario y el 60% en el otro nodo secundario. Por lo tanto:
- suma de entropía ponderada de nodos secundarios = (0.4 * 0.2) + (0.6 * 0.1) = 0.14
Entonces, la ganancia de información es:
- ganancia de información = entropía del nodo principal - suma ponderada de entropía de nodos secundarios
- ganancia de información = 0.6 - 0.14 = 0.46
La mayoría de los divisores buscan crear condiciones que maximicen la obtención de información.
condición del conjunto
En un árbol de decisión, una condición que comprueba la presencia de un elemento en un conjunto de elementos. Por ejemplo, la siguiente es una condición del conjunto:
house-style in [tudor, colonial, cape]
Durante la inferencia, si el valor del feature de estilo de la casa es tudor
, colonial
o cape
, esta condición se evalúa como Sí. Si el valor del atributo de estilo de la casa es algo más (por ejemplo, ranch
), esta condición se evalúa como No.
Por lo general, las condiciones en el conjunto generan árboles de decisión más eficientes que las condiciones que prueban atributos codificados one-hot.
L
hoja
Cualquier extremo en un árbol de decisión. A diferencia de una condición, una hoja no realiza una prueba. En cambio, una hoja es una predicción posible. Una hoja también es el nodo terminal de una ruta de inferencia.
Por ejemplo, el siguiente árbol de decisión contiene tres hojas:
N
nodo (árbol de decisión)
En un árbol de decisión, cualquier condición o hoja.
condición no binaria
Condition que contiene más de dos resultados posibles. Por ejemplo, la siguiente condición no binaria contiene tres resultados posibles:
O
condición oblicua
En un árbol de decisión, es una condición que incluye más de un atributo. Por ejemplo, si la altura y el ancho son atributos, la siguiente es una condición oblicua:
height > width
Compara esto con la condición de alineación de ejes.
evaluación sin equipaje (evaluación OOB)
Es un mecanismo para evaluar la calidad de un bosque de decisión mediante la prueba de cada árbol de decisión con los ejemplos no que se usan durante el entrenamiento de ese árbol de decisión. Por ejemplo, en el siguiente diagrama, observa que el sistema entrena cada árbol de decisión en aproximadamente dos tercios de los ejemplos y, luego, evalúa el tercio restante de los ejemplos.
La evaluación fuera del bolso es una aproximación eficiente y conservadora a nivel computacional del mecanismo de validación cruzada. En la validación cruzada, se entrena un modelo para cada ronda de validación cruzada (por ejemplo, 10 modelos se entrenan en una validación cruzada de 10 veces). Con la evaluación de OOB, se entrena un solo modelo. Debido a que la bolsa retiene algunos datos de cada árbol durante el entrenamiento, la evaluación de OOB puede usarlos para aproximar la validación cruzada.
P
importancias de las variables de permutación
Tipo de importancia variable que evalúa el aumento en el error de predicción de un modelo después de silenciar los valores del atributo. La importancia de la variable de permutación es una métrica independiente del modelo.
R
bosque aleatorio
Un ensamble de árboles de decisión en el que cada árbol de decisión se entrena con un ruido aleatorio específico, como bolsa.
Los bosques aleatorios son un tipo de bosque de decisión.
root
El nodo inicial (la primera condición) de un árbol de decisión. Por convención, los diagramas colocan la raíz en la parte superior del árbol de decisión. Por ejemplo:
S
muestreo con reemplazo
Un método para elegir elementos de un conjunto de elementos candidatos en los que el mismo elemento se puede elegir varias veces. La frase "con reemplazo" significa que después de cada selección, el elemento seleccionado se devuelve al grupo de elementos candidatos. El método inverso, muestreo sin reemplazo, significa que un elemento candidato solo se puede elegir una vez.
Por ejemplo, considera el siguiente conjunto de frutas:
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
Supongamos que el sistema elige de manera aleatoria fig
como primer elemento.
Si se usa el muestreo con reemplazo, el sistema elige el segundo elemento del siguiente conjunto:
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
Sí, es el mismo conjunto que antes, por lo que el sistema podría volver a elegir fig
.
Si se usa el muestreo sin reemplazo, una vez elegida, no se puede seleccionar una muestra nuevamente. Por ejemplo, si el sistema elige al azar fig
como primera muestra, entonces no se puede elegir fig
nuevamente. Por lo tanto, el sistema elige la segunda muestra del siguiente conjunto (reducido):
fruit = {kiwi, apple, pear, cherry, lime, mango}
reducción
Un hiperparámetro en el aumento de gradientes que controla el sobreajuste. La reducción en el aumento de gradiente es análoga a la tasa de aprendizaje en el descenso de gradientes. Shrinkage es un valor decimal entre 0.0 y 1.0. Un valor de reducción más bajo reduce el sobreajuste más que un valor de reducción más grande.
split
En un árbol de decisión, otro nombre para una condición.
separador
Mientras se entrena un árbol de decisión, la rutina (y el algoritmo) son responsables de encontrar la mejor condición en cada nodo.
T
prueba
En un árbol de decisión, otro nombre para una condición.
umbral (para árboles de decisión)
En una condición alineada al eje, se compara el valor con el que se compara una característica. Por ejemplo, 75 es el valor del umbral en la siguiente condición:
grade >= 75
V
importancias variables
Conjunto de puntuaciones que indica la importancia relativa de cada atributo para el modelo.
Por ejemplo, considera un árbol de decisión que estima los precios de las casas. Supongamos que en este árbol de decisión se usan tres atributos: tamaño, edad y estilo. Si se calcula que un conjunto de variables de importancia para los tres atributos es {size=5.8, age=2.5, style=4.7}, el tamaño es más importante para el árbol de decisión que la edad o el estilo.
Existen diferentes métricas de importancia variable, que pueden informar a los expertos en AA sobre los diferentes aspectos de los modelos.
W
sabiduría de la multitud
La idea de que un promedio de las opiniones o los cálculos de un grupo grande de personas (la multitud) produce resultados sorprendentemente buenos, Por ejemplo, imagina un juego en el que las personas adivinen la cantidad de gomitas empaquetadas en un frasco grande. Si bien la mayoría de las suposiciones no serán precisas, el promedio de todas las suposiciones se demostró de forma empírica que es similar al número real de gomitas en el frasco.
Los conjuntos son un software análogo de la sabiduría popular. Incluso si los modelos individuales hacen predicciones muy imprecisas, el promedio de las predicciones de muchos modelos suele generar predicciones sorprendentemente buenas. Por ejemplo, aunque un árbol de decisión individual puede hacer predicciones deficientes, un bosque de decisión a menudo realiza predicciones muy buenas.