Glosario de aprendizaje automático: bosques de decisión

Esta página contiene los términos del glosario de Decision Forests. Para ver todos los términos del glosario, haz clic aquí.

A

muestreo de atributos

#df

Una táctica para entrenar un bosque de decisión en el que cada árbol de decisión considera solo un subconjunto aleatorio de atributos posibles cuando se aprende la condición. Por lo general, se realiza un muestreo de un subconjunto diferente de atributos para cada nodo. Por el contrario, cuando se entrena un árbol de decisión sin el muestreo de atributos, se consideran todos los atributos posibles para cada nodo.

condición de alineación del eje

#df

En un árbol de decisión, es una condición que involucra un solo atributo. Por ejemplo, si el área es un componente, la siguiente es una condición alineada con los ejes:

area > 200

Compara esto con la condición oblicua.

B

embolsar

#df

Es un método para entrenar un ensamble en el que cada modelo constituye el entrenamiento en un subconjunto aleatorio de ejemplos de entrenamiento muestreado con reemplazo. Por ejemplo, un bosque aleatorio es una colección de árboles de decisión entrenados con el empaquetado.

El término bagging es el acrónimo en inglés de bootstrap aggregating.

condición binaria

#df

En un árbol de decisión, es una condición que solo tiene dos resultados posibles, generalmente o no. Por ejemplo, la siguiente es una condición binaria:

temperature >= 100

Compara esto con la condición no binaria.

C

condición

#df

En un árbol de decisión, es cualquier nodo que evalúe una expresión. Por ejemplo, la siguiente parte de un árbol de decisión contiene dos condiciones:

Un árbol de decisión que consta de dos condiciones: (x > 0) e (y > 0).

Una condición también se denomina división o prueba.

Compara la condición con la hoja.

Consulta lo siguiente:

D

bosque de decisión

#df

Es un modelo creado a partir de varios árboles de decisión. Un bosque de decisión realiza una predicción mediante la agregación de las predicciones de sus árboles de decisión. Los tipos populares de bosques de decisión incluyen los bosques aleatorios y los árboles con boosting del gradiente.

árbol de decisión

#df

Modelo de aprendizaje supervisado compuesto por un conjunto de conditions y conditions organizadas de manera jerárquica. Por ejemplo, el siguiente es un árbol de decisiones:

Árbol de decisión que consta de cuatro condiciones organizadas jerárquicamente, que conducen a cinco hojas.

E

entropía

#df

En la teoría de la información, es una descripción de qué tan impredecible es una distribución de probabilidad. Como alternativa, la entropía también se define como cuánta información contiene cada ejemplo. Una distribución tiene la entropía más alta posible cuando todos los valores de una variable aleatoria son igual de probables.

La entropía de un conjunto con dos valores posibles “0” y “1” (por ejemplo, las etiquetas en un problema de clasificación binaria) tiene la siguiente fórmula:

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

Donde:

  • H es la entropía.
  • p es la fracción de ejemplos de “1”.
  • q es la fracción de ejemplos de “0”. Ten en cuenta que q = (1 - p)
  • log suele ser log2. En este caso, la unidad de entropía es un poco.

Por ejemplo, supongamos lo siguiente:

  • 100 ejemplos contienen el valor "1"
  • 300 ejemplos contienen el valor "0"

Por lo tanto, el valor de la entropía es el siguiente:

  • p = 0.25
  • q = 0.75
  • H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 0.81 bits por ejemplo

Un conjunto que está perfectamente equilibrado (por ejemplo, 200 “0” y 200 “1”) tendría una entropía de 1.0 bits por ejemplo. A medida que un conjunto se vuelve más desequilibrado, su entropía se mueve a 0.0.

En los árboles de decisión, la entropía ayuda a formular la obtención de información para ayudar al divisor a seleccionar las condiciones durante el crecimiento de un árbol de decisión de clasificación.

Comparar la entropía con:

La entropía a menudo se denomina entropía de Shannon.

F.

importancias de los atributos

#df

Sinónimo de importancias variables.

G

impureza de la gini

#df

Una métrica similar a la entropía. Los divisores usan valores derivados de la impureza o la entropía de gini a fin de componer condiciones para los árboles de decisión de clasificación. La obtención de información se deriva de la entropía. No existe un término equivalente universalmente aceptado para la métrica derivada de la impureza del gini; sin embargo, esta métrica sin nombre es tan importante como la ganancia de información.

La impureza de Gini también se denomina índice de Gini o simplemente gini.

Árboles con boosting del gradiente (decisión) (GBT)

#df

Un tipo de bosque de decisión en el que:

potenciación de gradiente

#df

Algoritmo de entrenamiento en el que los modelos débiles se entrenan para mejorar de forma iterativa la calidad (reducir la pérdida) de un modelo sólido. Por ejemplo, un modelo débil podría ser un modelo de árbol de decisión lineal o pequeño. El modelo sólido se convierte en la suma de todos los modelos débiles previamente entrenados.

En la forma más simple de potenciación de gradiente, en cada iteración, se entrena un modelo débil para predecir el gradiente de pérdida del modelo sólido. Luego, el resultado del modelo sólido se actualiza mediante la resta del gradiente previsto, similar al descenso de gradientes.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

Donde:

  • $F_{0}$ es el modelo inicial sólido.
  • $F_{i+1}$ es el siguiente modelo sólido.
  • $F_{i}$ es el modelo sólido actual.
  • $\xi$ es un valor entre 0.0 y 1.0 llamado reducción, que es análogo a la tasa de aprendizaje en el descenso de gradientes.
  • $f_{i}$ es el modelo débil entrenado para predecir el gradiente de pérdida de $F_{i}$.

Las variaciones modernas del boosting de gradiente también incluyen la segunda derivada (hessiana) de la pérdida en su cálculo.

Los árboles de decisión se usan comúnmente como modelos débiles en la potenciación de gradiente. Consulta los árboles de cambio de gradiente (decisión).

I

ruta de acceso de inferencia

#df

En un árbol de decisión, durante la inferencia, la ruta que toma un ejemplo particular desde la raíz hasta otras condiciones y termina con una hoja. Por ejemplo, en el siguiente árbol de decisión, las flechas más gruesas muestran la ruta de inferencia de un ejemplo con los siguientes valores de atributos:

  • x = 7
  • y = 12
  • z = -3

La ruta de inferencia de la siguiente ilustración atraviesa tres condiciones antes de llegar a la hoja (Zeta).

Árbol de decisión que consta de cuatro condiciones y cinco hojas.
          La condición raíz es (x > 0). Como la respuesta es Sí, la ruta de inferencia va de la raíz a la siguiente condición (y > 0).
          Como la respuesta es Sí, la ruta de inferencia luego se traslada a la siguiente condición (z > 0). Como la respuesta es No, la ruta de inferencia se dirige a su nodo terminal, que es la hoja (Zeta).

Las tres flechas gruesas muestran la ruta de inferencia.

obtención de información

#df

En los bosques de decisión, es la diferencia entre la entropía de un nodo y la suma ponderada (por cantidad de ejemplos) de la entropía de sus nodos secundarios. La entropía de un nodo es la entropía de los ejemplos de ese nodo.

Por ejemplo, considera los siguientes valores de entropía:

  • entropía del nodo principal = 0.6
  • entropía de un nodo secundario con 16 ejemplos relevantes = 0.2
  • entropía de otro nodo secundario con 24 ejemplos relevantes = 0.1

Por lo tanto, el 40% de los ejemplos están en un nodo secundario y el 60% está en el otro nodo secundario. Por lo tanto:

  • suma de entropía ponderada de nodos secundarios = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

Entonces, la ganancia de información es:

  • ganancia de información = entropía del nodo principal - suma de entropía ponderada de nodos secundarios
  • ganancia de información = 0.6 - 0.14 = 0.46

La mayoría de los divisores buscan crear condiciones que maximicen la obtención de información.

condición de inicio

#df

En un árbol de decisión, es una condición que prueba la presencia de un elemento en un conjunto de elementos. Por ejemplo, la siguiente es una condición dentro del conjunto:

  house-style in [tudor, colonial, cape]

Durante la inferencia, si el valor del atributo de estilo de la casa es tudor, colonial o cape, esta condición se evalúa como Sí. Si el valor del componente de estilo de la casa es otro (por ejemplo, ranch), esta condición se evalúa como No.

Las condiciones predefinidas suelen generar árboles de decisión más eficientes que las condiciones que prueban las funciones con codificación one-hot.

L

hoja

#df

Cualquier extremo en un árbol de decisión. A diferencia de una condición, una hoja no realiza una prueba. Más bien, una hoja es una posible predicción. Una hoja también es el nodo terminal de una ruta de inferencia.

Por ejemplo, el siguiente árbol de decisiones contiene tres hojas:

Árbol de decisiones con dos condiciones que llevan a tres hojas.

N

nodo (árbol de decisión)

#df

En un árbol de decisión, es cualquier condición u hoja.

Un árbol de decisiones con dos condiciones y tres hojas.

condición no binaria

#df

Una condición que contiene más de dos resultados posibles. Por ejemplo, la siguiente condición no binaria contiene tres resultados posibles:

Una condición (number_of_legs = ?) que genera tres resultados posibles. Un resultado (number_of_legs = 8) lleva a una hoja llamada araña. Un segundo resultado (number_of_legs = 4) lleva a una hoja llamada "perro". Un tercer resultado (number_of_legs = 2) lleva a una hoja llamada pingüino.

O

condición oblicua

#df

En un árbol de decisión, una condición que involucra más de un atributo. Por ejemplo, si el alto y el ancho son ambos atributos, la siguiente es una condición oblicua:

  height > width

Compara esto con la condición alineada con ejes.

evaluación fuera del paquete (evaluación OOB)

#df

Un mecanismo para evaluar la calidad de un bosque de decisión mediante la prueba de cada árbol de decisión con los ejemplos que no se usan durante el entrenamiento de ese árbol de decisión. Por ejemplo, en el siguiente diagrama, observa que el sistema entrena cada árbol de decisión en aproximadamente dos tercios de los ejemplos y, luego, se evalúa con el tercio restante.

Un bosque de decisiones que consta de tres árboles de decisión.
          Un árbol de decisión se entrena en dos tercios de los ejemplos y, luego, usa el tercio restante para la evaluación de OOB.
          Un segundo árbol de decisión se entrena en dos tercios diferentes de los ejemplos que el árbol de decisión anterior y, luego, usa un tercio diferente para la evaluación de OOB que el árbol de decisión anterior.

La evaluación fuera del paquete es una aproximación conservadora y eficiente en términos de procesamiento del mecanismo de validación cruzada. En la validación cruzada, se entrena un modelo para cada ronda de validación cruzada (por ejemplo, 10 modelos se entrenan en una validación cruzada de 10 veces). Con la evaluación OOB, se entrena un solo modelo. Debido a que la bolsa retiene algunos datos de cada árbol durante el entrenamiento, la evaluación de OOB puede usar esos datos para aproximar la validación cruzada.

P

importancias de variables de permutación

#df

Es un tipo de importancia de la variable que evalúa el aumento del error de predicción de un modelo después de permutar los valores del atributo. La importancia de las variables de permutación es una métrica independiente del modelo.

R

bosque aleatorio

#df

Es un ensamble de árboles de decisión en el que cada árbol de decisión se entrena con un ruido aleatorio específico, como el bolso.

Los bosques aleatorios son un tipo de bosque de decisión.

root

#df

El nodo inicial (la primera condición) en un árbol de decisión. Por convención, los diagramas ubican la raíz en la parte superior del árbol de decisiones. Por ejemplo:

Un árbol de decisiones con dos condiciones y tres hojas. La condición inicial (x > 2) es la raíz.

S

muestreo con reemplazo

#df

Un método para seleccionar elementos de un conjunto de elementos candidatos en el que se puede elegir el mismo elemento varias veces. La frase "con reemplazo" significa que después de cada selección, el elemento seleccionado se devuelve al grupo de elementos candidatos. El método inverso, muestreo sin reemplazo, significa que un elemento candidato solo se puede elegir una vez.

Por ejemplo, considera el siguiente conjunto de frutas:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Supongamos que el sistema elige de forma aleatoria fig como primer elemento. Si usas el muestreo con reemplazo, el sistema selecciona el segundo elemento del siguiente conjunto:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Sí, es la misma configuración que antes, por lo que el sistema podría volver a elegir fig.

Si se usa un muestreo sin reemplazo, una vez recolectada, no se puede volver a elegir. Por ejemplo, si el sistema elige de forma aleatoria fig como la primera muestra, no se puede volver a elegir fig. Por lo tanto, el sistema elige la segunda muestra del siguiente conjunto (reducido):

fruit = {kiwi, apple, pear, cherry, lime, mango}

reducción

#df

Es un hiperparámetro en el potenciador de gradientes que controla el sobreajuste. La contracción en el aumento de gradiente es análoga a la tasa de aprendizaje en el descenso de gradientes. La reducción es un valor decimal entre 0.0 y 1.0. Un valor de reducción más bajo reduce el sobreajuste más que un valor de reducción mayor.

split

#df

En un árbol de decisión, otro nombre para una condición.

divisor

#df

Mientras se entrena un árbol de decisión, la rutina (y el algoritmo) responsables de encontrar la mejor condición en cada nodo

T

test

#df

En un árbol de decisión, otro nombre para una condición.

umbral (para árboles de decisión)

#df

En una condición alineada con ejes, es el valor con el que se compara un atributo. Por ejemplo, 75 es el valor del umbral en la siguiente condición:

grade >= 75

V

importancias de las variables

#df

Un conjunto de puntuaciones que indican la importancia relativa de cada atributo para el modelo.

Por ejemplo, considera un árbol de decisión que estima el precio de las casas. Supongamos que este árbol de decisión usa tres atributos: tamaño, edad y estilo. Si se calcula que un conjunto de importancias variables para los tres atributos es {size=5.8, age=2.5, style=4.7}, entonces el tamaño es más importante para el árbol de decisión que la antigüedad o el estilo.

Existen diferentes métricas de importancia de las variables que pueden informar a los expertos en AA sobre los diferentes aspectos de los modelos.

M

sabiduría de la multitud

#df

La idea de que promediar las opiniones o estimaciones de un gran grupo de personas ("la multitud") suele producir resultados sorprendentemente buenos. Por ejemplo, considera un juego en el que las personas adivinen la cantidad de gomitas empaquetados en un frasco grande. Si bien la mayoría de las conjeturas individuales son imprecisas, se demostró empíricamente que el promedio de todas las suposiciones se parece sorprendentemente a la cantidad real de gomitas en el frasco.

Los conjuntos son una herramienta de software similar a la sabiduría de la multitud. Incluso si los modelos individuales hacen predicciones muy imprecisas, promediar las predicciones de muchos modelos suele generar predicciones sorprendentemente buenas. Por ejemplo, aunque un árbol de decisión individual puede hacer predicciones deficientes, un bosque de decisión a menudo hace muy buenas predicciones.