Glosario sobre aprendizaje automático: bosques de decisión

Esta página contiene términos del glosario de Decision Forests. Para ver todos los términos del glosario, haz clic aquí.

R

muestreo de atributos

#df

Táctica para entrenar un bosque de decisión en el que cada árbol de decisión considera solo un subconjunto aleatorio de atributos posibles cuando aprende la condición. En general, se realiza un muestreo de un subconjunto diferente de atributos para cada nodo. Por el contrario, cuando se entrena un árbol de decisión sin muestreo de atributos, se consideran todos los atributos posibles para cada nodo.

condición de alineación de ejes

#df

En un árbol de decisión, es una condición que implica solo un atributo. Por ejemplo, si el área es un atributo, la siguiente es una condición alineada:

area > 200

Compara esto con la condición oblicua.

M

embolsado

#df

Método para entrenar un ensamble en el que cada modelo constituyente se entrena con un subconjunto aleatorio de ejemplos de entrenamiento que se muestrean con reemplazo. Por ejemplo, un bosque aleatorio es una colección de árboles de decisión entrenados con bagging.

El término bagging es la forma abreviada de bootstrap aggregating

condición binaria

#df

En un árbol de decisión, una condición que solo tiene dos resultados posibles, generalmente yes o no. Por ejemplo, la siguiente es una condición binaria:

temperature >= 100

Compara esto con condición no binaria.

C

condición

#df

En un árbol de decisión, cualquier nodo que evalúa una expresión. Por ejemplo, la siguiente parte de un árbol de decisión contiene dos condiciones:

Un árbol de decisión que consta de dos condiciones: (x > 0) y (y > 0).

Una condición también se denomina división o prueba.

Condición de contraste con hoja.

También consulte lo siguiente:

D

bosque de decisiones

#df

Modelo creado a partir de varios árboles de decisión. Un bosque de decisiones realiza una predicción mediante la agregación de las predicciones de sus árboles de decisión. Los tipos populares de bosques de decisión incluyen los bosques aleatorios y los árboles con boosting del gradiente.

árbol de decisión

#df

Modelo de aprendizaje supervisado compuesto por un conjunto de condiciones y hojas organizadas de forma jerárquica. Por ejemplo, el siguiente es un árbol de decisión:

Un árbol de decisión que consta de cuatro condiciones organizadas de forma jerárquica, lo que genera cinco hojas.

E

entropía

#df

En la teoría de la información, una descripción de qué tan impredecible es una distribución de probabilidad. De forma alternativa, la entropía también se define como cuánta información contiene cada ejemplo. Una distribución tiene la entropía más alta posible cuando todos los valores de una variable aleatoria son igual de probables.

La entropía de un conjunto con dos valores posibles "0" y "1" (por ejemplo, las etiquetas en un problema de clasificación binaria) tiene la siguiente fórmula:

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

Donde:

  • H es la entropía.
  • p es la fracción de ejemplos de “1”.
  • q es la fracción de ejemplos "0". Ten en cuenta que q = (1 - p)
  • log suele ser registro2. En este caso, la unidad de entropía es un poco.

Por ejemplo, supongamos lo siguiente:

  • 100 ejemplos contienen el valor "1"
  • 300 ejemplos contienen el valor "0"

Por lo tanto, el valor de entropía es el siguiente:

  • p = 0.25
  • q = 0.75
  • H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 0.81 bits por ejemplo

Un conjunto que esté perfectamente equilibrado (por ejemplo, 200 "0" y 200 "1") tendría una entropía de 1.0 bits por ejemplo. A medida que un conjunto se vuelve desequilibrado, su entropía se mueve hacia 0.0.

En los árboles de decisión, la entropía ayuda a formular el aumento de la información para ayudar al divisor a seleccionar las condiciones durante el crecimiento de un árbol de decisión de clasificación.

Compara la entropía con lo siguiente:

La entropía suele denominarse entropía de Shannon.

V

importancias de las funciones

#df

Sinónimo de importancias variables.

G

impureza gini

#df

Una métrica similar a la entropía. Los divisores usan valores derivados de la impureza gini o la entropía para componer condiciones para los árboles de decisión de clasificación. Aumento de la información deriva de la entropía. No hay un término equivalente aceptado universalmente para la métrica derivada de impureza gini; sin embargo, esta métrica sin nombre es tan importante como la ganancia de información.

La impureza Gini también se denomina índice de Gini o simplemente gini.

boosting de gradiente

#df

Algoritmo de entrenamiento en el que los modelos débiles se entrenan para mejorar de forma iterativa la calidad (reducir la pérdida) de un modelo fuerte. Por ejemplo, un modelo débil puede ser un modelo de árbol de decisión pequeño o lineal. El modelo sólido se convierte en la suma de todos los modelos débiles previamente entrenados.

En la forma más simple de boosting de gradiente, en cada iteración, se entrena un modelo débil para predecir la gradiente de pérdida del modelo fuerte. Luego, el resultado del modelo sólido se actualiza mediante la resta del gradiente previsto, similar al descenso de gradientes.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

Donde:

  • $F_{0}$ es el modelo inicial sólido.
  • $F_{i+1}$ es el próximo modelo sólido.
  • $F_{i}$ es el modelo sólido actual.
  • $\xi$ es un valor entre 0.0 y 1.0 llamado reducción, que es análogo a la tasa de aprendizaje en descenso de gradientes.
  • $f_{i}$ es el modelo débil entrenado para predecir la gradiente de pérdida de $F_{i}$.

Las variaciones modernas del boosting de gradiente también incluyen la segunda derivada (hessiana) de la pérdida en su cálculo.

Los árboles de decisión se usan comúnmente como modelos débiles en el boosting de gradientes. Consulta árboles de boosting (decisión) con gradiente.

Árboles con boosting del gradiente (decisión) (GBT)

#df

Es un tipo de bosque de decisión en el que:

I

ruta de inferencia

#df

En un árbol de decisión, durante la inferencia, la ruta que toma un ejemplo particular de la raíz a otras condiciones y termina con una hoja. Por ejemplo, en el siguiente árbol de decisión, las flechas más gruesas muestran la ruta de inferencia para un ejemplo con los siguientes valores de atributos:

  • x = 7
  • y = 12
  • z = 3

La ruta de inferencia en la siguiente ilustración viaja a través de tres condiciones antes de alcanzar la hoja (Zeta).

Un árbol de decisión que consta de cuatro condiciones y cinco hojas.
          La condición raíz es (x > 0). Como la respuesta es Sí, la ruta de inferencia viaja desde la raíz hasta la siguiente condición (y > 0).
          Como la respuesta es Sí, la ruta de inferencia pasa a la siguiente condición (z > 0). Como la respuesta es No, la ruta de inferencia viaja a su nodo terminal, que es la hoja (Zeta).

Las tres flechas gruesas muestran la ruta de inferencia.

aumento en la información

#df

En los bosques de decisión, es la diferencia entre la entropía de un nodo y la suma ponderada (por número de ejemplos) de la entropía de sus nodos secundarios. La entropía de un nodo es la entropía de los ejemplos de ese nodo.

Por ejemplo, considera los siguientes valores de entropía:

  • entropía del nodo superior = 0.6
  • entropía de un nodo secundario con 16 ejemplos relevantes = 0.2
  • entropía de otro nodo secundario con 24 ejemplos relevantes = 0.1

Por lo tanto, el 40% de los ejemplos se encuentran en un nodo secundario y el 60% en el otro nodo secundario. Por lo tanto:

  • Suma de entropía ponderada de nodos secundarios = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

Entonces, la ganancia de información es la siguiente:

  • ganancia de información = entropía del nodo superior - suma de entropía ponderada de los nodos secundarios
  • ganancia de información = 0.6 - 0.14 = 0.46

La mayoría de los divisores buscan crear condiciones que maximicen la obtención de información.

condición del conjunto

#df

En un árbol de decisión, es una condición que comprueba la presencia de un elemento en un conjunto. Por ejemplo, la siguiente es una condición de conjunto:

  house-style in [tudor, colonial, cape]

Durante la inferencia, si el valor del atributo de estilo propio es tudor, colonial o cape, esta condición se evalúa como Sí. Si el valor del atributo de estilo de la casa es algo diferente (por ejemplo, ranch), esta condición se evalúa como No.

Por lo general, las condiciones en el conjunto generan árboles de decisión más eficientes que las condiciones que prueban funciones con codificación one-hot.

L

hoja

#df

Cualquier extremo de un árbol de decisión A diferencia de una condición, una hoja no realiza una prueba. En cambio, una hoja es una predicción posible. Una hoja también es el nodo de la terminal de una ruta de inferencia.

Por ejemplo, el siguiente árbol de decisión contiene tres hojas:

Un árbol de decisión con dos condiciones que conducen a tres hojas.

N

nodo (árbol de decisión)

#df

En un árbol de decisión, cualquier condición o hoja.

Un árbol de decisión con dos condiciones y tres hojas.

condición no binaria

#df

Condición que contiene más de dos resultados posibles. Por ejemplo, la siguiente condición no binaria contiene tres resultados posibles:

Una condición (number_of_legs = ?) que genera tres resultados posibles. Un resultado (number_of_legs = 8) conduce a una hoja llamada spider. Un segundo resultado (number_of_legs = 4) genera
          una hoja llamada perro. Un tercer resultado (number_of_legs = 2) lleva a una hoja llamada pingüino.

O

condición oblicua

#df

En un árbol de decisión, es una condición que incluye más de un atributo. Por ejemplo, si la altura y el ancho son atributos, la siguiente es una condición oblicua:

  height > width

Compara esto con la condición alineada con ejes.

evaluación fuera de bolsa (evaluación OOB)

#df

Un mecanismo para evaluar la calidad de un bosque de decisión mediante la prueba de cada árbol de decisión en comparación con los ejemplos no usados durante el entrenamiento de ese árbol de decisión. Por ejemplo, en el siguiente diagrama, observa que el sistema entrena cada árbol de decisión en aproximadamente dos tercios de los ejemplos y, luego, evalúa con el tercio restante de los ejemplos.

Un bosque de decisiones que consta de tres árboles de decisión.
          Un árbol de decisión entrena en dos tercios de los ejemplos y, luego, usa el tercio restante para la evaluación de OOB.
          Un segundo árbol de decisión se entrena con dos tercios diferentes de los ejemplos que el árbol de decisión anterior y, luego, usa un tercio diferente para la evaluación de OOB que el árbol de decisión anterior.

La evaluación fuera de bolso es una aproximación conservadora y eficiente en términos de procesamiento del mecanismo de validación cruzada. En la validación cruzada, se entrena un modelo para cada ronda de validación cruzada (por ejemplo, 10 modelos se entrenan en una validación cruzada de 10 veces). Con la evaluación de OOB, se entrena un solo modelo. Debido a que la bolsa conserva algunos datos de cada árbol durante el entrenamiento, la evaluación de OOB puede usarlos para aproximar la validación cruzada.

P

importancias de la variable de permutación

#df

Tipo de importancia variable que evalúa el aumento en el error de la predicción de un modelo después de activar los valores de los atributos. La importancia de la variable de permutación es una métrica independiente del modelo.

(der.)

bosque aleatorio

#df

Un ensamble de árboles de decisión en el que cada árbol de decisión se entrena con un ruido aleatorio específico, como bolsa.

Los bosques aleatorios son un tipo de bosque de decisión.

root

#df

El nodo inicial (la primera condición) de un árbol de decisión. Por convención, los diagramas colocan la raíz en la parte superior del árbol de decisión. Por ejemplo:

Un árbol de decisión con dos condiciones y tres hojas. La condición inicial (x > 2) es la raíz.

4

muestreo con reemplazo

#df

Un método de selección de elementos de un conjunto de elementos candidatos en los que el mismo elemento se puede elegir varias veces. La frase "con reemplazo" significa que, después de cada selección, el elemento seleccionado se muestra al grupo de elementos candidatos. El método inverso, muestreo sin reemplazo, significa que un elemento candidato solo se puede elegir una vez.

Por ejemplo, considera el siguiente conjunto de frutas:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Supongamos que el sistema elige al azar fig como el primer elemento. Si usas el muestreo con reemplazos, el sistema elige el segundo elemento del siguiente conjunto:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Sí, es el mismo conjunto que antes, por lo que el sistema podría volver a elegir fig.

Si se usa un muestreo sin reemplazo, una vez que se elija una muestra, no se podrá volver a elegir. Por ejemplo, si el sistema elige fig de forma aleatoria como la primera muestra, fig no se puede volver a elegir. Por lo tanto, el sistema elige la segunda muestra del siguiente conjunto (reducido):

fruit = {kiwi, apple, pear, cherry, lime, mango}

reducción

#df

Un hiperparámetro en el refuerzo de gradientes que controla el sobreajuste. La reducción del refuerzo de gradientes es análoga a la tasa de aprendizaje en el descenso de gradientes. La reducción es un valor decimal entre 0.0 y 1.0. Un valor de reducción más bajo reduce el sobreajuste más que un valor de reducción más grande.

split

#df

En un árbol de decisión, es otro nombre para una condición.

separador

#df

Mientras se entrena un árbol de decisión, la rutina (y el algoritmo) son responsables de encontrar la mejor condición en cada nodo.

T

prueba

#df

En un árbol de decisión, es otro nombre para una condición.

umbral (para árboles de decisión)

#df

En una condición alineada con ejes, se compara el valor con el que se compara un atributo. Por ejemplo, 75 es el valor del umbral en la siguiente condición:

grade >= 75

V

importancias variables

#df

Un conjunto de puntuaciones que indica la importancia relativa de cada atributo para el modelo.

Por ejemplo, considera un árbol de decisión que calcula los precios de las casas. Supongamos que en este árbol de decisión se usan tres atributos: tamaño, edad y estilo. Si se calcula que un conjunto de importancias para los tres atributos es {size=5.8, age=2.5, style=4.7}, entonces el tamaño es más importante para el árbol de decisión que la edad o el estilo.

Existen métricas de importancia variables distintas, que pueden informar a los expertos en AA sobre diferentes aspectos de los modelos.

M

sabiduría de la multitud

#df

La idea de promediar las opiniones o las estimaciones de un grupo grande de personas ("la multitud") suele producir resultados sorprendentemente buenos. Por ejemplo, considera un juego en el que las personas adivinen la cantidad de gomitas en un frasco grande. Si bien la mayoría de las suposiciones no serán precisas, se demostró que la media de todas las suposiciones es empíricamente cercana al número real de gomitas del frasco.

Los conjuntos son análogos de software de la sabiduría de la multitud. Incluso si los modelos individuales hacen predicciones extremadamente imprecisas, promediar los resultados de muchos modelos suele generar predicciones muy buenas. Por ejemplo, aunque un árbol de decisión individual puede hacer predicciones deficientes, un bosque de decisión a menudo hace predicciones muy buenas.