Floresta aleatória

Isso é um boi.

Uma antiga foto de um boi.

Figura 19. Um boi.

 

Em 1906, foi realizada uma concorrência de julgamento de peso na Inglaterra. 787 participantes adivinharam o peso de um boi. O erro médio de tentativas individuais foi de 37 lb (um erro de 3,1%). No entanto, a média geral das adivinhações estava a apenas 9 libras do peso real do óxido (1.198 lb), o que foi um erro de apenas 0,7%.

Histograma de suposições individuais, mostrando a maioria das suposições
agrupadas em torno do peso real do boi.

Figura 20. Histograma de suposições individuais de peso.

 

Esse exemplo ilustra a sabedoria da multidão: em determinadas situações, a opinião coletiva oferece bom julgamento.

Matematicamente, a sabedoria da multidão pode ser modelada com o teorema do limite central: intencionalmente, o erro quadrático entre um valor e a média de N estimativas barulhenta desse valor tende a zerar com um fator 1/N. No entanto, se as variáveis não forem independentes, a variação será maior.

Em machine learning, um ensemble é um conjunto de modelos cujas previsões são médias (ou agregadas de alguma forma). Se os modelos de ensemble forem diferentes o suficiente sem serem muito ruins individualmente, a qualidade do ensemble geralmente é melhor do que a qualidade de cada um dos modelos individuais. Um ensemble exige mais tempo de treinamento e inferência do que um único modelo. Afinal, é preciso realizar treinamento e inferência em vários modelos em vez de um único modelo.

Internamente, para que um ensemble funcione melhor, os modelos individuais devem ser independentes. Como ilustração, um ensemble composto de 10 dos mesmos modelos (ou seja, não independentes) não será melhor do que o modelo individual. Por outro lado, forçar os modelos a serem independentes pode significar a piorar. Para um efeito de efeito eficiente, é preciso encontrar o equilíbrio entre a independência de modelo e a qualidade dos submodelos.