Sistemas de AA en el mundo real: Literatura

En esta lección, aprenderás a depurar un problema del AA en el mundo real* relacionado con la literatura del siglo XVIII.

Ejemplo del mundo real: Literatura del siglo XVIII

  • Un profesor de literatura del siglo XVIII quería predecir la afiliación política de los autores basándose únicamente en las metáforas de la mente.
Libros antiguos
  • Un profesor de literatura del siglo XVIII quería predecir la afiliación política de los autores basándose únicamente en las metáforas de la mente.
  • Un equipo de investigadores creó un gran conjunto de datos etiquetados con muchos autores, obras, oración por oración, y lo dividió en conjuntos de entrenamiento, validación y prueba.
Libros antiguos
  • Un profesor de literatura del siglo XVIII quería predecir la afiliación política de los autores basándose únicamente en las metáforas de la mente.
  • Un equipo de investigadores creó un gran conjunto de datos etiquetados con muchos autores, obras, oración por oración, y lo dividió en conjuntos de entrenamiento, validación y prueba.
  • El modelo entrenado funcionó casi perfectamente en los datos de prueba, pero los investigadores consideraron que los resultados eran sospechosamente precisos. ¿Qué pudo haber salido mal?
Libros antiguos

¿Por qué consideras que la precisión de las pruebas fue sospechosamente alta? Intenta resolver el problema y, luego, haz clic en el botón Reproducir ▶ que aparece a continuación para ver si acertaste.

  • División de datos A: Los investigadores colocan algunos de los ejemplos de cada autor en el conjunto de entrenamiento, otros en el conjunto de validación y otros en el conjunto de prueba.
Todos los ejemplos de Richardson pueden estar en el conjunto de entrenamiento, mientras que todos los ejemplos de Swift pueden estar en el conjunto de validación.
Diagrama que muestra el desglose de ejemplos de autores en los conjuntos de entrenamiento, validación y prueba. Los ejemplos de cada uno de los tres autores se representan en cada conjunto.
  • División de datos B: Los investigadores colocan todos los ejemplos de cada autor en un solo conjunto.
Diagrama que muestra el desglose de ejemplos de autores en los conjuntos de entrenamiento, validación y prueba. El conjunto de entrenamiento solo contiene ejemplos de Swift, el conjunto de validación solo contiene ejemplos de Blake y el conjunto de prueba solo contiene ejemplos de Defoe.
  • División de datos A: Los investigadores colocan algunos de los ejemplos de cada autor en el conjunto de entrenamiento, otros en el conjunto de validación y otros en el conjunto de prueba.
  • División de datos B: Los investigadores colocan todos los ejemplos de cada autor en un solo conjunto.
  • Resultados: El modelo entrenado en la División de datos A tuvo una exactitud mucho mayor que el modelo entrenado en la División de datos B.

Moraleja: Considera cuidadosamente cómo divides los ejemplos.

Conoce qué representan los datos.

* Este módulo se basó en líneas muy generales (con algunas modificaciones sobre la marcha) en “Meaning and Mining: the Impact of Implicit Assumptions in Data Mining for the Humanities" de Sculley y Pasanek.