Sistemas de aprendizaje automático en el mundo real: Literatura

En esta lección, depurarás un problema de aprendizaje automático en el mundo real* relacionado con la literatura del siglo XVIII.

Ejemplo del mundo real: Literatura del siglo XVIII

Ejemplo del mundo real: Literatura del siglo XVIII

  • Un profesor de literatura del siglo XVIII quería predecir la afiliación política de los autores basándose únicamente en las "metáforas de la mente" que usaba cada uno de ellos.
Libros antiguos

Ejemplo del mundo real: Literatura del siglo XVIII

  • Un profesor de literatura del siglo XVIII quería predecir la afiliación política de los autores basándose únicamente en las "metáforas de la mente" que usaba cada uno de ellos.
  • Un equipo de investigadores creó un gran conjunto de datos etiquetados con las obras de muchos autores, oración por oración, y lo dividió en conjuntos de entrenamiento, validación y prueba.
Libros antiguos

Ejemplo del mundo real: Literatura del siglo XVIII

  • Un profesor de literatura del siglo XVIII quería predecir la afiliación política de los autores basándose únicamente en las "metáforas de la mente" que usaba cada uno de ellos.
  • Un equipo de investigadores creó un gran conjunto de datos etiquetados con las obras de muchos autores, oración por oración, y lo dividió en conjuntos de entrenamiento, validación y prueba.
  • El modelo entrenado funcionó casi perfectamente en los datos de prueba, pero a los investigadores les pareció que los resultados eran sospechosamente exactos. ¿Qué podría haber salido mal?
Libros antiguos

Ejemplo del mundo real: Literatura del siglo XVIII

¿Por qué crees que la precisión de la prueba fue sospechosamente alta? Intenta resolver el problema y, luego, haz clic en el botón Reproducir ▶ que aparece a continuación para ver si acertaste.

Ejemplo del mundo real: Literatura del siglo XVIII

  • División de datos A: Los investigadores colocan algunos de los ejemplos de cada autor en el conjunto de entrenamiento, otros en el conjunto de validación y otros en el conjunto de prueba.
Todos los ejemplos de Richardson podrían estar en el conjunto de entrenamiento, mientras que todos los de Swift podrían estar en el conjunto de validación.

Ejemplo del mundo real: Literatura del siglo XVIII

  • División de datos B: Los investigadores colocan todos los ejemplos de cada autor en un solo conjunto.

Ejemplo del mundo real: Literatura del siglo XVIII

  • División de datos A: Los investigadores colocan algunos de los ejemplos de cada autor en el conjunto de entrenamiento, otros en el conjunto de validación y otros en el conjunto de prueba.
  • División de datos B: Los investigadores colocan todos los ejemplos de cada autor en un solo conjunto.
  • Resultados: El modelo entrenado de la División de datos A tuvo mucha más exactitud que el modelo entrenado de la División de datos B.

Ejemplo del mundo real: Literatura del siglo XVIII

Moraleja: Considera cuidadosamente cómo divides los ejemplos.

Reconoce qué representan los datos.

* Este módulo se basó en líneas muy generales (con algunas modificaciones sobre la marcha) en "Meaning and Mining: the Impact of Implicit Assumptions in Data Mining for the Humanities" de Sculley y Pasanek.

Enviar comentarios sobre…

Curso intensivo de aprendizaje automático