Paso 1: Recopila datos

Recopilar datos es el paso más importante para resolver cualquier problema de aprendizaje automático supervisado. Tu clasificador de texto solo puede ser tan bueno como el conjunto de datos a partir del cual se creó.

Si no tienes un problema específico que quieras resolver y solo te interesa explorar la clasificación de texto en general, hay muchos conjuntos de datos de código abierto disponibles. Puedes encontrar vínculos a algunos de ellos en nuestro repositorio de GitHub. Por otro lado, si estás abordando un problema específico, deberás recopilar los datos necesarios. Muchas organizaciones proporcionan API públicas para acceder a sus datos, por ejemplo, la API de Twitter o la API de NY Times. Es posible que puedas aprovecharlos para el problema que intentas resolver.

Estos son algunos puntos importantes que debes recordar al recopilar datos:

  • Si usas una API pública, comprende las limitaciones de la API antes de usarlas. Por ejemplo, algunas API establecen un límite en la velocidad a la que puedes realizar consultas.
  • Cuantos más ejemplos de entrenamiento (denominados muestras en el resto de esta guía), mejor. Esto ayudará a que su modelo se generalice mejor.
  • Asegúrate de que la cantidad de muestras para cada clase o tema no esté desequilibrada en exceso. Es decir, debes tener una cantidad comparable de muestras en cada clase.
  • Asegúrate de que tus muestras cubran de manera adecuada el espacio de posibles entradas, no solo los casos comunes.

En esta guía, usaremos el conjunto de datos de opiniones de películas de la base de datos de películas de Internet (IMDb) para ilustrar el flujo de trabajo. Este conjunto de datos contiene opiniones sobre películas publicadas por personas en el sitio web de IMDb, así como las etiquetas correspondientes (“positivas” o “negativas”) que indican si al revisor le gustó o no la película. Este es un ejemplo clásico de un problema de análisis de opiniones.