Embeddings: ejercicios interactivos

El siguiente widget, basado en Embedding Projector de TensorFlow, compacta 10,000 vectores estáticos de word2vec en un espacio de 3 dimensiones. Esta contracción de dimensiones puede ser engañosa porque los puntos más cercanos entre sí en el espacio de alta dimensión original pueden aparecer más lejanos en la proyección de 3 dimensiones. Los puntos n más cercanos están resaltados en violeta, con n elegidos por el usuario en Isolate __ points. La barra lateral de la derecha identifica a los vecinos más cercanos.

En estos experimentos, jugarás con los embeddings de word2vec en el widget mencionado antes.

Tarea 1

Intenta encontrar los 20 vecinos más cercanos con los siguientes valores y ver dónde quedan los grupos en la nube.

  • iii, third y three
  • tao y way
  • orange, yellow y juice

¿Qué observas acerca de estos resultados?

Haz clic aquí para ver nuestra respuesta

Aunque iii, third y three son semánticamente similares, aparecen en contextos diferentes en el texto y no parecen estar cerca en este espacio de embedding. En word2vec, iii está más cerca de iv que de third.

De forma similar, si bien way es una traducción directa de tao, estas palabras aparecen con más frecuencia con grupos de palabras completamente distintos en el conjunto de datos que se usó. Por lo tanto, los dos vectores están muy alejados.

Los primeros vecinos más cercanos de orange son colores, pero juice y peel, relacionados con el significado de orange de fruta, aparecen como los vecinos más cercanos en el puesto 14 y 18. Mientras tanto, prince, como en Prince of Orange, está en el puesto 17. En la proyección, las palabras más cercanas a orange son yellow y otros colores, mientras que las palabras más cercanas a juice no incluyen orange.

Tarea 2

Intenta descubrir algunas características de los datos de entrenamiento. Por ejemplo, trata de encontrar los 100 vecinos más cercanos de los siguientes valores y ver dónde quedan los grupos en la nube:

  • boston, paris, tokyo, delhi, moscow y seoul (esta es una pregunta tramposa)
  • jane, sarah, john, peter, rosa y juan

Haz clic aquí para ver nuestra respuesta

Muchos de los vecinos más cercanos de boston son otras ciudades de EE.UU. Muchos de los vecinos más cercanos de paris son otras ciudades de Europa. tokyo y delhi parecen no tener resultados similares: una se asocia con ciudades de todo el mundo que son centros turísticos, mientras que la otra se asocia con india y palabras relacionadas. seoul ni siquiera aparece en este conjunto resumido de vectores de palabras.

Parece que este conjunto de datos contiene muchos documentos relacionados a la geografía nacional de EE.UU., algunos documentos relacionados a la geografía regional de Europa y no mucha cobertura detallada de otros países ni regiones.

De forma similar, parece que este conjunto de datos contiene muchos nombres masculinos en inglés, algunos nombres femeninos en inglés y muchos menos nombres en otros idiomas. Observa que Don Rosa ilustró y escribió historietas de Scrooge McDuck para Disney, lo que probablemente sea el motivo por el que "scrooge" y "mcduck" están entre los vecinos más cercanos de "rosa".

De hecho, los vectores de palabras entrenados previamente que ofrece word2vec se entrenaron con artículos de Google Noticias de hasta 2013.

Tarea 3

Los embeddings no se limitan a palabras. También pueden incluir imágenes, audio y otros datos. Para esta tarea, haz lo siguiente:

  1. Abre Embedding Projector de TensorFlow.
  2. En la barra lateral izquierda llamada Data, elige Mnist with images. De este modo, se muestra una proyección de los embeddings de la base de datos de MNIST de dígitos escritos a mano.
  3. Haz clic para detener la rotación y elegir una sola imagen. Acerca o aleja según sea necesario.
  4. Fíjate en la barra lateral derecha para ver los vecinos más cercanos. ¿Encontraste alguna sorpresa?
  • ¿Por qué algunos 7s tienen 1s como su vecino más cercano? ¿Por qué algunos 8s tienen 9 como su vecino más cercano?
  • ¿Hay algo en las imágenes de los bordes del espacio de proyección que parece diferente a las imágenes del centro del espacio de proyección?

Ten en cuenta que el modelo que creó estos embeddings está recibiendo datos de imágenes, es decir píxeles, y eligiendo una representación numérica de vector para cada imagen. El modelo no hace una asociación mental automática entre la imagen del dígito escrito a mano y el dígito numérico en sí.

Haz clic aquí para ver nuestra respuesta

Debido a similitudes de forma, las representaciones de vector de algunos de los 7s más finos y delgados se colocan más cerca de los vectores de los 1s escritos a mano. Lo mismo sucede con algunos 8s y 9s, y hasta con algunos de los 5s y 3s.

Los dígitos escritos a mano que están en la parte externa del espacio de proyección parecen más fuertemente definibles como uno de los nueve dígitos y fuertemente diferenciados de otros posibles dígitos.