Embeddings: tradução para um espaço de menor dimensão

Resolva os principais problemas de dados de entrada esparsos mapeando os dados de alta dimensão em um espaço de dimensão inferior.

Como visto nos exercícios de cinema, até mesmo um pequeno espaço multidimensional oferece a liberdade de agrupar itens semanticamente semelhantes e manter os itens diferentes um do outro. A posição (distância e direção) no espaço vetorial pode codificar a semântica em uma boa incorporação. Por exemplo, as seguintes visualizações de embeddings reais mostram relações geométricas que capturam relações semânticas como a relação entre um país e sua capital:

Três exemplos de embeddings de palavras que representam as relações de palavras de forma geométrica: gênero (homem/mulher e rei/rainha), tempo verbal (caminhando/caminhando e nadando/nadando) e capitais (Turquia/Ancara e Vietnã/Hanoi)

Figura 4. Os embeddings podem produzir analogias notáveis.

Esse tipo de espaço significativo dá ao sistema de machine learning oportunidades de detectar padrões que podem ajudar na tarefa de aprendizado.

Como reduzir a rede

Embora queiramos dimensões suficientes para codificar relações semânticas avançadas, também queremos um espaço de incorporação pequeno o suficiente para que treine nosso sistema mais rapidamente. Uma incorporação útil pode estar na ordem de centenas de dimensões. Isso provavelmente é várias ordens de grandeza menor que o tamanho do seu vocabulário para uma tarefa de linguagem natural.