Medidas de semelhança: verifique seu conhecimento

Um gráfico mostrando os pontos a, b e c em relação a um ponto central.
Na imagem acima, se você quiser que "b" seja mais semelhante a "a" do que "b" é a "c", qual medida precisa escolher?
Produto escalar
correto. O produto de ponto é proporcional ao cosseno e aos comprimentos de vetores. Assim, mesmo que o cosseno seja maior para "b" e "c", o comprimento maior de "a" torna "a" e "b" mais semelhante a "b" e "c".
Cosseno
O cosseno depende apenas do ângulo entre os vetores, e o ângulo menor \(\theta_{bc}\) torna \(\cos(\theta_{bc})\) maior do que \(\cos(\theta_{ab})\).
Distância euclidiana
A distância \(\vec{bc}\) é menor que \(\vec{ab}\) , tornando "b" mais semelhante a "c" do que a "a".
Você está calculando a semelhança com vídeos de música. A duração dos vetores de embedding dos vídeos de música é proporcional à popularidade. Agora, você escolhe o produto ponto em vez de cosseno para calcular a semelhança. Como a semelhança entre os vídeos de música muda?
Os vídeos famosos se tornam mais parecidos com todos os vídeos em geral.
Como o produto de ponto é afetado pela duração dos dois vetores, a maior duração vetorial de vídeos populares o torna mais semelhante a todos os vídeos.
Esse tipo de conteúdo fica mais parecido com outros vídeos em alta.
O produto de ponto é calculado como \(|a||b|\cos(\theta)\). Supondo que "a" seja um vídeo de música famoso, sabemos que a duração da incorporação, \(|a|\), é maior do que a de vídeos não famosos. O comprimento maior aumenta o produto de ponto, independentemente do valor de \(|b|\). Por isso, vídeos populares se tornam mais parecidos com todos os outros vídeos, não apenas outros vídeos populares.
Os vídeos famosos se tornam menos semelhantes do que os menos acessados.
Como o produto de pontos aumenta com o tamanho do vetor, e os vídeos populares têm alto comprimento do vetor, a medida de semelhança aumentará, não diminuirá.
Não houve alterações.
O produto de pontos é afetado pela duração do vetor, e o comprimento de alto vetor de vídeos populares altera a medida de semelhança.
No mesmo cenário da pergunta anterior, suponha que você mude de cosseno de produto de ponto. Como a semelhança entre os vídeos de música muda?
Os vídeos famosos se tornam menos semelhantes do que os menos acessados.
Como o cosseno não é afetado pelo tamanho do vetor, o grande tamanho do vetor de embeddings de vídeos populares não contribui para a semelhança. Por isso, mudar para o cosseno de um produto pontilhado reduz a semelhança com vídeos famosos.
Os vídeos famosos se tornam mais parecidos do que os menos acessados.
O cosseno não é afetado pelos tamanhos dos vetores, portanto, alternar do produto de ponto faz com que as semelhanças entre todos os vídeos populares diminuam.
Não houve alterações.
Como o cosseno não é afetado pelo tamanho do vetor, o uso de cosseno resultará em semelhanças diferentes.