임베딩은 고차원 벡터의 변환을 통해 생성할 수 있는 상대적인 저차원 공간을 가리킵니다. 임베딩을 사용하면 단어를 나타내는 희소 벡터와 같이 커다란 입력값에 대해 머신러닝을 더 쉽게 수행할 수 있습니다. 임베딩이 잘 동작하는 경우 의미가 유사한 입력값들을 임베딩 공간 안에 서로 근접하게 위치시켜 입력값의 특정 의미를 포착합니다. 임베딩은 모델과 관계없이 학습과 재사용이 가능합니다.
임베딩
협업 필터링에서 필요한 경우
- 입력: 사용자 500,000명이 선택한 영화 1,000,000편
- 작업: 사용자에게 영화 추천
이 문제를 해결하려면 어떤 영화가 서로 비슷한지 파악하는 방법이 필요합니다.
유사성별로 영화 정리(1차원)
유사성별로 영화 정리(2차원)
2차원 임베딩
2차원 임베딩
d차원 임베딩
- 영화에 대한 사용자의 관심분야를 대략 d개의 측면에서 설명할 수 있다고 가정합니다.
- 각각의 영화는 차원 d의 값이 해당 측면에 대한 각 영화의 일치도를 나타내는 d차원 지점이 됩니다.
- 임베딩은 데이터를 통해 학습할 수 있습니다.
심층망에서 임베딩 학습
- 임베딩 레이어는 차원당 단위 하나를 갖는 히든 레이어에 불과하므로 별도의 학습 과정이 필요하지 않습니다.
- 지도 정보(예: 사용자가 동일한 영화 2개를 시청함)를 통해 원하는 작업에 맞게 학습된 임베딩을 조정합니다.
- 히든 단위는 최종 목표를 최적화하도록 d차원 공간에서 항목을 정리하는 방법을 직관적으로 발견합니다.
입력 표현
- 각 예(이 행렬의 행)는 사용자가 시청한 특성(영화)의 희소 벡터입니다.
- 이 예의 밀집 표현은 다음과 같습니다. (0, 1, 0, 1, 0, 0, 0, 1)
이 방법은 시간과 공간 측면에서 효율적이지 않습니다.

입력 표현
- 각 특성을 0에서 (영화의 수 - 1)까지의 정수로 매핑하는 사전을 만듭니다.
- 희소 벡터를 사용자가 시청한 영화로만 효율적으로 표현합니다. 이는 다음과 같이 나타낼 수 있습니다.

심층망의 임베딩 레이어
주택 판매가를 평가하는 회귀 문제
심층망의 임베딩 레이어
주택 판매가를 평가하는 회귀 문제
심층망의 임베딩 레이어
주택 판매가를 평가하는 회귀 문제
심층망의 임베딩 레이어
주택 판매가를 평가하는 회귀 문제
심층망의 임베딩 레이어
주택 판매가를 평가하는 회귀 문제
심층망의 임베딩 레이어
주택 판매가를 평가하는 회귀 문제
심층망의 임베딩 레이어
필기 입력된 숫자를 평가하는 다중 클래스 분류
심층망의 임베딩 레이어
필기 입력된 숫자를 평가하는 다중 클래스 분류
심층망의 임베딩 레이어
필기 입력된 숫자를 평가하는 다중 클래스 분류
심층망의 임베딩 레이어
필기 입력된 숫자를 평가하는 다중 클래스 분류
심층망의 임베딩 레이어
필기 입력된 숫자를 평가하는 다중 클래스 분류
심층망의 임베딩 레이어
필기 입력된 숫자를 평가하는 다중 클래스 분류
심층망의 임베딩 레이어
필기 입력된 숫자를 평가하는 다중 클래스 분류
심층망의 임베딩 레이어
추천 영화를 평가하는 협업 필터링
심층망의 임베딩 레이어
추천 영화를 평가하는 협업 필터링
심층망의 임베딩 레이어
추천 영화를 평가하는 협업 필터링
심층망의 임베딩 레이어
추천 영화를 평가하는 협업 필터링
심층망의 임베딩 레이어
추천 영화를 평가하는 협업 필터링
심층망의 임베딩 레이어
추천 영화를 평가하는 협업 필터링
심층망의 임베딩 레이어
추천 영화를 평가하는 협업 필터링
기하학적 보기와 대응
심층망
- 각 히든 단위는 하나의 차원(잠재 특성)에 대응합니다.
- 영화와 히든 레이어 간의 에지 가중치가 좌표 값입니다.
단일 영화 임베딩의 기하학적 보기
임베딩 차원 개수 선택
- 고차원 임베딩은 입력값 간의 관계를 더 정확하게 표현할 수 있습니다.
- 하지만 차원이 많아지면 과적합 확률이 높아져 학습 속도가 느려집니다.
- 경험적 법칙은 시작점으로는 좋지만 유효성 확인 데이터를 사용하여 조정해야 합니다. $$ dimensions \approx \sqrt[4]{possible\;values} $$
도구로서의 임베딩
- 임베딩은 유사한 항목이 서로 근접하도록 항목(예: 영화, 텍스트)을 저차원의 실제 벡터로 매핑합니다.
- 의미 있는 유사성 척도를 생성하기 위해 임베딩을 밀집 데이터(예: 오디오)에 적용할 수도 있습니다.
- 다양한 데이터 형식(예: 텍스트, 이미지, 오디오)을 공동으로 임베딩하면 서로 간의 유사성이 정의됩니다.