임베딩

임베딩은 고차원 벡터의 변환을 통해 생성할 수 있는 상대적인 저차원 공간을 가리킵니다. 임베딩을 사용하면 단어를 나타내는 희소 벡터와 같이 커다란 입력값에 대해 머신러닝을 더 쉽게 수행할 수 있습니다. 임베딩이 잘 동작하는 경우 의미가 유사한 입력값들을 임베딩 공간 안에 서로 근접하게 위치시켜 입력값의 특정 의미를 포착합니다. 임베딩은 모델과 관계없이 학습과 재사용이 가능합니다.

임베딩

  • 입력: 사용자 500,000명이 선택한 영화 1,000,000편
  • 작업: 사용자에게 영화 추천

이 문제를 해결하려면 어떤 영화가 서로 비슷한지 파악하는 방법이 필요합니다.

왼쪽에서 오른쪽으로 한 줄로 정렬된 영화 목록입니다. 왼쪽부터 '슈렉', '인크레더블', '벨빌의 세쌍둥이', '해리 포터', '스타워즈', '세 가지 색: 블루', '다크 나이트 라이즈', '메멘토'입니다.

이전 슬라이드와 동일한 영화 목록을 두 개의 차원으로 정렬했습니다. 예를 들어 '슈렉'은 '인크레더블'보다 왼쪽 위에 있습니다.

이전 다이어그램과 비슷하지만 각 사분면에 축과 라벨이 있습니다. 영화를 다음과 같이 정렬했습니다. 오른쪽 상단의 첫 번째 사분면은 성인용 블록버스터 영화로, '스타워즈'와 '다크 나이트 라이즈'와 함께 '영웅: 천하의 시작', '와호장룡'이 포함됩니다. 오른쪽 하단의 두 번째 사분면은 성인용 예술 영화로, '세 가지 색: 블루', '메멘토'와 '웨이킹 라이프'를 포함합니다. 왼쪽 하단의 세 번째 사분면은 아동용 예술 영화입니다. 여기에는 '벨빌의 세쌍둥이'가 포함되며 '월레스와 그로밋'이 아동용 예술 영화 사분면에 추가됩니다. 마지막으로 왼쪽 상단의 네 번째 사분면은 아동용 블록버스터 영화입니다. 여기에는 '슈렉', '인크레더블', '해리 포터'가 포함되며 '스쿨 오브 락'이 아동용 블록버스터 사분면에 추가됩니다.

마지막 슬라이드와 같은 배열입니다. 2차원 임베딩 평면의 좌표의 예시로 '슈렉'과 '세 가지 색: 블루'를 강조 표시했습니다.

  • 영화에 대한 사용자의 관심분야를 대략 d개의 측면에서 설명할 수 있다고 가정합니다.
  • 각각의 영화는 차원 d의 값이 해당 측면에 대한 각 영화의 일치도를 나타내는 d차원 지점이 됩니다.
  • 임베딩은 데이터를 통해 학습할 수 있습니다.
  • 임베딩 레이어는 차원당 단위 하나를 갖는 히든 레이어에 불과하므로 별도의 학습 과정이 필요하지 않습니다.
  • 지도 정보(예: 사용자가 동일한 영화 2개를 시청함)를 통해 원하는 작업에 맞게 학습된 임베딩을 조정합니다.
  • 히든 단위는 최종 목표를 최적화하도록 d차원 공간에서 항목을 정리하는 방법을 직관적으로 발견합니다.
  • 각 예(이 행렬의 행)는 사용자가 시청한 특성(영화)의 희소 벡터입니다.
  • 이 예의 밀집 표현은 다음과 같습니다. (0, 1, 0, 1, 0, 0, 0, 1)

이 방법은 시간과 공간 측면에서 효율적이지 않습니다.

표에서 각 열의 헤더는 영화, 각 행은 사용자 및 사용자가 시청한 영화입니다.
  • 각 특성을 0에서 (영화의 수 - 1)까지의 정수로 매핑하는 사전을 만듭니다.
  • 희소 벡터를 사용자가 시청한 영화로만 효율적으로 표현합니다. 이는 다음과 같이 나타낼 수 있습니다. 오른쪽에 표시된 희소 벡터의 영화 열 위치에 따르면 '벨빌의 세쌍둥이', '월레스와 그로밋', '메멘토'는 (0,1, 999999)로 효율적으로 표현될 수 있습니다.
표로 나타낸 희소 벡터에서 각 열은 영화를, 각 행은 사용자를 나타냅니다. 표에는 이전 다이어그램에 표시된 영화가 포함되어 있으며 1에서 999999까지 번호가 매겨져 있습니다. 사용자가 영화를 시청한 경우 표의 각 칸에 체크합니다.

주택 판매가를 평가하는 회귀 문제

주택 판매가를 예측하는 심층신경망의 다이어그램입니다.

주택 판매가를 평가하는 회귀 문제

주택 판매가를 예측하는 심층신경망의 다이어그램입니다.

주택 판매가를 평가하는 회귀 문제

주택 판매가를 예측하는 심층신경망의 다이어그램입니다.

주택 판매가를 평가하는 회귀 문제

주택 판매가를 예측하는 심층신경망의 다이어그램입니다.

주택 판매가를 평가하는 회귀 문제

주택 판매가를 예측하는 심층신경망의 다이어그램입니다.

주택 판매가를 평가하는 회귀 문제

주택 판매가를 예측하는 심층신경망의 다이어그램입니다.

필기 입력된 숫자를 평가하는 다중 클래스 분류

필기 입력된 숫자를 예측하는 데 사용되는 새로운 심층신경망 다이어그램입니다.

필기 입력된 숫자를 평가하는 다중 클래스 분류

필기 입력된 숫자를 예측하는 데 사용되는 새로운 심층신경망 다이어그램입니다.

필기 입력된 숫자를 평가하는 다중 클래스 분류

필기 입력된 숫자를 예측하는 데 사용되는 새로운 심층신경망 다이어그램입니다.

필기 입력된 숫자를 평가하는 다중 클래스 분류

필기 입력된 숫자를 예측하는 데 사용되는 새로운 심층신경망 다이어그램입니다.

필기 입력된 숫자를 평가하는 다중 클래스 분류

필기 입력된 숫자를 예측하는 데 사용되는 새로운 심층신경망 다이어그램입니다.

필기 입력된 숫자를 평가하는 다중 클래스 분류

필기 입력된 숫자를 예측하는 데 사용되는 새로운 심층신경망 다이어그램입니다.

필기 입력된 숫자를 평가하는 다중 클래스 분류

필기 입력된 숫자를 예측하는 데 사용되는 새로운 심층신경망 다이어그램입니다.

추천 영화를 평가하는 협업 필터링

추천할 영화를 예측하는 데 사용되는 새로운 심층신경망 다이어그램입니다.

추천 영화를 평가하는 협업 필터링

추천할 영화를 예측하는 데 사용되는 새로운 심층신경망 다이어그램입니다.

추천 영화를 평가하는 협업 필터링

추천할 영화를 예측하는 데 사용되는 새로운 심층신경망 다이어그램입니다.

추천 영화를 평가하는 협업 필터링

추천할 영화를 예측하는 데 사용되는 새로운 심층신경망 다이어그램입니다.

추천 영화를 평가하는 협업 필터링

추천할 영화를 예측하는 데 사용되는 새로운 심층신경망 다이어그램입니다.

추천 영화를 평가하는 협업 필터링

추천할 영화를 예측하는 데 사용되는 새로운 심층신경망 다이어그램입니다.

추천 영화를 평가하는 협업 필터링

추천할 영화를 예측하는 데 사용되는 새로운 심층신경망 다이어그램입니다.

심층망

  • 각 히든 단위는 하나의 차원(잠재 특성)에 대응합니다.
  • 영화와 히든 레이어 간의 에지 가중치가 좌표 값입니다.
  • 최하위 레이어의 노드가 다음 상위 레이어의 세 지점에 연결된 심층신경망의 트리 다이어그램입니다.

단일 영화 임베딩의 기하학적 보기

심층신경망 다이어그램의 하위 레이어 노드에 대응하는 3차원 공간상의 한 점입니다.
  • 고차원 임베딩은 입력값 간의 관계를 더 정확하게 표현할 수 있습니다.
  • 하지만 차원이 많아지면 과적합 확률이 높아져 학습 속도가 느려집니다.
  • 경험적 법칙은 시작점으로는 좋지만 유효성 확인 데이터를 사용하여 조정해야 합니다.
  • $$ dimensions \approx \sqrt[4]{possible\;values} $$
  • 임베딩은 유사한 항목이 서로 근접하도록 항목(예: 영화, 텍스트)을 저차원의 실제 벡터로 매핑합니다.
  • 의미 있는 유사성 척도를 생성하기 위해 임베딩을 밀집 데이터(예: 오디오)에 적용할 수도 있습니다.
  • 다양한 데이터 형식(예: 텍스트, 이미지, 오디오)을 공동으로 임베딩하면 서로 간의 유사성이 정의됩니다.