임베딩

컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.

임베딩은 고차원 벡터를 변환할 수 있는 비교적 저차원의 공간입니다. 임베딩을 사용하면 단어를 나타내는 희소 벡터와 같은 큰 입력에 대해 더 쉽게 머신러닝을 수행할 수 있습니다. 임베딩은 의미론적으로 유사한 입력을 임베딩 공간에 서로 가깝게 배치하여 입력의 일부 시맨틱을 캡처하는 것이 이상적입니다. 임베딩을 학습하고 여러 모델에서 재사용할 수 있습니다.

임베딩

  • 입력: 사용자 500,000명이 시청한 영화 1,000,000편
  • 작업: 사용자에게 영화 추천

이 문제를 해결하려면 어떤 영화가 서로 비슷한지 파악하는 방법이 필요합니다.

왼쪽에서 오른쪽으로 한 줄로 정렬된 영화 목록입니다. 먼저 '슈렉', '인크레더블', '스타워즈', '해리 포터', '스타워즈', '스타워즈', '스타워즈', '스타워즈'와 같은

이전 슬라이드의 영화 목록은 동일하지만 2차원으로 정렬되어 있습니다. 예를 들어 '슈렉'은 '인크레더블'의 왼쪽 위에 있습니다.

이전 다이어그램과 비슷하지만 각 사분면의 축과 라벨이 있습니다. 영화는 오른쪽 상단 사분면에서 '스타워즈'와 '다크 나이트 라이즈', '크루징 타이거, 히든 드래곤 TV 스타워즈'와 같은 '다크 나이트 라이즈'를 포함한 성인용 블록버스터로 구성되어 있습니다. 두 번째 오른쪽 하단 사분면은 영화 '블루'와 '메멘토'가 포함된 성인용 아트하우스로, 성인용 아트 사분면에 추가됩니다. 세 번째 왼쪽 하단 사분면은 Children Arthouse이며 영화 '벨빌의 세 쌍둥이'가 포함되어 있습니다. 왼쪽 상단 네 번째이자 마지막 사분면은 '슈렉', '인크레더블', '해리 포터'가 포함된 아동용 블록버스터 영화이며, 영화 '스쿨 오브 락'은 아동용 블록버스터 사분면에 추가됩니다.

마지막 슬라이드와 동일한 정렬입니다. 2차원 임베딩 평면의 좌표 예로 슈렉과 블루가 강조표시되어 있습니다.

  • 영화에 대한 사용자의 관심을 d 측면에서 대략적으로 설명할 수 있다고 가정
  • 각 영화는 차원 d의 값이 영화가 해당 측면에 얼마나 해당하는지를 나타내는 d차원 포인트가 됩니다.
  • 임베딩은 데이터에서 학습 가능
  • 별도의 학습 프로세스가 필요하지 않습니다. 임베딩 레이어는 차원당 하나의 단위를 포함하는 히든 레이어일 뿐입니다.
  • 감독 대상 정보 (예: 사용자가 동일한 두 영화를 시청)는 원하는 작업에 맞게 학습된 임베딩을 조정합니다.
  • 직관적으로 히든 단위는 최종 목표를 가장 잘 최적화할 수 있는 방식으로 d차원 공간에서 항목을 구성하는 방법을 찾습니다.
  • 각 예 (이 행렬의 행)는 사용자가 시청한 특성 (영화)의 희소 벡터입니다.
  • 이 예시는 밀집 표현으로 다음과 같이 표현됩니다. (0, 1, 0, 1, 0, 0, 0, 1)

공간 및 시간 측면에서 효율적이지 않음

각 열 헤더가 영화이고 각 행은 사용자와 그 사용자가 본 영화를 나타내는 표입니다.
  • 각 특성을 0, ..., 영화 #~1에 있는 정수로 매핑하는 사전을 만듭니다.
  • 희소 벡터를 사용자가 시청한 영화로 효율적으로 표현합니다. 이는 다음과 같이 나타낼 수 있습니다. 오른쪽에 보이는 희소 벡터의 영화 열 위치에 따르면 영화 '벨빌의 세 쌍둥이', '월리스와 그로미트', '메멘토'의 (0,1, 999999)를
테이블로 표시되는 희소 벡터는 영화를 나타내는 각 열과 사용자를 나타내는 각 행을 나타냅니다. 표에는 이전 다이어그램의 영화가 포함되어 있으며 1부터 999999까지 번호가 매겨져 있습니다. 표의 각 셀은 사용자가 영화를 시청했는지 확인합니다.

주택 판매 가격을 예측하는 회귀 문제:

주택 판매 가격을 예측하는 데 사용되는 심층신경망 다이어그램

주택 판매 가격을 예측하는 회귀 문제:

주택 판매 가격을 예측하는 데 사용되는 심층신경망의 다이어그램(희소 벡터 인코딩이 강조표시됨)

주택 판매 가격을 예측하는 회귀 문제:

주택 판매 가격을 예측하는 데 사용되는 심층신경망의 다이어그램(숨겨진 3차원 임베딩 레이어)

주택 판매 가격을 예측하는 회귀 문제:

주택 판매 가격을 예측하는 데 사용되는 심층신경망의 다이어그램(추가 위도 및 경도 입력 특징이 강조표시됨)

주택 판매 가격을 예측하는 회귀 문제:

주택 판매가를 예측하는 데 사용되는 심층신경망 다이어그램(여러 개의 히든 레이어에 피드되는 입력 특성 강조표시됨)

주택 판매 가격을 예측하는 회귀 문제:

주택 판매 가격을 예측하는 데 사용되는 심층신경망 다이어그램(심층신경망의 출력이 강조표시됨)

필기 입력된 숫자를 예측하는 멀티클래스 분류:

필기 입력된 숫자를 예측하는 데 사용되는 심층신경망 다이어그램

필기 입력된 숫자를 예측하는 멀티클래스 분류:

필기 입력 숫자를 예측하는 데 사용되는 심층신경망의 다이어그램(입력 희소 벡터 인코딩이 강조표시됨)

필기 입력된 숫자를 예측하는 멀티클래스 분류:

필기 입력된 숫자를 예측하는 데 사용되는 심층신경망 다이어그램(기타 특징이 강조표시됨)

필기 입력된 숫자를 예측하는 멀티클래스 분류:

필기 입력된 숫자를 예측하는 데 사용되는 심층신경망 다이어그램(3차원 임베딩이 강조표시됨)

필기 입력된 숫자를 예측하는 멀티클래스 분류:

손으로 쓴 숫자 예측에 사용되는 심층신경망의 다이어그램(히든 레이어가 강조표시됨)

필기 입력된 숫자를 예측하는 멀티클래스 분류:

필기 입력된 숫자를 예측하는 데 사용되는 심층신경망의 다이어그램(로지트 레이어 강조표시됨)

필기 입력된 숫자를 예측하는 멀티클래스 분류:

필기 입력된 숫자를 예측하는 데 사용되는 심층신경망 다이어그램(타겟 클래스 레이어 강조표시됨)

협업 필터링으로 추천 영화 추천:

추천할 영화를 예측하는 데 사용되는 심층신경망 다이어그램

협업 필터링으로 추천 영화 추천:

추천할 영화를 예측하는 데 사용되는 심층신경망 다이어그램(타겟 클래스 레이어 강조표시됨)

협업 필터링으로 추천 영화 추천:

추천할 영화를 예측하는 데 사용되는 심층신경망 다이어그램(희소 벡터 인코딩이 강조표시됨)

협업 필터링으로 추천 영화 추천:

추천할 영화를 예측하는 데 사용되는 심층신경망 다이어그램(3차원 임베딩 강조표시됨)

협업 필터링으로 추천 영화 추천:

추천할 영화를 예측하는 데 사용되는 심층신경망 다이어그램(기타 특징이 강조표시됨)

협업 필터링으로 추천 영화 추천:

추천할 영화를 예측하는 데 사용되는 심층신경망 다이어그램(히든 레이어 강조표시됨)

협업 필터링으로 추천 영화 추천:

추천할 영화를 예측하는 데 사용되는 심층신경망 다이어그램(로지트 레이어 강조표시됨)

딥 네트워크

  • 각 숨겨진 단위는 측정기준 (잠재 특성)에 해당합니다.
  • 영화 레이어와 히든 레이어 사이의 가장자리 가중치는 좌표 값입니다.
  • 최하위 레이어의 노드가 다음 상위 레이어의 세 지점에 연결된 심층신경망의 트리 다이어그램

단일 영화 임베딩의 기하학적 보기

심층신경망 다이어그램의 하위 레이어 노드에 해당하는 3차원 공간의 한 지점입니다.
  • 고차원 임베딩은 입력 값 간의 관계를 더 정확하게 표현할 수 있음
  • 고차원이 될수록 과적합의 가능성이 높아지며 학습이 느려집니다.
  • 경험적 법칙 (시작은 좋은데 검증 데이터를 사용하여 조정해야 함):
  • $$ dimensions \approx \sqrt[4]{possible\;values} $$
  • 유사한 항목이 서로 가까운 방식으로 항목 (예: 영화, 텍스트 등)을 저차원의 실제 벡터에 매핑합니다.
  • 의미 있는 유사성 측정항목을 생성하기 위해 밀집 데이터 (예: 오디오)에 임베딩을 적용할 수도 있습니다.
  • 다양한 데이터 유형 (예: 텍스트, 이미지, 오디오 등)을 함께 삽입하여 유사성을 정의합니다.