협업 필터링의 장점 및 단점

장점

도메인 관련 지식 불필요

임베딩이 자동으로 학습되므로 도메인 지식이 필요하지 않습니다.

세렌디피티

이 모델은 사용자가 새로운 관심분야를 발견하는 데 도움이 될 수 있습니다. 별개로 ML 시스템은 사용자가 특정 항목에 관심이 있음을 알 수 없지만, 비슷한 사용자가 관심을 갖고 있기 때문에 모델이 여전히 이를 추천할 수도 있습니다.

출발지

어느 정도까지 시스템에서는 행렬 분해 모델을 학습시키기 위한 피드백 매트릭스만 필요합니다. 특히 시스템에 문맥 기능이 필요하지 않습니다. 실제로 여러 후보 생성기 중 하나로 사용할 수 있습니다.

단점

새 항목을 처리할 수 없음

주어진 (사용자, 항목) 쌍에 대한 모델의 예측은 해당 임베딩의 내적입니다. 따라서 항목이 학습 중에 표시되지 않으면 시스템은 해당 항목에 대한 임베딩을 생성할 수 없으며 이 항목으로 모델을 쿼리할 수 없습니다. 이 문제를 종종 콜드 스타트 문제라고 합니다. 그러나 다음 기법은 콜드 스타트 문제를 어느 정도 해결할 수 있습니다.

  • WALS로 투영. 학습에 표시되지 않는 새로운 항목이 있을 때 \(i_0\) 시스템과 사용자와의 상호작용이 몇 가지 있다면 시스템은 전체 모델을 다시 학습시키지 않고도 이 항목의 임베딩을 쉽게 \(v_{i_0}\) 계산할 수 있습니다. 시스템에서는 다음 방정식이나 가중치 버전을 해결해야 합니다.

    \[\min_{v_{i_0} \in \mathbb R^d} \|A_{i_0} - U v_{i_0}\|\]

    위 방정식은 WALS의 한 반복에 해당합니다. 사용자 임베딩이 고정되어 있고 시스템은 항목 \(i_0\)의 임베딩을 해결합니다. 신규 사용자에 대해서도 동일한 작업을 수행할 수 있습니다.

  • 새 항목의 임베딩을 생성하는 휴리스틱 시스템에 상호작용이 없는 경우 시스템은 동일한 업로더 (동일한 YouTube)의 같은 항목에 있는 임베딩의 평균을 계산하여 임베딩을 추정할 수 있습니다.

쿼리/항목의 사이드 특성을 포함하기 어려움

부수 특성은 쿼리 또는 항목 ID 이외의 특성입니다. 영화 추천의 경우 부수 요소에 국가 또는 연령이 포함될 수 있습니다. 사용 가능한 부 특성을 포함하면 모델의 품질이 개선됩니다. WALS에 부 특성을 포함하기는 어려울 수 있지만, WALS의 일반화로 가능합니다.

WALS를 일반화하려면 블록 매트릭스 \(\bar A\)를 정의하여 입력 행렬을 특성으로 강화하세요. 각 항목의 의미는 다음과 같습니다.

  • 블록 (0, 0)은 원본 피드백 행렬 \(A\)입니다.
  • 블록 (0, 1)은 사용자 특성의 멀티 핫 인코딩입니다.
  • 블록 (1, 0)은 항목 특성의 멀티 핫 인코딩입니다.