머신러닝 용어집: 언어 평가

이 페이지에는 언어 평가 용어집 용어가 포함되어 있습니다. 모든 용어집 용어를 보려면 여기를 클릭하세요.

A

Attention,

#language

신경망에서 특정 단어 또는 단어의 일부의 중요도를 나타내는 데 사용되는 메커니즘입니다. 주목을 사용하면 모델이 다음 토큰/단어를 예측하는 데 필요한 정보의 양이 압축됩니다. 일반적인 어텐션 메커니즘은 입력 세트에 대한 가중 합계로 구성될 수 있으며, 여기서 각 입력의 가중치는 신경망의 다른 부분에서 계산됩니다.

Transformer의 구성요소인 셀프 어텐션멀티 헤드 셀프 어텐션도 참조하세요.

오토인코더

#language
#image

입력에서 가장 중요한 정보를 추출하도록 학습하는 시스템입니다. 자동 인코더는 인코더디코더의 조합입니다. 자동 인코더는 다음과 같은 2단계 프로세스를 사용합니다.

  1. 인코더는 입력을 (일반적으로) 손실이 있는 저차원(중간) 형식으로 매핑합니다.
  2. 디코더는 저차원 형식을 원래의 고차원 입력 형식에 매핑하여 원래 입력의 손실 버전을 빌드합니다.

자동 인코더는 디코더가 인코더의 중간 형식에서 원래 입력을 최대한 유사하게 재구성하려고 시도하도록 하여 엔드 투 엔드로 학습됩니다. 중간 형식은 원본 형식보다 작기 때문에(저차원) 자동 인코더는 입력의 어떤 정보가 필수적인지 학습해야 하며 출력이 입력과 완전히 동일하지 않습니다.

예를 들면 다음과 같습니다.

  • 입력 데이터가 그래픽인 경우 정확하지 않은 사본이 원본 그래픽과 유사하지만 약간 수정됩니다. 정확하지 않은 사본이 원본 그래픽에서 노이즈를 제거하거나 누락된 일부 픽셀을 채울 수 있습니다.
  • 입력 데이터가 텍스트이면 오토인코더는 원본 텍스트를 모방하지만 동일하지는 않은 새 텍스트를 생성합니다.

변분 자동 인코더도 참고하세요.

자동 회귀 모델

#language
#image
#생성형AI

자체 이전 예측을 기반으로 예측을 추론하는 model입니다. 예를 들어 자동 회귀 언어 모델은 이전에 예측된 토큰을 기반으로 다음 토큰을 예측합니다. 모든 Transformer 기반 대규모 언어 모델은 자동 회귀를 지원합니다.

반대로 GAN 기반 이미지 모델은 단계를 반복하지 않고 단일 정방향 전달로 이미지를 생성하므로 일반적으로 자동 회귀성이 없습니다. 그러나 특정 이미지 생성 모델은 이미지를 단계적으로 생성하기 때문에 자동 회귀가 가능합니다.

B

단어 집합

#language

순서와 관계없이 단어를 구 또는 구절로 표현합니다. 예를 들어 단어 집합은 다음 세 문구를 동일하게 나타냅니다.

  • 점프하는
  • 개 점프
  • 점프하는 개

각 단어는 희소 벡터의 색인에 매핑되며 벡터에는 어휘의 모든 단어에 대한 색인이 있습니다. 예를 들어 the dog 현황은 특성 벡터에 매핑되며 the, dog, jumps 단어에 해당하는 세 개의 색인에 0이 아닌 값이 포함됩니다. 0이 아닌 값은 다음 중 하나일 수 있습니다.

  • 1은 단어가 있음을 나타냅니다.
  • 가방에 단어가 나타나는 횟수입니다. 예를 들어 the maroon dog is a dog with maroon fur라는 문구가 있으면 maroondog는 모두 2로 표시되고 다른 단어는 1로 표시됩니다.
  • 다른 값(예: 단어가 가방에 표시되는 횟수의 로그)입니다.

BERT (Bidirectional Encoder Representations from Transformers)

#language

텍스트 표현을 위한 모델 아키텍처 학습된 BERT 모델은 텍스트 분류 또는 기타 ML 태스크에서 더 큰 모델의 일부로 작동할 수 있습니다.

BERT의 특징은 다음과 같습니다.

BERT의 변종은 다음과 같습니다.

BERT 개요는 오픈소싱 BERT: 자연어 처리를 위한 최신 사전 학습을 참조하세요.

양방향

#language

텍스트의 타겟 섹션 뒤에 오는 텍스트를 평가하는 시스템을 설명하는 데 사용되는 용어 반대로 단방향 시스템은 텍스트의 타겟 섹션 에 있는 텍스트만 평가합니다.

예를 들어 다음 질문에서 밑줄을 나타내는 단어의 확률을 결정해야 하는 마스크된 언어 모델이 있다고 가정해 보겠습니다.

당신과 함께 있는 _____은(는) 무엇인가?

단방향 언어 모델은 '무엇을', 'is', 'the'라는 단어가 제공하는 컨텍스트만 기반으로 해야 합니다. 반면에 양방향 언어 모델은 'with'와 'you'로부터 컨텍스트를 얻을 수도 있으므로 모델이 더 나은 예측을 생성하는 데 도움이 될 수 있습니다.

양방향 언어 모델

#language

언어 모델: 이전 텍스트와 다음 텍스트를 기반으로 텍스트 발췌 부분의 지정된 위치에 토큰이 존재할 확률을 판단합니다.

Bigram

#seq
#language

N=2인 N-그램입니다.

BLEU (Bilingual Evaluation Understudy)

#language

인간의 두 언어 (예: 영어와 러시아어) 간의 번역 품질을 나타내는 0.0~1.0 사이의 점수입니다. BLEU 점수가 1.0이면 번역이 완벽함을 나타내고 0.0은 번역 품질이 좋지 않음을 나타냅니다.

C

인과적 언어 모델

#language

단방향 언어 모델의 동의어입니다.

언어 모델링의 여러 방향성 접근 방식을 대조하려면 양방향 언어 모델을 참고하세요.

사고 사슬 프롬프팅

#language
#생성형AI

대규모 언어 모델 (LLM)이 이유를 단계별로 설명하도록 유도하는 프롬프트 엔지니어링 기법입니다. 예를 들어 두 번째 문장에 특히 주의를 기울이며 다음 프롬프트를 살펴보겠습니다.

시속 0마일에서 60마일까지 7초 내에 운행하는 자동차에서 운전자가 경험하는 중력은 얼마인가요? 답에 모든 관련 계산을 표시합니다.

LLM의 응답은 다음과 같을 수 있습니다.

  • 일련의 물리 공식을 표시하고 적절한 위치에 값 0, 60, 7을 연결합니다.
  • 왜 그런 공식을 선택했는지, 다양한 변수들이 무엇을 의미하는지 설명하십시오.

일련의 사고 프롬프팅을 통해 LLM은 모든 계산을 수행해야 하므로 보다 정확한 답을 얻을 수 있습니다. 또한 생각 사슬 프롬프팅을 통해 사용자는 LLM의 단계를 검토하여 답변이 적절한지 판단할 수 있습니다.

채팅

#language
#생성형AI

ML 시스템과의 대화를 주고받는 내용(일반적으로 대규모 언어 모델) 채팅의 이전 상호작용(입력한 내용 및 대규모 언어 모델의 응답 방식)이 채팅의 후속 부분에 대한 컨텍스트가 됩니다.

챗봇은 대규모 언어 모델의 애플리케이션입니다.

말하다

#language

할루시네이션의 동의어입니다.

공화는 아마도 할루시네이션보다 기술적으로 더 정확한 용어일 것입니다. 그러나 할루시네이션이 먼저 인기를 끌게 되었습니다.

선거구 파싱

#language

한 문장을 더 작은 문법적 구조 ('구성 요소')로 나누기 자연어 이해 모델과 같은 ML 시스템의 후반부에서는 원래 문장보다 더 쉽게 구성요소를 파싱할 수 있습니다. 예를 들어 다음 문장을 생각해 보세요.

제 친구는 고양이 두 마리를 입양했습니다.

구성요소 파서는 이 문장을 다음과 같은 두 가지 구성요소로 나눌 수 있습니다.

  • 내 친구는 명사구입니다.
  • adopted two cats는 동사구입니다.

이러한 구성 요소는 더 작은 구성 요소로 더 세분화될 수 있습니다. 예를 들어 동사구는

고양이 두 마리를 입양했습니다.

다시 세분화할 수 있습니다.

  • adopted는 동사입니다.
  • two cats는 또 다른 명사구입니다.

문맥화된 언어 임베딩

#language
#생성형AI

원어민이 할 수 있는 방식으로 단어와 구문을 '이해'하는 임베딩입니다. 컨텍스트화된 언어 임베딩은 복잡한 구문, 시맨틱스, 컨텍스트를 이해할 수 있습니다.

예를 들어 영어 단어 cow의 임베딩을 고려해 보겠습니다. word2vec와 같은 이전 임베딩은 에서 황소까지의 임베딩 공간에서 ewe (암컷 양)에서 ram (수 양)까지의 거리 또는 암컷에서 수컷까지의 거리와 유사한 영어 단어를 나타낼 수 있습니다. 문맥화된 언어 임베딩은 한 걸음 더 나아가 영어 사용자가 종종 소 또는 황소를 의미하는 cow라는 단어를 사용한다는 점을 인지합니다.

환경설정 기간

#language
#생성형AI

모델이 지정된 프롬프트에서 처리할 수 있는 토큰 수입니다. 컨텍스트 기간이 클수록 모델이 프롬프트에 일관되고 일관된 응답을 제공하는 데 사용할 수 있는 정보가 더 많아집니다.

중의적 구문

#language

의미가 모호한 문장이나 구문입니다. 중의적 구문은 자연어 이해에서 중대한 문제를 야기합니다. 예를 들어 Red Tape Holds Up Skyscraper라는 광고 제목은 NLU 모델에서 헤드라인을 문자 그대로 또는 비유적으로 해석할 수 있으므로 중의적 구문입니다.

D

decoder

#language

일반적으로 처리된 표현, 밀집 표현, 내부 표현에서 보다 원시적인 희소 표현 또는 외부 표현으로 변환되는 모든 ML 시스템입니다

디코더는 종종 더 큰 모델의 구성요소이며 인코더와 페어링되는 경우가 많습니다.

시퀀스-시퀀스 작업에서 디코더는 인코더가 생성한 내부 상태로 시작하여 다음 시퀀스를 예측합니다.

Transformer 아키텍처 내의 디코더 정의는 Transformer를 참조하세요.

노이즈 제거

#language

자기 지도 학습의 일반적인 접근 방식은 다음과 같습니다.

  1. 노이즈는 데이터 세트에 인위적으로 추가됩니다.
  2. model이 노이즈를 제거하려고 시도합니다.

노이즈 제거를 통해 라벨이 없는 예에서 학습할 수 있습니다. 원본 데이터 세트는 대상 또는 라벨 역할을 하고 노이즈 데이터가 입력으로 사용됩니다.

일부 마스크된 언어 모델은 다음과 같이 노이즈 제거를 사용합니다.

  1. 일부 토큰을 마스킹하여 라벨이 지정되지 않은 문장에 인위적으로 노이즈를 추가합니다.
  2. 모델은 원본 토큰을 예측하려고 시도합니다.

직접 프롬프팅

#language
#생성형AI

제로샷 프롬프팅의 동의어입니다.

E

거리 수정

#language

두 텍스트 문자열이 서로 얼마나 비슷한지를 측정한 값입니다. 머신러닝에서 거리 수정은 계산이 간단하며 비슷한 것으로 알려진 두 문자열을 비교하거나 주어진 문자열과 유사한 문자열을 찾을 수 있는 효과적인 방법이므로 유용합니다.

수정 거리에는 여러 가지 정의가 있으며, 각 정의에는 서로 다른 문자열 연산이 사용됩니다. 예를 들어 Levenshtein 거리는 삭제, 삽입, 대체 작업이 가장 적은 것으로 간주합니다.

예를 들어 '하트'와 '다트'라는 단어 사이의 레벤슈타인 거리는 3입니다. 그 이유는 다음 세 번의 수정 횟수가 한 단어를 다른 단어로 변환하기 위한 가장 적은 변경사항이기 때문입니다.

  1. 하트 → deart('h'를 'd'로 대체)
  2. deart → dart('e' 삭제)
  3. 다트 → 다트('s' 삽입)

임베딩 레이어

#language
#fundamentals

저차원 임베딩 벡터를 점진적으로 학습하기 위해 고차원 범주형 특성에서 학습하는 특수 히든 레이어입니다. 임베딩 레이어를 사용하면 신경망이 고차원 범주형 특성으로 학습시키는 것보다 훨씬 효율적으로 학습시킬 수 있습니다.

예를 들어 지구는 현재 약 73,000종의 수종을 지원하고 있습니다. 트리 종은 모델의 특성이므로 모델의 입력 레이어에 73,000개의 요소 길이의 원-핫 벡터가 포함되어 있다고 가정해 보겠습니다. 예를 들어 baobab는 다음과 같이 표시될 수 있습니다.

73,000개 요소의 배열. 처음 6,232개 요소는 값이 0입니다. 다음 요소는 값 1을 보유합니다. 마지막 66,767개 요소는 값 0을 유지합니다.

요소가 73,000개인 배열은 매우 깁니다. 모델에 임베딩 레이어를 추가하지 않으면 72,999개의 0을 곱하기 때문에 학습에 시간이 매우 오래 걸릴 수 있습니다. 임베딩 레이어를 선택하여 12차원으로 구성할 수 있습니다 결과적으로 임베딩 레이어는 각 수종의 새로운 임베딩 벡터를 점진적으로 학습합니다.

특정 상황에서는 해싱이 임베딩 레이어의 합리적인 대안이 될 수 있습니다.

임베딩 공간

#language

고차원 벡터 공간의 특성이 매핑되는 d차원 벡터 공간입니다. 이상적으로 임베딩 공간에는 의미 있는 수학적 결과를 도출하는 구조가 포함됩니다. 예를 들어 이상적인 임베딩 공간에서 임베딩의 덧셈 및 뺄셈은 단어 비유 작업을 해결할 수 있습니다.

두 임베딩의 내적은 유사성의 척도입니다.

임베딩 벡터

#language

일반적으로 히든 레이어에 대한 입력을 설명하는 모든 히든 레이어에서 가져온 부동 소수점 수의 배열입니다. 임베딩 벡터는 임베딩 레이어에서 학습된 부동 소수점 수의 배열인 경우가 많습니다. 예를 들어 임베딩 레이어가 지구상의 73,000종의 수종별로 임베딩 벡터를 학습해야 한다고 가정해 보겠습니다. 다음 배열은 바오밥 나무의 임베딩 벡터일 수 있습니다.

각각 0.0~1.0의 부동 소수점 숫자를 포함하는 12개 요소의 배열.

임베딩 벡터는 무작위 숫자가 아닙니다. 임베딩 레이어는 학습 중에 신경망이 다른 가중치를 학습하는 방식과 유사하게 학습을 통해 이러한 값을 결정합니다. 배열의 각 요소는 수종의 일부 특성에 따른 평점입니다. 다음 중 수종의 특징을 나타내는 요소는 무엇인가요? 그것은 인간이 결정하기 매우 어렵습니다.

임베딩 벡터에서 수학적으로 주목할 만한 부분은 유사한 항목들도 부동 소수점 숫자의 집합이 유사하다는 것입니다. 예를 들어 유사한 수종은 유사하지 않은 수종보다 부동 소수점 수의 집합이 더 유사합니다. 삼나무와 세쿼이아는 서로 관련된 수종이므로 삼나무와 코코넛 야자수보다 부동 소수점 수가 더 유사합니다. 임베딩 벡터의 숫자는 동일한 입력으로 모델을 다시 학습시키더라도 모델을 재학습시킬 때마다 변경됩니다.

인코더

#language

일반적으로 원시, 희소 또는 외부 표현에서 좀 더 처리되고 밀도가 높거나 내부적인 표현으로 변환하는 모든 ML 시스템입니다.

인코더는 종종 더 큰 모델의 구성요소로, 디코더와 페어링됩니다. 일부 Transformer는 인코더와 디코더를 페어링하지만, 인코더만 사용하거나 디코더만 사용하는 Transformer도 있습니다.

일부 시스템에서는 인코더의 출력을 분류 또는 회귀 네트워크의 입력으로 사용합니다.

시퀀스-시퀀스 작업에서 인코더는 입력 시퀀스를 가져와 내부 상태 (벡터)를 반환합니다. 그러면 디코더가 내부 상태를 사용하여 다음 시퀀스를 예측합니다.

Transformer 아키텍처의 인코더 정의는 Transformer를 참조하세요.

F

퓨샷 프롬프팅

#language
#생성형AI

대규모 언어 모델의 응답 방식을 보여주는 프롬프트가 두 개 이상('몇 개') 포함되어 있습니다. 예를 들어 다음과 같은 긴 프롬프트에는 대규모 언어 모델의 쿼리에 답변하는 방법을 보여주는 두 개의 예가 포함되어 있습니다.

프롬프트 하나에 포함되는 요소 Notes
지정된 국가의 공식 통화는 무엇인가요? LLM이 답변하기를 원하는 질문입니다.
프랑스: EUR 한 가지 예.
영국: GBP 또 다른 예가 있습니다.
인도: 실제 쿼리입니다.

퓨샷 프롬프팅은 일반적으로 제로샷 프롬프팅원샷 프롬프팅보다 더 바람직한 결과를 생성합니다. 그러나 퓨샷 프롬프팅에는 더 긴 프롬프트가 필요합니다

퓨샷 프롬프팅은 프롬프트 기반 학습에 적용되는 퓨샷 학습의 한 형태입니다.

바이올린

#language

침습적 코드나 인프라 없이 함수 및 클래스의 값을 설정하는 Python 우선 구성 라이브러리입니다. Pax 및 기타 ML 코드베이스의 경우 이러한 함수와 클래스는 모델학습 초매개변수를 나타냅니다.

Fiddle은 머신러닝 코드베이스가 일반적으로 다음과 같이 나뉘어 있다고 가정합니다.

  • 레이어와 옵티마이저를 정의하는 라이브러리 코드
  • 라이브러리를 호출하고 모든 것을 함께 연결하는 데이터 세트 '글루' 코드

Fiddle은 평가되지 않고 변경 가능한 형식으로 글루 코드의 호출 구조를 캡처합니다.

미세 조정

#language
#image
#생성형AI

특정 사용 사례에 맞게 매개변수를 미세 조정하기 위해 선행 학습된 모델에서 수행되는 두 번째 작업별 학습 패스입니다. 예를 들어 일부 대규모 언어 모델의 전체 학습 시퀀스는 다음과 같습니다.

  1. 사전 학습: 모든 영어 Wikipedia 페이지와 같은 방대한 일반 데이터 세트를 사용해 대규모 언어 모델을 학습시킵니다.
  2. 미세 조정: 의료 쿼리에 대한 응답과 같은 특정 작업을 수행하도록 선행 학습된 모델을 학습시킵니다. 미세 조정에는 일반적으로 특정 작업에 중점을 둔 수백 또는 수천 개의 예가 포함됩니다.

또 다른 예로, 큰 이미지 모델의 전체 학습 시퀀스는 다음과 같습니다.

  1. 사전 학습: Wikimedia Commons의 모든 이미지와 같은 방대한 일반 이미지 데이터 세트로 대규모 이미지 모델을 학습시킵니다.
  2. 미세 조정: 범고래 이미지 생성과 같은 특정 작업을 수행하도록 선행 학습된 모델을 학습시킵니다.

미세 조정에는 다음 전략을 원하는 대로 조합하여 사용할 수 있습니다.

  • 선행 학습된 모델의 기존 매개변수 모두 수정 이를 전체 미세 조정이라고도 합니다.
  • 선행 학습된 모델의 기존 매개변수 중 일부(일반적으로 출력 레이어에 가장 가까운 레이어)만 수정하고 다른 기존 매개변수는 변경하지 않고 (일반적으로 입력 레이어에 가장 가까운 레이어) 수정 매개변수 효율적인 조정을 참조하세요.
  • 일반적으로 출력 레이어에 가장 가까운 기존 레이어 위에 레이어를 더 추가합니다.

미세 조정은 전이 학습의 한 형태입니다. 따라서 미세 조정은 선행 학습된 모델을 학습시키는 데 사용된 것과 다른 손실 함수 또는 다른 모델 유형을 사용할 수 있습니다. 예를 들어 선행 학습된 대형 이미지 모델을 미세 조정하여 입력 이미지에서 새 수를 반환하는 회귀 모델을 만들 수 있습니다.

미세 조정을 다음 용어와 비교 및 대조해 보세요.

플랙스

#language

JAX를 기반으로 빌드된 딥 러닝용 고성능 오픈소스 라이브러리입니다. Flax는 신경망 학습 함수와 성능 평가 방법을 제공합니다.

플랙스포머

#language

Flax를 기반으로 하는 오픈소스 Transformer 라이브러리로, 주로 자연어 처리와 멀티모달 연구를 위해 설계되었습니다.

G

생성형 AI

#language
#image
#생성형AI

공식적인 정의가 없는 혁신적인 분야가 새롭게 떠오르고 있습니다. 하지만 대부분의 전문가는 생성형 AI 모델이 다음과 같은 모든 콘텐츠를 생성 ('생성')할 수 있다는 데 동의합니다

  • 복잡함
  • 일관성
  • 원본

예를 들어 생성형 AI 모델로 정교한 에세이나 이미지를

LSTMRNN을 비롯한 일부 초기 기술도 독창적이고 일관된 콘텐츠를 생성할 수 있습니다. 일부 전문가들은 이러한 초기 기술을 생성형 AI로 여기지만, 다른 전문가들은 진정한 생성형 AI를 위해서는 기존 기술이 생산할 수 있는 것보다 더 복잡한 출력이 필요하다고 생각합니다.

예측 ML과 대비되는 개념입니다.

GPT (생성형 선행 학습된 Transformer)

#language

OpenAI에서 개발한 Transformer 기반 대규모 언어 모델 제품군입니다.

GPT 변형은 다음을 포함한 여러 형식에 적용할 수 있습니다.

  • 이미지 생성 (예: ImageGPT)
  • 텍스트 이미지 변환 생성 (예: DALL-E)

H

할루시네이션

#language

그럴듯해 보이지만 실제로는 잘못된 출력을 생성하는 생성형 AI 모델에서 실제 세상에 대해 주장한 것처럼 가장합니다. 예를 들어 버락 오바마가 1865년에 사망했다고 주장하는 생성형 AI 모델은 할루시네이션입니다.

I

컨텍스트 내 학습

#language
#생성형AI

퓨샷 프롬프팅의 동의어입니다.

L

LaMDA (대화형 애플리케이션을 위한 언어 모델)

#language

Google이 개발한 Transformer 기반의 대규모 언어 모델은 실제 대화 응답을 생성할 수 있는 대규모 대화 데이터 세트를 기반으로 학습되었습니다.

개요는 LaMDA: Google의 획기적인 대화 기술입니다.

언어 모델

#language

model 또는 토큰 시퀀스가 긴 토큰 시퀀스에서 발생할 확률을 추정하는 model입니다.

대규모 언어 모델

#language

엄격한 정의가 없는 비공식 용어로, 일반적으로 많은 수의 매개변수가 있는 언어 모델을 의미합니다. 일부 대규모 언어 모델에는 1,000억 개가 넘는 매개변수가 포함되어 있습니다.

잠재 공간

#language

임베딩 공간의 동의어입니다.

LLM

#language

large language model의 약어입니다.

LoRA

#language
#생성형AI

Low-Rank Adaptability의 약어입니다.

낮은 순위 적응성 (LoRA)

#language
#생성형AI

대규모 언어 모델 매개변수의 하위 집합만 미세 조정하는 매개변수 효율적인 조정을 수행하기 위한 알고리즘입니다. LoRA는 다음과 같은 이점을 제공합니다.

  • 모델의 모든 매개변수를 미세 조정해야 하는 기법보다 빠르게 미세 조정합니다.
  • 미세 조정된 모델에서 추론의 계산 비용을 줄입니다.

LoRA로 조정된 모델은 예측 품질을 유지하거나 개선합니다.

LoRA를 사용하면 모델의 여러 특수 버전을 사용할 수 있습니다.

마스킹 언어 모델

#language

후보 토큰이 시퀀스에서 공백을 채울 확률을 예측하는 언어 모델 예를 들어 마스킹된 언어 모델은 추천 단어의 확률을 계산하여 다음 문장의 밑줄을 대체할 수 있습니다.

모자 쓴 ____이(가) 돌아왔습니다.

이 문헌에서는 일반적으로 밑줄 대신 'MASK' 문자열을 사용합니다. 예를 들면 다음과 같습니다.

모자에 적힌 '마스크'가 돌아왔다.

대부분의 최신 마스크 언어 모델은 양방향입니다.

메타 학습

#language

학습 알고리즘을 발견하거나 개선하는 머신러닝의 하위 집합입니다. 메타 학습 시스템은 소량의 데이터나 이전 작업에서 얻은 경험에서 새 작업을 빠르게 학습하도록 모델을 학습시키는 것을 목표로 할 수 있습니다. 메타 학습 알고리즘은 일반적으로 다음을 달성하려고 합니다.

  • 직접 추출한 특성 (초기화 프로그램 또는 옵티마이저 등)을 개선하거나 학습합니다.
  • 데이터 효율성과 컴퓨팅 효율성 향상
  • 일반화를 개선합니다.

메타 학습은 퓨샷 학습과 관련이 있습니다.

modality

#language

대략적인 데이터 카테고리입니다. 예를 들어 숫자, 텍스트, 이미지, 동영상, 오디오는 5가지 서로 다른 모달리티입니다

모델 동시 로드

#language

model의 여러 부분을 서로 다른 model에 배치하는 학습 또는 추론을 확장하는 방법입니다. 모델 동시 로드는 너무 커서 단일 기기에 맞지 않는 모델을 가능하게 합니다.

모델 병렬 처리를 구현하기 위해 시스템은 일반적으로 다음을 수행합니다.

  1. 모델을 더 작은 부분으로 분할 (나누기)합니다.
  2. 이러한 작은 부분의 학습을 여러 프로세서에 분산합니다. 각 프로세서는 모델의 자체 부분을 학습시킵니다.
  3. 결과를 결합하여 단일 모델을 만듭니다.

모델 동시 로드는 학습 속도를 저하시킵니다.

데이터 동시 로드도 참조하세요.

멀티 헤드 셀프 어텐션

#language

입력 시퀀스의 각 위치에 셀프 어텐션 메커니즘을 여러 번 적용하는 셀프 어텐션 확장입니다.

Transformer는 멀티 헤드 셀프 어텐션을 도입했습니다.

멀티모달 모델

#language

입력 또는 출력에 둘 이상의 모달리티가 포함된 모델입니다. 예를 들어 이미지와 텍스트 캡션 (두 모달리티)을 모두 특성으로 사용하고 텍스트 캡션이 이미지에 얼마나 적합한지 나타내는 점수를 출력하는 모델을 생각해 보세요. 따라서 이 모델의 입력은 멀티모달이고 출력은 유니모달입니다.

구매 불가

자연어 이해

#language

사용자가 입력하거나 말한 내용에 근거하여 사용자의 의도를 판단합니다. 예를 들어 검색엔진은 자연어 이해를 사용하여 사용자가 입력하거나 말한 내용에 따라 사용자가 검색할 내용을 판단합니다.

N-그램

#seq
#language

N 단어의 순서가 지정된 시퀀스. 예를 들어 truly madly는 2-그램입니다. 순서는 의미가 있으므로 madly TrueViewtruly madly와는 다른 2-그램입니다.

구매 불가 이 종류의 N-그램에 대한 이름
2 바이그램 또는 2-그램 이동, 이동, 점심 식사, 저녁 식사
3 트라이그램 또는 3-그램 시각장애인 쥐 세 마리를 너무 많이 먹었고
4 4-그램 공원 산책하기, 바람에 먼지 묻히기, 소년이 렌틸콩을 먹었어

많은 자연어 이해 모델이 N-그램을 사용하여 사용자가 다음에 입력하거나 말할 단어를 예측합니다. 예를 들어 사용자가 three 블라인드를 입력했다고 가정하겠습니다. 트라이그램을 기반으로 하는 NLU 모델은 사용자가 다음에 mice를 입력할 것으로 예측할 수 있습니다.

N-그램을 순서가 지정되지 않은 단어 집합인 단어 집합과 비교해 보세요.

NLU

#language

Natural Language Understanding(자연어 이해)의 약어입니다.

O

원샷 프롬프팅

#language
#생성형AI

대규모 언어 모델의 응답 방식을 보여주는 하나의 예시가 포함된 프롬프트 예를 들어 다음 프롬프트에는 대규모 언어 모델의 쿼리 응답 방식을 보여주는 예시가 포함되어 있습니다.

프롬프트 하나에 포함되는 요소 Notes
지정된 국가의 공식 통화는 무엇인가요? LLM이 답변하기를 원하는 질문입니다.
프랑스: EUR 한 가지 예.
인도: 실제 쿼리입니다.

원샷 프롬프팅을 다음 용어와 비교 및 대조해 보세요.

P

매개변수 효율적인 조정

#language
#생성형AI

전체 미세 조정보다 더 효율적으로 대규모 선행 학습된 언어 모델 (PLM)미세 조정하는 일련의 기법입니다. 매개변수 효율적인 조정은 일반적으로 전체 미세 조정보다 훨씬 적은 매개변수를 미세 조정하지만 일반적으로 전체 미세 조정에서 빌드된 대규모 언어 모델만큼 (또는 거의 비슷한) 대규모 언어 모델을 생성합니다.

매개변수 효율적인 조정과 다음을 비교 및 대조하세요.

매개변수 효율적인 조정은 매개변수 효율적인 미세 조정이라고도 합니다.

파이프라인

#language

모델 동시 로드의 한 형태로서 모델 처리가 연속 단계로 나뉘고 각 단계가 다른 기기에서 실행됩니다. 한 단계에서 배치 하나를 처리하는 동안 이전 단계에서는 다음 배치가 작동할 수 있습니다.

단계적 학습도 참고하세요.

제품 관리자

#language
#생성형AI

선행 학습된 언어 모델의 약어입니다.

위치 인코딩

#language

토큰의 임베딩에 순서대로 토큰의 위치 정보를 추가하는 기법입니다. Transformer 모델은 위치 인코딩을 사용하여 시퀀스의 여러 부분 간의 관계를 더 잘 이해합니다.

위치 인코딩의 일반적인 구현은 정현파 함수를 사용합니다. (구체적으로, 정현함수의 주파수와 진폭은 시퀀스 내 토큰의 위치에 따라 결정됩니다.) 이 기법을 사용하면 Transformer 모델이 위치를 기반으로 시퀀스의 여러 부분에 적용하는 방법을 학습할 수 있습니다.

선행 학습된 모델

#language
#image
#생성형AI

이미 학습된 모델 또는 모델 구성요소 (예: 임베딩 벡터)입니다. 선행 학습된 임베딩 벡터를 신경망에 입력하는 경우도 있습니다. 경우에 따라 모델이 선행 학습된 임베딩에 의존하지 않고 임베딩 벡터를 직접 학습시킵니다.

선행 학습된 언어 모델이라는 용어는 사전 학습을 거친 대규모 언어 모델을 의미합니다.

사전 학습

#language
#image
#생성형AI

대규모 데이터 세트에서 모델의 초기 학습입니다. 일부 선행 학습된 모델은 복잡한 거대 모델이며 일반적으로 추가 학습을 통해 미세 조정되어야 합니다. 예를 들어 ML 전문가는 위키백과의 모든 영어 페이지와 같은 방대한 텍스트 데이터 세트에 대해 대규모 언어 모델을 사전 학습시킬 수 있습니다. 사전 학습 후 결과 모델은 다음 기법을 통해 더 세분화할 수 있습니다.

프롬프트

#language
#생성형AI

모델이 특정 방식으로 동작하도록 조정하기 위해 대규모 언어 모델에 입력으로 입력된 모든 텍스트입니다. 프롬프트는 문구만큼 짧을 수도 있고 임의로 길어질 수도 있습니다 (예: 소설의 전체 텍스트). 프롬프트는 다음 표를 비롯한 여러 카테고리로 분류됩니다.

프롬프트 카테고리 Notes
문제 비둘기는 얼마나 빨리 날 수 있을까요?
안내 광고용 사이트에 대한 재미있는 시 쓰기 대규모 언어 모델에 작업을 수행하도록 요청하는 프롬프트
마크다운 코드를 HTML로 변환합니다. 예:
마크다운: * 목록 항목
HTML: <ul> <li>목록 항목</li> </ul>
이 프롬프트 예의 첫 번째 문장은 지침입니다. 프롬프트의 나머지 부분이 예입니다.
역할 물리학 박사 학위까지, 머신러닝 학습에서 경사하강법이 사용되는 이유 설명 문장의 첫 번째 부분은 지침입니다. '물리학 박사에게 전달'이라는 문구는 역할 부분입니다.
모델을 완료하기 위한 부분 입력 영국 총리가 거주하고 있는 국가는 부분 입력 프롬프트는 이 예시와 같이 갑자기 끝나거나 밑줄로 끝날 수 있습니다.

생성형 AI 모델은 텍스트, 코드, 이미지, 임베딩, 동영상 등 거의 모든 것을 사용하여 프롬프트에 응답할 수 있습니다.

프롬프트 기반 학습

#language
#생성형AI

특정 모델의 기능으로, 임의의 텍스트 입력 (프롬프트)에 대한 응답으로 동작을 조정할 수 있습니다. 일반적인 프롬프트 기반 학습 패러다임에서 대규모 언어 모델은 프롬프트에 텍스트를 생성하여 응답합니다. 예를 들어 사용자가 다음과 같은 프롬프트를 입력했다고 가정해 보겠습니다.

뉴턴의 운동 제3법칙을 요약하세요.

프롬프트 기반 학습을 지원하는 모델은 이전 프롬프트에 대답하도록 특별히 학습되지 않았습니다. 대신 모델은 물리학에 관한 많은 사실, 일반적인 언어 규칙에 관한 많은 사실, 일반적으로 유용한 답변을 구성하는 요소에 관해 많은 것을 '알고 있습니다'. 이러한 지식만으로도 유용한 답변을 얻을 수 있습니다. 추가적인 인간 피드백 ('그 답이 너무 복잡합니다' 또는 '반응이 무엇인가요?')을 사용하면 일부 프롬프트 기반 학습 시스템에서 답변의 유용성을 점차 개선할 수 있습니다.

프롬프트 설계

#language
#생성형AI

프롬프트 엔지니어링의 동의어입니다.

프롬프트 엔지니어링

#language
#생성형AI

대규모 언어 모델에서 원하는 응답을 유도하는 프롬프트를 만드는 기술입니다. 인간이 프롬프트 엔지니어링을 수행합니다. 대규모 언어 모델에서 유용한 응답을 얻으려면 잘 구조화된 프롬프트를 작성하는 것이 필수입니다. 프롬프트 엔지니어링은 다음과 같은 다양한 요인에 따라 달라집니다

  • 대규모 언어 모델을 사전 학습하고 미세 조정하는 데 사용하는 데이터 세트입니다.
  • 모델이 응답을 생성하는 데 사용하는 temperature 및 기타 디코딩 매개변수

유용한 프롬프트 작성에 대한 자세한 내용은 프롬프트 설계 소개를 참조하세요.

프롬프트 설계는 프롬프트 엔지니어링의 동의어입니다.

프롬프트 조정

#language
#생성형AI

시스템이 실제 프롬프트 앞에 추가하는 '프리픽스'를 학습하는 매개변수 효율적인 조정 메커니즘.

프롬프트 조정의 한 가지 변형(프리픽스 조정이라고도 함)은 모든 레이어 앞에 프리픽스를 붙이는 것입니다. 반면에 대부분의 프롬프트 조정은 입력 레이어에 프리픽스만 추가합니다.

R

역할 프롬프팅

#language
#생성형AI

생성형 AI 모델의 응답의 타겟층을 식별하는 프롬프트의 선택적 부분입니다. 대규모 언어 모델은 역할 프롬프트 없이 질문하는 사람에게 유용할 수도 있고 유용하지 않을 수도 있습니다. 역할 프롬프트를 사용하면 대규모 언어 모델이 특정 타겟층에 더 적절하고 유용한 방식으로 대답할 수 있습니다. 예를 들어 다음 프롬프트에서 역할 프롬프트 부분은 굵게 표시되어 있습니다.

  • 경제학 박사의 경우 이 자료를 요약하세요.
  • 10살의 조수가 어떻게 작용하는지 설명.
  • 2008년 금융 위기를 설명해 줘. 어린 아이나 골든 리트리버에게 말해보세요.

S

셀프 어텐션 (셀프 어텐션 레이어라고도 함)

#language

임베딩 시퀀스 (예: 토큰 임베딩)를 다른 임베딩 시퀀스로 변환하는 신경망 레이어입니다. 출력 시퀀스의 각 임베딩은 어텐션 메커니즘을 통해 입력 시퀀스의 요소에서 얻은 정보를 통합하여 구성됩니다.

셀프 어텐션self 부분은 다른 컨텍스트가 아닌 자체에 수반되는 시퀀스를 나타냅니다. 셀프 어텐션은 변환기의 기본 구성 요소 중 하나이며 '쿼리', '키', '값'과 같은 사전 조회 용어를 사용합니다.

셀프 어텐션 레이어는 단어당 하나씩 일련의 입력 표현으로 시작됩니다. 단어의 입력 표현은 간단한 임베딩일 수 있습니다. 신경망은 입력 시퀀스의 각 단어에 대해 전체 단어 시퀀스의 모든 요소와 단어의 관련성에 점수를 매깁니다. 관련성 점수는 단어의 최종 표현이 다른 단어의 표현을 포함하는 정도를 결정합니다.

예를 들어 다음 문장을 살펴보겠습니다.

이 동물은 너무 피곤해서 길을 건너지 않았습니다.

다음 그림 (Transformer: A Novel Neural Network Architecture for Language Understanding)은 대명사 it에 대한 셀프 어텐션 레이어의 어텐션 패턴을 보여줍니다. 각 줄의 어두움은 각 단어가 표현에 얼마나 기여하는지 나타냅니다.

다음 문장이 두 번 나옵니다. 동물이 너무 피곤해서 길을 건너지 않았습니다. 선은 한 문장의 대명사를 다른 문장의 토큰 5개 (동물, 거리, 그것, 마침표)에 연결합니다.  it 대명사와 동물이라는 단어 사이의 경계가 가장 강력합니다.

셀프 어텐션 레이어는 'it'과 관련된 단어를 강조표시합니다. 이 경우 어텐션 레이어는 동물이 참조할 수 있는 단어를 강조 표시하는 방법을 학습하여 동물에 가장 높은 가중치를 할당합니다.

n개의 토큰 시퀀스에서 셀프 어텐션은 임베딩 시퀀스를 시퀀스의 각 위치에서 한 번씩 n번 개별적으로 변환합니다.

어텐션멀티 헤드 셀프 어텐션도 참고하세요.

감정 분석

#language

통계 또는 머신러닝 알고리즘을 사용하여 서비스, 제품, 조직 또는 주제에 대한 그룹의 전반적인 태도(긍정적 또는 부정적)를 결정합니다. 예를 들어 알고리즘은 자연어 이해를 사용하여 대학 과정의 텍스트 피드백에 대한 감정 분석을 실행하여 학생들이 일반적으로 과정을 좋아하거나 싫어하는 정도를 판단할 수 있습니다.

시퀀스-시퀀스(Seq2Seq) 작업

#language

토큰의 입력 시퀀스를 토큰의 출력 시퀀스로 변환하는 작업입니다. 예를 들어 많이 사용되는 두 가지 시퀀스-투-시퀀스(Seq2Seq) 작업은 다음과 같습니다.

  • 번역사:
    • 샘플 입력 시퀀스: '사랑해'
    • 샘플 출력 시퀀스: 'Je t'aime.'
  • 질문 답변:
    • 샘플 입력 시퀀스: "뉴욕시에서 내 차가 필요한가요?"
    • 샘플 출력 시퀀스: '아니요. 차는 집에 두세요.'

건너뛰기-그램

#language

원래 컨텍스트에서 단어를 생략하거나 '건너뛰기'할 수 있는 n-gram입니다. 즉, N 단어가 원래 인접하지 않았을 수 있습니다. 정확히 말하면 'k-건너뛰기-n-그램'은 최대 k개의 단어를 건너뛰었을 수 있는 N-그램입니다.

예를 들어 '빠른 갈색 여우'의 가능한 2-그램은 다음과 같습니다.

  • '빠른'
  • "빠른 갈색"
  • '갈색 여우'

'1-skip-2-gram'은 최대 1개의 단어가 포함된 단어 쌍입니다. 따라서 '빠른 갈색 여우'의 1-건너뛰기 2그램은 다음과 같습니다.

  • '갈색'
  • '빠른 여우'

또한 한 단어 미만을 건너뛸 수 있으므로 모든 2-그램은 또한 1-건너뛰기-2-그램입니다.

건너뛰기-그램은 단어의 주변 맥락을 더 잘 이해하는 데 유용합니다. 이 예에서 '여우'는 1-skip-2-gram 집합에서 'quick'과 직접 연결되었지만 2-g 세트에서는 직접 연결되지 않았습니다.

Skip-gram은 단어 임베딩 모델을 학습시키는 데 도움이 됩니다.

소프트 프롬프트 조정

#language
#생성형AI

리소스를 많이 사용하지 않고 미세 조정을 하지 않고 특정 태스크를 위해 대규모 언어 모델을 조정하는 기법입니다. 소프트 프롬프트 조정은 모델의 모든 가중치를 재학습하는 대신 프롬프트를 자동으로 조정하여 동일한 목표를 달성합니다.

텍스트 프롬프트에서 소프트 프롬프트 조정은 일반적으로 토큰 임베딩을 프롬프트에 추가하고 역전파를 사용하여 입력을 최적화합니다.

'하드' 프롬프트에는 토큰 임베딩 대신 실제 토큰이 포함됩니다.

희소 특성

#language
#fundamentals

대부분의 값이 0이거나 비어 있는 특성입니다. 예를 들어 1개의 값과 100만 개의 0 값을 포함하는 특성은 희소성이 있습니다. 반대로 밀집 특성은 대부분 0이나 비어 있지 않은 값을 갖습니다.

머신러닝에서 희소 특성은 놀라울 정도로 많습니다. 범주형 특성은 일반적으로 희소 특성입니다. 예를 들어 숲에 있는 300여 종의 수종 중에서 하나의 예로 단풍나무만 식별할 수 있습니다. 또는 동영상 라이브러리에 있는 수백만 개의 동영상 중에서 하나의 예로 '카사블랑카'만 식별할 수도 있습니다.

모델에서는 일반적으로 희소 특성을 원-핫 인코딩으로 표현합니다. 원-핫 인코딩이 큰 경우 효율성을 높이기 위해 원-핫 인코딩 위에 임베딩 레이어를 배치할 수 있습니다.

희소 표현

#language
#fundamentals

희소 특성에 0이 아닌 요소의 위치만 저장합니다.

예를 들어 species이라는 범주형 특성이 특정 포리스트에 있는 36가지 트리 종을 식별한다고 가정해 보겠습니다. 또한 각 는 단일 종만 식별한다고 가정합니다.

원-핫 벡터를 사용하여 각 예에서 수종을 나타낼 수 있습니다. 원-핫 벡터는 단일 1 (이 예시에서 특정 수종을 나타냄) 및 35개의 0 (이 예시에 없는 나무종 35종을 나타냄)를 포함합니다. 따라서 maple의 원-핫 표현은 다음과 같을 수 있습니다.

위치 0~23이 값 0을, 위치 24가 값 1을, 위치 25~35가 값 0을 보유하는 벡터입니다.

또는 희소 표현은 단순히 특정 종의 위치를 식별합니다. maple가 24 위치에 있으면 maple의 희소 표현은 다음과 같습니다.

24

희소 표현은 원-핫 표현보다 훨씬 간결합니다.

단계별 학습

#language

일련의 불연속 단계로 모델을 학습시키는 전략입니다. 목표는 학습 프로세스의 속도를 높이거나 모델 품질을 개선하는 것일 수 있습니다.

다음은 점진적인 스택 방식을 보여주는 예입니다.

  • 1단계에는 3개의 히든 레이어가 있고 2단계에는 6개의 히든 레이어가 있으며 3단계에는 12개의 히든 레이어가 있습니다.
  • 2단계는 1단계의 3개의 히든 레이어에서 학습된 가중치로 학습을 시작합니다. 3단계는 2단계의 6개의 히든 레이어에서 학습한 가중치로 학습을 시작합니다.

1단계, 2단계, 3단계로 구분되는 3단계입니다.
          각 스테이지에는 레이어 수가 다릅니다. 1단계에는 3개의 레이어, 2단계에는 6개의 레이어, 3단계에는 12개의 레이어가 있습니다.
          1단계의 3개 레이어가 2단계의 처음 3개 레이어가 됩니다.
          마찬가지로 2단계의 6개 레이어는 3단계의 처음 6개 레이어가 됩니다.

파이프라인도 참조하세요.

하위 단어 토큰

#language

언어 모델에서 단어의 하위 문자열인 토큰은 전체 단어일 수 있습니다.

예를 들어 'itemize'와 같은 단어는 'item'(루트 단어)과 'ize' (접미사)의 조각으로 나눌 수 있으며, 각각은 자체 토큰으로 표현됩니다. 일반적이지 않은 단어를 하위 단어라고 하는 이러한 조각으로 분할하면 언어 모델이 접두사 및 접미사와 같은 단어의 보다 일반적인 구성 부분에 작동할 수 있습니다.

반대로 'going'과 같은 일반적인 단어는 분리되지 않고 단일 토큰으로 표시될 수 있습니다.

T

T5

#language

2020년 Google AI에서 도입한 텍스트 간 전이 학습 모델. T5는 매우 큰 데이터 세트로 학습된 Transformer 아키텍처를 기반으로 하는 인코더-디코더 모델입니다. 이는 텍스트 생성, 언어 번역, 대화형 방식으로 질문에 답변하는 등 다양한 자연어 처리 작업에 효과적입니다.

T5는 '텍스트 간 전송 Transformer'에 있는 5개의 T에서 이름을 따왔습니다.

T5X

#language

대규모 자연어 처리(NLP) 모델을 빌드하고 학습하도록 설계된 오픈소스 머신러닝 프레임워크입니다. T5는 T5X 코드베이스 (JAXFlax 기반)에서 구현됩니다.

기온

#language
#image
#생성형AI

모델 출력의 무작위성 수준을 제어하는 초매개변수 온도가 높을수록 무작위 출력이 더 많은 반면 온도가 낮을수록 임의 출력이 줄어듭니다.

최적의 온도를 선택하는 방법은 특정 애플리케이션 및 모델 출력의 기본 특성에 따라 달라집니다. 예를 들어 창의적인 결과물을 생성하는 애플리케이션을 만들 때 온도를 높일 수 있습니다. 반대로 모델의 정확성과 일관성을 향상시키기 위해 이미지 또는 텍스트를 분류하는 모델을 빌드할 때는 온도를 낮추는 것이 좋습니다.

온도는 주로 소프트맥스와 함께 사용됩니다.

텍스트 범위

#language

텍스트 문자열의 특정 하위 섹션과 연결된 배열 색인 스팬입니다. 예를 들어 Python 문자열 s="Be good now"의 단어 good은 3부터 6까지의 텍스트 범위를 사용합니다.

토큰

#language

언어 모델에서 모델이 학습하고 예측하는 원자 단위입니다. 토큰은 일반적으로 다음 중 하나입니다.

  • 단어. 예를 들어 'dogs like cats'라는 문구는 'dogs', 'like', 'cats'의 세 가지 단어 토큰으로 구성됩니다.
  • 문자. 예를 들어 'bike fish'라는 문구는 9자 토큰으로 구성됩니다. 공백은 토큰 중 하나로 계산됩니다.
  • 하위 단어—한 단어가 단일 토큰 또는 여러 토큰일 수 있습니다. 하위 단어는 어근, 접두사 또는 접미사로 구성됩니다. 예를 들어 하위 단어를 토큰으로 사용하는 언어 모델은 'dogs'라는 단어를 두 개의 토큰 (루트 단어 'dog'와 복수형 접미사 's')으로 볼 수 있습니다. 동일한 언어 모델은 한 단어 'taller'를 두 개의 하위 단어 (루트 단어 'tall'과 접미사 'er')로 볼 수 있습니다.

언어 모델 외부의 도메인에서 토큰은 다른 종류의 원자 단위를 나타낼 수 있습니다. 예를 들어 컴퓨터 비전에서 토큰은 이미지의 하위 집합일 수 있습니다.

Transformer

#language

Google에서 개발한 신경망 아키텍처로, 셀프 어텐션 메커니즘에 의존하여 컨볼루션이나 순환 신경망에 의존하지 않고 일련의 입력 임베딩을 출력 임베딩 시퀀스로 변환합니다. Transformer는 셀프 어텐션 레이어의 스택으로 보일 수 있습니다.

Transformer에는 다음이 포함될 수 있습니다.

인코더는 임베딩 시퀀스를 동일한 길이의 새로운 시퀀스로 변환합니다. 인코더에는 동일한 레이어 N개가 포함되며, 각 레이어에는 두 개의 하위 레이어가 포함됩니다. 이러한 두 하위 레이어는 입력 임베딩 시퀀스의 각 위치에 적용되어 시퀀스의 각 요소를 새로운 임베딩으로 변환합니다. 첫 번째 인코더 하위 레이어는 입력 시퀀스 전체에서 정보를 집계합니다. 두 번째 인코더 하위 레이어는 집계된 정보를 출력 임베딩으로 변환합니다.

디코더는 입력 임베딩 시퀀스를 길이가 다른 출력 임베딩 시퀀스로 변환합니다. 또한 디코더는 3개의 하위 계층을 가진 동일한 N개의 계층을 포함하며, 이 중 두 개는 인코더 하위 계층과 유사합니다. 세 번째 디코더 하위 레이어는 인코더의 출력을 가져와 셀프 어텐션 메커니즘을 적용하여 인코더에서 정보를 수집합니다.

Transformer: 언어 이해를 위한 새로운 신경망 아키텍처 블로그 게시물에서 트랜스포머를 효과적으로 소개합니다.

트라이그램

#seq
#language

N=3인 N-그램입니다.

U

단방향

#language

텍스트의 타겟 섹션 앞에 있는 텍스트만 평가하는 시스템입니다. 반면에 양방향 시스템은 텍스트의 대상 섹션 뒤에 오는 텍스트를 모두 평가합니다. 자세한 내용은 양방향을 참고하세요.

단방향 언어 모델

#language

타겟 토큰 가 아니라 에 표시되는 토큰에만 확률을 계산하는 언어 모델입니다. 양방향 언어 모델과 대비되는 개념입니다.

V

변이 자동 인코더 (VAE)

#language

입력과 출력 간의 불일치를 활용하여 수정된 버전의 입력을 생성하는 자동 인코더 유형입니다. 변이 자동 인코더는 생성형 AI에 유용합니다.

VAE는 확률 모델의 매개변수를 추정하는 기법인 변이 추론을 기반으로 합니다.

W

단어 임베딩

#language

임베딩 벡터 내 단어 집합의 각 단어를 표현합니다. 즉, 각 단어를 0.0~1.0 사이의 부동 소수점 값 벡터로 표현합니다. 의미가 비슷한 단어는 의미가 다른 단어보다 더 비슷한 의미를 지닙니다. 예를 들어 당근, 셀러리, 오이는 모두 상대적으로 유사하게 표현되어 비행기, 선글라스, 치약과는 매우 다릅니다.

Z

제로샷 프롬프팅

#language
#생성형AI

대규모 언어 모델의 응답 방식에 대한 예시를 제공하지 않는 프롬프트 예를 들면 다음과 같습니다.

프롬프트 하나에 포함되는 요소 Notes
지정된 국가의 공식 통화는 무엇인가요? LLM이 답변하기를 원하는 질문입니다.
인도: 실제 쿼리입니다.

대규모 언어 모델은 다음 중 하나로 응답할 수 있습니다.

  • 루피 기호
  • INR
  • 인도 루피
  • 루피
  • 인도 루피

모두 정답입니다. 특정 형식을 선호할 수도 있습니다.

제로샷 프롬프팅을 다음 용어와 비교 및 대조하세요.