이 페이지는 Cloud Translation API를 통해 번역되었습니다.

머신러닝 용어집: 언어 평가

이 페이지에는 언어 평가 용어집 용어가 포함되어 있습니다. 모든 용어집 용어는 여기를 클릭하세요.

A

Attention,

#language

특정 단어 또는 단어의 일부의 중요성을 나타내는 신경망에 사용되는 메커니즘입니다. 어텐션은 모델이 다음 토큰/단어를 예측하는 데 필요한 정보의 양을 압축합니다. 일반적인 주목 메커니즘은 입력 집합에 대한 가중치 합계로 구성될 수 있으며, 여기서 각 입력의 가중치는 신경망의 다른 부분에서 계산됩니다.

Transformer의 구성요소인 셀프 어텐션 및 멀티헤드 셀프 어텐션도 참고하세요.

자기주의에 관한 자세한 내용은 머신러닝 단기집중과정의 LLM: 대규모 언어 모델이란 무엇인가요?를 참고하세요.

autoencoder

#language

#image

입력에서 가장 중요한 정보를 추출하는 방법을 학습하는 시스템입니다. 오토인코더는 인코더와 디코더의 조합입니다. 자동 인코더는 다음과 같은 두 단계 프로세스를 사용합니다.

인코더는 입력을 일반적으로 손실이 있는 더 낮은 차원의 (중간) 형식으로 매핑합니다.
디코더는 낮은 차원 형식을 원래의 더 높은 차원 입력 형식에 매핑하여 원래 입력의 손실이 있는 버전을 빌드합니다.

자동 인코더는 디코더가 인코더의 중간 형식에서 원래 입력을 최대한 근접하게 재구성하도록 하여 엔드 투 엔드로 학습됩니다. 중간 형식은 원본 형식보다 작으므로(차원이 낮음) 자동 인코더는 입력의 어떤 정보가 필수적인지 학습해야 하며 출력은 입력과 완전히 동일하지는 않습니다.

예를 들면 다음과 같습니다.

입력 데이터가 그래픽인 경우 정확하지 않은 사본은 원본 그래픽과 유사하지만 약간 수정된 것입니다. 정확하지 않은 사본이 원본 그래픽에서 노이즈를 제거하거나 누락된 일부 픽셀을 채울 수 있습니다.
입력 데이터가 텍스트인 경우 자동 인코더는 원래 텍스트를 모방하지만 동일하지는 않은 새 텍스트를 생성합니다.

변분 오토인코더도 참고하세요.

자동 평가

#language

#generativeAI

소프트웨어를 사용하여 모델 출력의 품질을 판단합니다.

모델 출력이 비교적 간단한 경우 스크립트나 프로그램은 모델의 출력을 골드 응답과 비교할 수 있습니다. 이러한 유형의 자동 평가를 프로그래매틱 평가라고도 합니다. ROUGE 또는 BLEU와 같은 측정항목은 프로그래매틱 평가에 유용합니다.

모델 출력이 복잡하거나 정답이 하나도 없음인 경우 자동 채점 도구라는 별도의 ML 프로그램이 자동 평가를 실행하기도 합니다.

인간 평가와 대비되는 개념입니다.

자동 평가 도구 평가

#language

#generativeAI

인간 평가와 자동 평가를 결합하여 생성형 AI 모델의 출력 품질을 판단하는 하이브리드 메커니즘입니다. 자동 평가 도구는 인간 평가를 통해 생성된 데이터를 학습하는 ML 모델입니다. 자동 평가 도구는 인간 평가자를 모방하는 방법을 학습하는 것이 이상적입니다.

사전 빌드된 자동 평가 도구를 사용할 수 있지만 가장 좋은 자동 평가 도구는 평가 중인 태스크에 맞게 미세 조정된 도구입니다.

자동 회귀 모델

#language

#image

#generativeAI

이전 예측을 기반으로 예측을 추론하는 모델입니다. 예를 들어 자동 회귀 언어 모델은 이전에 예측된 토큰을 기반으로 다음 토큰을 예측합니다. 모든 Transformer 기반 대규모 언어 모델은 자동 회귀입니다.

반면 GAN 기반 이미지 모델은 단계적으로 반복적으로 이미지를 생성하는 것이 아니라 단일 전방 패스에서 이미지를 생성하므로 일반적으로 자기 회귀가 아닙니다. 그러나 특정 이미지 생성 모델은 단계적으로 이미지를 생성하므로 자동 회귀 입니다.

k 기준 평균 정밀도

#language

#Metric

번호가 매겨진 도서 추천 목록과 같이 순위가 지정된 결과를 생성하는 단일 프롬프트에서 모델의 성능을 요약하는 측정항목입니다. k의 평균 정밀도는 각 관련 결과의 k의 정밀도 값의 평균입니다. 따라서 k의 평균 정밀도 공식은 다음과 같습니다.

\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]

각 항목의 의미는 다음과 같습니다.

$n$ 은 목록의 관련 항목 수입니다.

k에서의 재현율과 대비되는 개념입니다.

아이콘을 클릭하여 예시를 확인하세요.

대규모 언어 모델에 다음 쿼리가 주어졌다고 가정해 보겠습니다.

List the 6 funniest movies of all time in order.

대규모 언어 모델은 다음 목록을 반환합니다.

장군
Mean Girls
Platoon
내 여자친구의 결혼식
Citizen Kane
스파이널 탭입니다.

반환된 목록의 영화 중 4편은 매우 재미있으며 (즉, 관련성 있음) 2편은 드라마 (관련성 없음)입니다. 다음 표에는 결과에 관한 세부정보가 나와 있습니다.

위치	영화	관련성이 있나요?	k 기준 정밀도
1	장군	예	1.0
2	Mean Girls	예	1.0
3	Platoon	아니요	관련 없음
4	내 여자친구의 결혼식	예	0.75
5	Citizen Kane	아니요	관련 없음
6	스파이널 탭입니다.	예	0.67

관련 결과 수는 4개입니다. 따라서 다음과 같이 6에서 평균 정밀도를 계산할 수 있습니다.

$${\text{average precision at 6}} = \frac{1}{4} {\text{(1.0 + 1.0 + 0.75 + 0.67)} } $$ $${\text{average precision at 6}} = {\text{~0.85} } $$

B

단어 집합

#language

순서에 상관없이 단어를 구 또는 구절로 표현합니다. 예를 들어, 단어 집합은 다음 세 구를 동일하게 표현합니다.

the dog jumps
jumps the dog
dog jumps the

각 단어는 희소 벡터의 색인에 매핑되며 벡터에는 어휘의 모든 단어에 대한 색인이 포함됩니다. 예를 들어, the dog jumps 구는 특징 벡터에 매핑되며, 벡터에는 the, dog, jumps 단어에 해당하는 세 색인에 0이 아닌 값이 표시됩니다. 0이 아닌 값은 다음 중 하나일 수 있습니다.

1은 단어가 있음을 나타냅니다.
집합에서 단어가 표시되는 횟수입니다. 예를 들어, the maroon dog is a dog with maroon fur라는 어구가 있는 경우 maroon과 dog는 모두 2로 표시되고 다른 단어는 1로 표시됩니다.
기타 값(예: 단어가 집합에 나타나는 횟수의 로그)입니다.

BERT (Bidirectional Encoder Representations from Transformers)

#language

텍스트 표현을 위한 모델 아키텍처입니다. 학습된 BERT 모델은 텍스트 분류 또는 기타 ML 태스크를 위한 더 큰 모델의 일부로 작동할 수 있습니다.

BERT의 특징은 다음과 같습니다.

Transformer 아키텍처를 사용하므로 셀프 어텐션을 사용합니다.
Transformer의 인코더 부분을 사용합니다. 인코더의 역할은 분류와 같은 특정 작업을 실행하는 것이 아니라 우수한 텍스트 표현을 생성하는 것입니다.
양방향입니다.
비지도 학습에 마스킹을 사용합니다.

BERT의 변형에는 다음이 포함됩니다.

ALBERT: A Light BERT의 약어입니다.
LaBSE.

BERT 개요는 Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing을 참고하세요.

양방향

#language

대상 텍스트 섹션의 앞에 있고 뒤에 있는 텍스트를 모두 평가하는 시스템을 설명하는 데 사용되는 용어입니다. 반면 단방향 시스템은 텍스트의 타겟 섹션 앞에 있는 텍스트만 평가합니다.

예를 들어 다음 질문에서 밑줄을 나타내는 단어의 확률을 결정해야 하는 마스킹된 언어 모델을 생각해 보겠습니다.

_____에 어떤 문제가 있나요?

단방향 언어 모델은 'What', 'is', 'the'라는 단어에서 제공하는 맥락에만 확률을 기반으로 해야 합니다. 반면 양방향 언어 모델은 'with' 및 'you'에서 맥락을 얻을 수도 있으므로 모델이 더 나은 예측을 생성하는 데 도움이 될 수 있습니다.

양방향 언어 모델

#language

앞의 텍스트와 뒤의 텍스트를 기반으로 텍스트 발췌 부분의 지정된 위치에 지정된 토큰이 있을 가능성을 결정하는 언어 모델입니다.

바이그램

#seq

#language

N=2인 N-그램입니다.

BLEU (Bilingual Evaluation Understudy)

#language

0.0~1.0 사이의 측정항목으로, 예를 들어 스페인어에서 일본어로의 기계 번역을 평가하는 데 사용됩니다.

점수를 계산하기 위해 BLEU는 일반적으로 ML 모델의 번역(생성된 텍스트)을 인간 전문가의 번역(참조 텍스트)과 비교합니다. 생성된 텍스트와 참조 텍스트의 N-그램이 일치하는 정도에 따라 BLEU 점수가 결정됩니다.

이 측정항목에 관한 원본 논문은 BLEU: 기계 번역 자동 평가 방법입니다.

BLEURT도 참고하세요.

BLEURT (Transformer의 Bilingual Evaluation Understudy)

#language

한 언어에서 다른 언어로의 기계 번역, 특히 영어와 영어 간의 기계 번역을 평가하는 측정항목입니다.

영어-외국어 번역의 경우 BLEURT가 BLEU보다 인간의 평가에 더 근접합니다. BLEU와 달리 BLEURT는 의미 유사성을 강조하며 의역을 수용할 수 있습니다.

BLEURT는 사전 학습된 대규모 언어 모델(정확히는 BERT)을 사용하며, 이 모델은 인간 번역가의 텍스트를 바탕으로 미세 조정됩니다.

이 측정항목에 관한 원본 논문은 BLEURT: Learning Robust Metrics for Text Generation입니다.

C

인과 언어 모델

#language

단방향 언어 모델의 동의어입니다.

언어 모델링의 다양한 방향성 접근 방식을 비교하려면 양방향 언어 모델을 참고하세요.

연쇄적 사고 프롬프트

#language

#generativeAI

대규모 언어 모델 (LLM)이 추론 과정을 단계별로 설명하도록 유도하는 프롬프트 엔지니어링 기법입니다. 예를 들어 다음 프롬프트를 살펴보면서 두 번째 문장에 특히 주의를 기울이세요.

7초 만에 시속 0마일에서 60마일로 주행하는 자동차에서 운전자가 경험하는 g는 얼마인가요? 답변에 모든 관련 계산을 표시합니다.

LLM의 응답은 다음과 같습니다.

물리학 수식의 시퀀스를 표시하고 적절한 위치에 0, 60, 7 값을 삽입합니다.
이러한 수식을 선택한 이유와 다양한 변수의 의미를 설명합니다.

연쇄적 사고 프롬프트를 사용하면 LLM이 모든 계산을 수행하게 되므로 더 정확한 답변을 얻을 수 있습니다. 또한 사고 과정 프롬프트를 사용하면 사용자가 LLM의 단계를 검토하여 답변이 적절한지 판단할 수 있습니다.

채팅

#language

#generativeAI

ML 시스템(일반적으로 대규모 언어 모델)과의 대화 내용입니다. 채팅의 이전 상호작용(내가 입력한 내용과 대규모 언어 모델이 응답한 방식)은 채팅의 후속 부분에 대한 컨텍스트가 됩니다.

채팅 봇은 대규모 언어 모델의 애플리케이션입니다.

꾸며내기

#language

환각의 동의어입니다.

망상은 환각보다 기술적으로 더 정확한 용어일 수 있습니다. 하지만 할루시네이션이 먼저 인기를 얻었습니다.

선거구 파싱

#language

문장을 더 작은 문법 구조 ('구성요소')로 나누는 작업입니다. 자연어 이해 모델과 같은 ML 시스템의 후반부에서는 원래 문장보다 구성요소를 더 쉽게 파싱할 수 있습니다. 예를 들어 다음 문장을 살펴보겠습니다.

친구가 고양이 두 마리를 입양했습니다.

구성원 파서는 이 문장을 다음 두 구성원으로 나눌 수 있습니다.

친구는 명사구입니다.
고양이 두 마리를 입양은 동사구입니다.

이러한 구성요소는 더 작은 구성요소로 다시 세분화할 수 있습니다. 예를 들어 동사구

고양이 2마리를 입양했습니다.

다음과 같이 더 세분화할 수 있습니다.

채택은 동사입니다.
고양이 두 마리도 명사구입니다.

문맥화된 언어 임베딩

#language

#generativeAI

유창한 인간 발화자가 할 수 있는 방식으로 단어와 구문을 '이해'하는 데 가까운 임베딩입니다. 문맥화된 언어 임베딩은 복잡한 문법, 시맨틱, 컨텍스트를 이해할 수 있습니다.

예를 들어 영어 단어 cow의 임베딩을 생각해 보겠습니다. word2vec와 같은 이전 임베딩은 임베딩 공간에서 cow와 bull의 거리가 ewe (암양)와 ram (숫양)의 거리 또는 female와 male의 거리와 유사하도록 영어 단어를 표현할 수 있습니다. 문맥화된 언어 임베딩은 영어 사용자가 cow라는 단어를 소나 수소를 의미하는 비공식적인 표현으로 사용하는 경우도 있음을 인식하여 한 걸음 더 나아갈 수 있습니다.

컨텍스트 윈도우

#language

#generativeAI

모델이 특정 프롬프트에서 처리할 수 있는 토큰 수입니다. 컨텍스트 윈도우가 클수록 모델은 더 많은 정보를 사용하여 프롬프트에 일관되고 일관된 대답을 제공할 수 있습니다.

중의적 구문

#language

의미가 모호한 문장 또는 구입니다. 중의적 구문은 자연어 이해에서 중요한 문제를 발생시킵니다. 예를 들어 Red Tape Holds Up Skyscraper라는 광고 제목은 NLU 모델에서 광고 제목을 문자 그대로 또는 비유적으로 해석할 수 있으므로 중의적 구문입니다.

추가 메모를 보려면 아이콘을 클릭하세요.

수상한 헤드라인을 명확히 하자면 다음과 같습니다.

절차적 장애는 다음 중 하나를 의미할 수 있습니다.
- 접착제
- 과도한 관료주의
보류 중은 다음 중 하나를 나타낼 수 있습니다.
- 구조적 지원
- 지연

D

decoder

#language

일반적으로 처리된, 밀집된 또는 내부 표현을 더 원시적이고 희소하거나 외부 표현으로 변환하는 모든 ML 시스템입니다.

디코더는 더 큰 모델의 구성요소인 경우가 많으며 여기서 인코더와 자주 페어링됩니다.

시퀀스 대 시퀀스 태스크에서 디코더는 인코더가 생성한 내부 상태로 시작하여 다음 시퀀스를 예측합니다.

Transformer 아키텍처 내 디코더의 정의는 Transformer를 참고하세요.

자세한 내용은 머신러닝 단기집중과정의 대규모 언어 모델을 참고하세요.

노이즈 제거

#language

자체 감독 학습의 일반적인 접근 방식으로 다음과 같은 특징이 있습니다.

노이즈가 데이터 세트에 인위적으로 추가됩니다.
모델은 노이즈를 제거하려고 시도합니다.

노이즈 제거를 사용하면 라벨이 지정되지 않은 예를 학습할 수 있습니다. 원본 데이터 세트는 타겟 또는 라벨로, 노이즈 데이터는 입력으로 사용됩니다.

일부 마스크드 언어 모델은 다음과 같이 제거를 사용합니다.

일부 토큰을 마스킹하여 라벨이 지정되지 않은 문장에 노이즈를 인위적으로 추가합니다.
모델은 원래 토큰을 예측하려고 시도합니다.

직접 프롬프트

#language

#generativeAI

제로샷 프롬프팅의 동의어입니다.

E

수정 거리

#language

#Metric

두 텍스트 문자열 간의 유사성을 측정한 값입니다. 머신러닝에서 수정 거리는 다음과 같은 이유로 유용합니다.

수정 거리는 계산하기 쉽습니다.
수정 거리를 사용하면 서로 유사한 것으로 알려진 두 문자열을 비교할 수 있습니다.
수정 거리를 사용하면 다른 문자열이 주어진 문자열과 얼마나 유사한지 확인할 수 있습니다.

수정 거리에는 여러 정의가 있으며 각 정의는 서로 다른 문자열 연산을 사용합니다. 예를 보려면 Levenshtein 거리를 참고하세요.

임베딩 레이어

#language

#fundamentals

고차원 카테고리 특성으로 학습하여 점진적으로 하위 차원 임베딩 벡터를 학습하는 특수한 숨겨진 레이어입니다. 임베딩 레이어를 사용하면 신경망이 고차원 카테고리 특성만으로 학습하는 것보다 훨씬 더 효율적으로 학습할 수 있습니다.

예를 들어 현재 지구에는 약 73,000가지의 수종이 생식하고 있습니다. 나무 종이 모델의 특성이므로 모델의 입력 레이어에 73,000개 요소 길이의 원-핫 벡터가 포함되어 있다고 가정해 보겠습니다. 예를 들어 baobab는 다음과 같이 표시될 수 있습니다.

73,000개의 요소로 구성된 배열입니다. 첫 번째 6,232개 요소는 값 0을 보유합니다. 다음 요소는 값 1을 보유합니다. 마지막 66,767개 요소는 값 0을 보유합니다.

73,000개 요소 배열은 매우 깁니다. 모델에 임베딩 레이어를 추가하지 않으면 72,999개의 0을 곱해야 하므로 학습에 시간이 많이 걸립니다. 12개의 측정기준으로 구성된 임베딩 레이어를 선택할 수 있습니다. 따라서 임베딩 레이어는 각 나무 종에 관한 새로운 임베딩 벡터를 점진적으로 학습합니다.

경우에 따라 해싱은 임베딩 레이어의 적절한 대안이 될 수 있습니다.

자세한 내용은 머신러닝 단기집중과정의 임베딩을 참고하세요.

임베딩 공간

#language

고차원 벡터 공간의 특성이 매핑되는 D차원 벡터 공간입니다. 임베딩 공간은 의도한 애플리케이션에 의미 있는 구조를 캡처하도록 학습됩니다.

두 임베딩의 내적은 유사성의 척도입니다.

임베딩 벡터

#language

대체적으로 숨겨진 레이어의 입력을 설명하는 모든 숨겨진 레이어에서 가져온 부동 소수점 수 배열입니다. 임베딩 벡터는 종종 임베딩 레이어에서 학습된 부동 소수점 수 배열입니다. 예를 들어 임베딩 레이어는 지구에 있는 73,000개의 수종 각각에 대한 임베딩 벡터를 학습해야 한다고 가정해 보겠습니다. 다음 배열은 바오밥나무의 임베딩 벡터일 수 있습니다.

각각 0.0과 1.0 사이의 부동 소수점 수를 보유하는 12개 요소의 배열입니다.

임베딩 벡터는 무작위 숫자가 아닙니다. 임베딩 레이어는 학습 중에 신경망이 다른 가중치를 학습하는 방식과 마찬가지로 학습을 통해 이러한 값을 결정합니다. 배열의 각 요소는 나무 종의 특성에 따른 평가입니다. 어떤 요소가 어떤 수종의 특성을 나타내나요? 인간이 이를 판단하기는 매우 어렵습니다.

임베딩 벡터의 수학적으로 주목할 만한 부분은 유사한 항목이 유사한 부동 소수점 숫자 집합을 갖는다는 점입니다. 예를 들어 유사한 나무 종은 유사하지 않은 나무 종보다 더 유사한 부동 소수점 수를 갖습니다. 레드우드와 세쿼이어는 관련 나무 종이므로 레드우드와 코코넛 야자나무보다 유사한 부동 소수점 숫자를 갖습니다. 동일한 입력으로 모델을 재학습하더라도 임베딩 벡터의 숫자는 모델을 재학습할 때마다 변경됩니다.

인코더

#language

일반적으로 원시, 희소 또는 외부 표현을 더 처리되고, 더 조밀하거나, 더 내부적인 표현으로 변환하는 모든 ML 시스템입니다.

인코더는 대규모 모델의 구성요소인 경우가 많으며, 여기서 디코더와 함께 사용됩니다. 일부 트랜스포머는 인코더와 디코더를 페어링하지만, 다른 트랜스포머는 인코더 또는 디코더만 사용합니다.

일부 시스템은 인코더의 출력을 분류 또는 회귀 네트워크의 입력으로 사용합니다.

시퀀스 대 시퀀스 작업에서 인코더는 입력 시퀀스를 사용하여 내부 상태 (벡터)를 반환합니다. 그런 다음 디코더는 이 내부 상태를 사용하여 다음 시퀀스를 예측합니다.

Transformer 아키텍처의 인코더 정의는 Transformer를 참고하세요.

자세한 내용은 머신러닝 단기집중과정의 LLM: 대규모 언어 모델이란 무엇인가요?를 참고하세요.

evals

#language

#generativeAI

#Metric

주로 LLM 평가의 약어로 사용됩니다. 더 광범위하게 evals는 모든 형태의 평가의 약어입니다.

평가

#language

#generativeAI

#Metric

모델의 품질을 측정하거나 여러 모델을 서로 비교하는 프로세스입니다.

지도 학습 머신러닝 모델을 평가하려면 일반적으로 검증 세트와 테스트 세트를 기준으로 판단합니다. LLM 평가에는 일반적으로 더 광범위한 품질 및 안전 평가가 포함됩니다.

F

퓨샷 프롬프팅

#language

#generativeAI

대규모 언어 모델이 응답하는 방식을 보여주는 두 개 이상의 예시('몇 개')가 포함된 프롬프트입니다. 예를 들어 다음과 같은 긴 프롬프트에는 대규모 언어 모델이 쿼리에 답변하는 방법을 보여주는 두 가지 예시가 포함되어 있습니다.

하나의 프롬프트의 부분	참고
`지정된 국가의 공식 통화는 무엇인가요?`	LLM이 답변할 질문
`프랑스: 유로`	한 가지 예를 들어 보겠습니다.
`영국: GBP`	다른 예시를 들어보겠습니다.
`인도:`	실제 쿼리입니다.

퓨샷 프롬프트는 일반적으로 제로샷 프롬프트 및 원샷 프롬프트보다 바람직한 결과를 얻습니다. 그러나 퓨샷 프롬프트에는 더 긴 프롬프트가 필요합니다.

퓨샷 프롬프트 작성은 프롬프트 기반 학습에 적용되는 퓨샷 학습의 한 형태입니다.

자세한 내용은 머신러닝 단기집중과정의 프롬프트 설계를 참고하세요.

바이올린

#language

침습적인 코드나 인프라 없이 함수와 클래스의 값을 설정하는 Python 우선 구성 라이브러리입니다. Pax 및 기타 ML 코드베이스의 경우 이러한 함수와 클래스는 모델 및 학습 초매개변수를 나타냅니다.

Fiddle은 머신러닝 코드베이스가 일반적으로 다음과 같이 분류된다고 가정합니다.

레이어와 최적화 도구를 정의하는 라이브러리 코드
라이브러리를 호출하고 모든 것을 연결하는 데이터 세트 '글루' 코드

Fiddle은 평가되지 않고 변경 가능한 형식으로 글루 코드의 호출 구조를 캡처합니다.

미세 조정

#language

#image

#generativeAI

선행 학습된 모델에서 이루어지는 작업별 두 번째 학습으로, 구체적인 사용 사례에 맞춰 파라미터를 세부적으로 조정합니다. 예를 들어 일부 대규모 언어 모델의 전체 학습 시퀀스는 다음과 같습니다.

선행 학습: 모든 영어 위키백과 페이지와 같은 방대한 일반 데이터 세트에서 대규모 언어 모델을 학습합니다.
미세 조정: 의료 관련 질문에 응답하는 등 특정 작업을 수행하도록 사전 학습된 모델을 학습합니다. 미세 조정에는 일반적으로 특정 작업에 중점을 둔 수백 또는 수천 개의 예시가 포함됩니다.

또 다른 예로 대규모 이미지 모델의 전체 학습 시퀀스는 다음과 같습니다.

선행 학습: Wikimedia Commons의 모든 이미지와 같은 방대한 일반 이미지 데이터 세트에서 대규모 이미지 모델을 학습합니다.
미세 조정: 선행 학습된 모델을 훈련하여 범고래 이미지 생성과 같은 특정 작업을 실행합니다.

미세 조정에는 다음 전략을 조합하여 적용할 수 있습니다.

선행 학습된 모델의 기존 매개변수를 모두 수정합니다. 이를 전체 미세 조정이라고도 합니다.
선행 학습된 모델의 기존 파라미터 중 일부(일반적으로 출력 레이어에 가장 가까운 레이어)만 수정하고 다른 기존 파라미터 (일반적으로 입력 레이어에 가장 가까운 레이어)는 변경하지 않습니다. 파라미터 효율적인 튜닝을 참고하세요.
일반적으로 출력 레이어에 가장 가까운 기존 레이어 위에 레이어를 추가합니다.

미세 조정은 전이 학습의 한 형태입니다. 따라서 미세 조정은 사전 학습된 모델을 학습하는 데 사용된 것과 다른 손실 함수 또는 다른 모델 유형을 사용할 수 있습니다. 예를 들어 선행 학습된 대규모 이미지 모델을 미세 조정하여 입력 이미지의 새 수를 반환하는 회귀 모델을 만들 수 있습니다.

미세 조정을 다음 용어와 비교 및 대조하세요.

distillation
프롬프트 기반 학습

자세한 내용은 머신러닝 단기집중과정의 미세 조정을 참고하세요.

플랙스

#language

JAX를 기반으로 빌드된 딥 러닝을 위한 고성능 오픈소스 라이브러리입니다. Flax는 신경망 학습을 위한 함수와 성능을 평가하는 메서드를 제공합니다.

Flaxformer

#language

Flax를 기반으로 빌드된 오픈소스 Transformer 라이브러리로, 주로 자연어 처리 및 다중 모달 연구를 위해 설계되었습니다.

G

Gemini

#language

#image

#generativeAI

Google의 가장 진보된 AI로 구성된 생태계입니다. 이 생태계의 요소는 다음과 같습니다.

다양한 Gemini 모델
Gemini 모델의 대화형 대화 인터페이스입니다. 사용자가 프롬프트를 입력하면 Gemini가 해당 프롬프트에 응답합니다.
다양한 Gemini API
Gemini 모델을 기반으로 하는 다양한 비즈니스 제품(예: Google Cloud용 Gemini)

Gemini 모델

#language

#image

#generativeAI

Google의 최첨단 Transformer 기반 멀티모달 모델입니다. Gemini 모델은 상담사와 통합되도록 특별히 설계되었습니다.

사용자는 대화형 대화상자 인터페이스, SDK 등을 통해 다양한 방식으로 Gemini 모델과 상호작용할 수 있습니다.

생성된 텍스트

#language

#generativeAI

일반적으로 ML 모델이 출력하는 텍스트입니다. 대규모 언어 모델을 평가할 때 일부 측정항목은 생성된 텍스트를 참조 텍스트와 비교합니다. 예를 들어 ML 모델이 프랑스어에서 네덜란드어로 번역하는 효율성을 확인하려고 한다고 가정해 보겠습니다. 이 경우에는 다음과 같습니다.

생성된 텍스트는 ML 모델이 출력하는 네덜란드어 번역입니다.
참조 텍스트는 사람이 번역하거나 소프트웨어가 생성한 네덜란드어 번역입니다.

일부 평가 전략에는 참조 텍스트가 포함되지 않습니다.

생성형 AI의

#language

#image

#generativeAI

공식적인 정의가 없는 신흥 혁신 분야입니다. 하지만 대부분의 전문가는 생성형 AI 모델이 다음을 모두 충족하는 콘텐츠를 만들 수 있다고 동의합니다.

복잡한
일관된
원본

예를 들어 생성형 AI 모델은 정교한 에세이나 이미지를 만들 수 있습니다.

LSTM 및 RNN을 비롯한 일부 이전 기술도 독창적이고 일관된 콘텐츠를 생성할 수 있습니다. 일부 전문가는 이러한 이전 기술을 생성형 AI로 간주하는 반면, 진정한 생성형 AI에는 이전 기술에서 생성할 수 있는 것보다 더 복잡한 출력이 필요하다고 생각하는 전문가도 있습니다.

예측 ML과 대비되는 개념입니다.

황금 응답

#language

#generativeAI

좋은 것으로 알려진 답변입니다. 예를 들어 다음과 같은 프롬프트가 있다고 가정해 보겠습니다.

2 + 2

이상적인 응답은 다음과 같습니다.

4

이상적인 응답 및 참조 텍스트에 관한 메모를 보려면 여기를 클릭하세요.

ROUGE와 같은 일부 평가 측정항목은 참조 텍스트를 모델의 생성된 텍스트와 비교합니다. 프롬프트에 대한 올바른 답변이 하나인 경우 일반적으로 이상적인 응답이 참조 텍스트로 사용됩니다.

일부 프롬프트에는 정답이 하나도 없습니다. 예를 들어 이 문서 요약 프롬프트에는 정답이 여러 개 있을 수 있습니다. 이러한 프롬프트의 경우 모델이 매우 광범위한 요약을 생성할 수 있으므로 참조 텍스트가 실용적이지 않은 경우가 많습니다. 하지만 이 상황에서는 골드 응답이 도움이 될 수 있습니다. 예를 들어 우수한 문서 요약이 포함된 골드 응답은 자동 평가 도구를 학습하여 우수한 문서 요약의 패턴을 찾는 데 도움이 될 수 있습니다.

GPT (Generative Pre-trained Transformer)

#language

OpenAI에서 개발한 Transformer 기반 대규모 언어 모델 제품군입니다.

GPT 변형은 다음을 포함한 여러 모달에 적용할 수 있습니다.

이미지 생성 (예: ImageGPT)
텍스트-이미지 생성 (예: DALL-E)

H

할루시네이션

#language

실제 세계에 관해 주장하는 것으로 보이는 생성형 AI 모델이 타당해 보이지만 실제로는 잘못된 출력을 생성하는 경우 예를 들어 버락 오바마가 1865년에 사망했다고 주장하는 생성형 AI 모델은 환각을 일으키는 것입니다.

사람의 평가

#language

#generativeAI

사람이 ML 모델의 출력물 품질을 판단하는 절차입니다. 예를 들어 이중 언어 사용자가 ML 번역 모델의 품질을 판단하는 경우가 여기에 해당합니다. 사람 평가는 정답이 하나도 없는 모델을 판단하는 데 특히 유용합니다.

자동 평가 및 자동 평가 도구 평가와는 대조됩니다.

I

맥락적 학습

#language

#generativeAI

퓨샷 프롬프팅의 동의어입니다.

L

LaMDA (대화형 애플리케이션을 위한 언어 모델)

#language

Google에서 개발한 변환기 기반 대규모 언어 모델로, 대규모 대화 데이터 세트를 기반으로 학습하여 사실적인 대화 응답을 생성할 수 있습니다.

LaMDA: Google의 혁신적인 대화 기술에서 개요를 확인하세요.

언어 모델

#language

더 긴 토큰 시퀀스에서 토큰 또는 토큰 시퀀스가 발생할 가능성을 추정하는 모델입니다.

추가 메모를 보려면 아이콘을 클릭하세요.

직관적이지 않지만 텍스트를 평가하는 많은 모델은 언어 모델이 아닙니다. 예를 들어 텍스트 분류 모델과 감정 분석 모델은 언어 모델이 아닙니다.

자세한 내용은 머신러닝 단기집중과정의 언어 모델이란 무엇인가요?를 참고하세요.

대규모 언어 모델

#language

최소한 파라미터가 매우 많은 언어 모델입니다. 더 비공식적으로는 Gemini 또는 GPT와 같은 Transformer 기반 언어 모델을 의미합니다.

자세한 내용은 머신러닝 단기집중과정의 대규모 언어 모델 (LLM)을 참고하세요.

잠재 공간

#language

임베딩 공간의 동의어입니다.

Levenshtein Distance

#language

#metric

한 단어를 다른 단어로 바꾸는 데 필요한 최소 삭제, 삽입, 대체 작업을 계산하는 수정 거리 측정항목입니다. 예를 들어 'heart'와 'darts'의 레벤슈테인 거리는 3입니다. 다음 세 가지 수정사항이 한 단어를 다른 단어로 바꾸는 데 필요한 최소 변경사항이기 때문입니다.

heart → deart('h'를 'd'로 대체)
deart → dart('e' 삭제)
다트 → 다트('s' 삽입)

위의 시퀀스는 세 번의 수정 중 유일한 경로가 아닙니다.

LLM

#language

#generativeAI

대규모 언어 모델의 약어입니다.

LLM 평가 (evals)

#language

#generativeAI

#Metric

대규모 언어 모델 (LLM)의 성능을 평가하기 위한 일련의 측정항목 및 벤치마크입니다. LLM 평가는 대략적으로 다음과 같은 작업을 수행합니다.

연구원이 LLM을 개선해야 하는 영역을 파악하도록 지원합니다.
다양한 LLM을 비교하고 특정 작업에 가장 적합한 LLM을 식별하는 데 유용합니다.
LLM을 안전하고 윤리적으로 사용할 수 있도록 지원합니다.

자세한 내용은 머신러닝 단기집중과정의 대규모 언어 모델 (LLM)을 참고하세요.

LoRA

#language

#generativeAI

Low-Rank Adaptability(낮은 순위 적응성)의 약어입니다.

LoRA (Low-Rank Adaptation)

#language

#generativeAI

모델의 사전 학습된 가중치를 '고정'하여 더 이상 수정할 수 없게 만든 다음 학습 가능한 가중치의 작은 집합을 모델에 삽입하는 미세 조정을 위한 매개변수 효율적인 기법입니다. 학습 가능한 가중치 집합('업데이트 행렬'이라고도 함)은 기본 모델보다 훨씬 작으므로 학습 속도가 훨씬 빠릅니다.

LoRA는 다음과 같은 이점을 제공합니다.

미세 조정이 적용되는 도메인에 대한 모델 예측의 품질을 개선합니다.
모델의 모든 매개변수를 미세 조정해야 하는 기법보다 빠르게 미세 조정합니다.
동일한 기본 모델을 공유하는 여러 전문 모델을 동시에 제공할 수 있도록 하여 추론의 계산 비용을 줄입니다.

LoRA의 업데이트 매트릭스에 대해 자세히 알아보려면 아이콘을 클릭하세요.

LoRA에 사용되는 업데이트 행렬은 노이즈를 제거하고 모델의 가장 중요한 특성에 학습을 집중하는 데 도움이 되도록 기본 모델에서 파생된 순위 분해 행렬로 구성됩니다.

M

마스크드 언어 모델

#language

후보 토큰이 시퀀스의 빈칸을 채울 확률을 예측하는 언어 모델입니다. 예를 들어 마스킹된 언어 모델은 다음 문장에서 밑줄을 대체할 후보 단어의 확률을 계산할 수 있습니다.

모자 안에 있던 ____가 돌아왔습니다.

문헌에서는 일반적으로 밑줄 대신 'MASK' 문자열을 사용합니다. 예를 들면 다음과 같습니다.

모자의 'MASK'가 다시 표시되었습니다.

대부분의 최신 마스크 처리된 언어 모델은 양방향입니다.

k에서의 평균 정밀도 (mAP@k)

#language

#generativeAI

#Metric

검증 데이터 세트에서 모든 k 기준 평균 정밀도 점수의 통계적 평균입니다. k에서의 평균 평균 정밀도의 한 가지 용도는 추천 시스템에서 생성된 맞춤 콘텐츠의 품질을 판단하는 것입니다.

'평균 평균'이라는 문구는 중복된 것처럼 들리지만 측정항목의 이름은 적절합니다. 이 측정항목은 여러 k에서의 평균 정밀도 값의 평균을 구합니다.

아이콘을 클릭하여 예를 확인하세요.

각 사용자에게 맞춤 추천 소설 목록을 생성하는 추천 시스템을 빌드한다고 가정해 보겠습니다. 선택한 사용자의 의견을 바탕으로 k 점수 (사용자당 1점)에서 다음 5가지 평균 정밀도를 계산합니다.

0.73
0.77
0.67
0.82
0.76

따라서 K의 평균 정밀도는 다음과 같습니다.

$$\text{mean } = \frac{\text{0.73 + 0.77 + 0.67 + 0.82 + 0.76}} {\text{5}} = \text{0.75}$$

메타 학습

#language

학습 알고리즘을 발견하거나 개선하는 머신러닝의 하위 집합입니다. 메타학습 시스템은 소량의 데이터 또는 이전 작업에서 얻은 경험으로 새로운 작업을 빠르게 학습하도록 모델을 학습시키는 것을 목표로 할 수도 있습니다. 메타학습 알고리즘은 일반적으로 다음을 달성하려고 합니다.

수동으로 설계된 기능 (예: 이니셜라이저 또는 최적화 도구)을 개선하거나 학습합니다.
데이터 효율성과 컴퓨팅 효율성을 높입니다.
일반화 개선

메타 학습은 퓨샷 학습과 관련이 있습니다.

전문가의 조합

#language

#generativeAI

매개변수의 하위 집합 (전문가라고 함)만 사용하여 주어진 입력 토큰 또는 예시를 처리하여 뉴런 네트워크 효율성을 높이는 스킴입니다. 게이팅 네트워크는 각 입력 토큰 또는 예시를 적절한 전문가에게 라우팅합니다.

자세한 내용은 다음 논문 중 하나를 참고하세요.

MMIT

#language

#image

#generativeAI

멀티모달 명령어 조정의 약어입니다.

modality

#language

상위 수준의 데이터 카테고리입니다. 예를 들어 숫자, 텍스트, 이미지, 동영상, 오디오는 5가지 모달입니다.

모델 동시 로드

#language

하나의 모델의 여러 부분을 서로 다른 기기에 배치하여 학습 또는 추론을 확장하는 방법입니다. 모델 병렬 처리를 사용하면 너무 커서 단일 기기에 맞지 않는 모델을 사용할 수 있습니다.

모델 병렬화를 구현하기 위해 시스템은 일반적으로 다음을 실행합니다.

모델을 더 작은 부분으로 샤딩합니다.
이러한 소규모 부분의 학습을 여러 프로세서에 분산합니다. 각 프로세서는 모델의 자체 부분을 학습합니다.
결과를 결합하여 단일 모델을 만듭니다.

모델 병렬 처리는 학습 속도를 느리게 합니다.

데이터 병렬 처리도 참고하세요.

MOE

#language

#image

#generativeAI

전문가 집단의 약어입니다.

멀티 헤드 자기 주목

#language

입력 시퀀스의 각 위치에 자체 주목 메커니즘을 여러 번 적용하는 자체 주목의 확장입니다.

Transformers에서는 멀티헤드 자체 주목을 도입했습니다.

멀티모달 명령 조정

#language

이미지, 동영상, 오디오와 같이 텍스트 이외의 입력을 처리할 수 있는 명령어 조정 모델입니다.

멀티모달 모델

#language

입력, 출력 또는 둘 다에 두 개 이상의 형식이 포함된 모델입니다. 예를 들어 이미지와 텍스트 자막 (두 가지 모달)을 모두 특성으로 취하고 텍스트 자막이 이미지에 얼마나 적합한지 나타내는 점수를 출력하는 모델을 생각해 보겠습니다. 따라서 이 모델의 입력은 멀티모달이고 출력은 모노모달입니다.

N

자연어 처리

#language

컴퓨터에 언어적 규칙을 사용하여 사용자가 말하거나 입력한 내용을 처리하도록 가르치는 분야입니다. 거의 모든 현대 자연어 처리는 머신러닝을 사용합니다.

자연어 이해

#language

말하거나 입력한 내용의 의도를 결정하는 자연어 처리의 하위 집합입니다. 자연어 이해는 자연어 처리를 넘어 맥락, 비꼬음, 감정과 같은 언어의 복잡한 측면을 고려할 수 있습니다.

N-그램

#seq

#language

순서가 있는 N개 단어의 시퀀스입니다. 예를 들어 truly madly는 2-그램입니다. 순서는 의미가 있으므로 madly truly는 truly madly와 다른 2-그램입니다.

N	이 종류의 N-그램에 대한 이름	예
2	바이그램 또는 2-그램	to go, go to, eat lunch, eat dinner
3	트라이그램 또는 3-그램	ate too much, happily ever after, the bell tolls
4	4-그램	walk in the park, dust in the wind, the boy ate lentils

많은 자연어 이해 모델이 N-그램을 사용하여 사용자가 다음에 입력하거나 말할 가능성이 있는 단어를 예측합니다. 예를 들어 사용자가 happily ever를 입력했다고 가정합니다. 트라이그램을 기반으로 하는 NLU 모델은 사용자가 다음에 after라는 단어를 입력할 것으로 예측할 수 있습니다.

N-그램을 순서가 지정되지 않은 단어 세트인 단어 집합과 비교해 보시기 바랍니다.

자세한 내용은 머신러닝 단기집중과정의 대규모 언어 모델을 참고하세요.

NLP

#language

자연어 처리의 약어입니다.

NLU

#language

자연어 이해의 약어입니다.

정답이 없는 문제 (NORA)

#language

#generativeAI

적절한 응답이 여러 개인 프롬프트 예를 들어 다음 프롬프트에는 정답이 없습니다.

코끼리에 관한 농담 들려줘.

정답이 없는 프롬프트를 평가하는 것은 쉽지 않을 수 있습니다.

NORA

#language

#generativeAI

정답이 없음의 약어입니다.

O

원샷 프롬프팅

#language

#generativeAI

대규모 언어 모델이 응답하는 방식을 보여주는 하나의 예시가 포함된 프롬프트입니다. 예를 들어 다음 프롬프트에는 대규모 언어 모델이 쿼리에 대답하는 방법을 보여주는 예시가 하나 포함되어 있습니다.

하나의 프롬프트의 부분	참고
`지정된 국가의 공식 통화는 무엇인가요?`	LLM이 답변할 질문
`프랑스: 유로`	한 가지 예를 들어 보겠습니다.
`인도:`	실제 쿼리입니다.

원샷 프롬프트를 다음 용어와 비교 및 대조하세요.

제로샷 프롬프팅
퓨샷 프롬프팅

P

매개변수 효율적인 튜닝

#language

#generativeAI

전체 미세 조정보다 효율적으로 대규모 사전 학습된 언어 모델 (PLM)을 미세 조정하는 일련의 기법입니다. 매개변수 효율적 조정은 일반적으로 전체 미세 조정보다 훨씬 적은 수의 매개변수를 미세 조정하지만 일반적으로 전체 미세 조정에서 빌드된 대규모 언어 모델과 거의 동일한 성능을 발휘하는 대규모 언어 모델을 생성합니다.

매개변수 효율적인 튜닝을 다음과 비교 및 대조하세요.

매개변수 효율적인 조정은 매개변수 효율적인 미세 조정이라고도 합니다.

파이프라인

#language

모델 처리가 연속적인 단계로 나뉘고 각 단계가 다른 기기에서 실행되는 모델 병렬 처리의 한 형태입니다. 한 단계에서 하나의 일괄 처리를 처리하는 동안 이전 단계에서 다음 일괄 처리를 처리할 수 있습니다.

단계별 학습도 참고하세요.

PLM

#language

#generativeAI

선행 학습된 언어 모델의 약어입니다.

위치 인코딩

#language

시퀀스에서 토큰의 위치에 관한 정보를 토큰의 임베딩에 추가하는 기법입니다. 변환 모델은 위치 인코딩을 사용하여 시퀀스의 여러 부분 간의 관계를 더 잘 이해합니다.

위치 인코딩의 일반적인 구현은 사인 함수를 사용합니다. 특히, 정현파 함수의 주파수와 진폭은 시퀀스에서 토큰의 위치에 따라 결정됩니다. 이 기법을 사용하면 Transformer 모델이 위치에 따라 시퀀스의 여러 부분에 주의를 기울이는 방법을 학습할 수 있습니다.

학습 후 모델

#language

#image

#generativeAI

일반적으로 다음 중 하나 이상의 후처리(예: 후처리)를 거친 사전 학습된 모델을 나타내는 느슨하게 정의된 용어입니다.

k 기준 정밀도 (precision@k)

#language

#Metric

순위가 매겨진 (정렬된) 항목 목록을 평가하는 측정항목입니다. k의 정밀도는 해당 목록의 첫 번째 k개 항목 중 '관련성'이 있는 항목의 비율을 나타냅니다. 이는 다음과 같은 의미입니다.

\[\text{precision at k} = \frac{\text{relevant items in first k items of the list}} {\text{k}}\]

k 값은 반환된 목록의 길이보다 작거나 같아야 합니다. 반환된 목록의 길이는 계산에 포함되지 않습니다.

관련성은 주관적인 경우가 많습니다. 전문가 인간 평가자들조차 관련성 있는 항목에 동의하지 않는 경우가 많습니다.

비교 대상:

k에서의 평균 정밀도
k에서의 평균 정밀도

아이콘을 클릭하여 예를 확인하세요.

대규모 언어 모델에 다음 쿼리가 주어졌다고 가정해 보겠습니다.

List the 6 funniest movies of all time in order.

대규모 언어 모델은 다음 표의 처음 두 열에 표시된 목록을 반환합니다.

위치	영화	관련성이 있나요?
1	장군	예
2	Mean Girls	예
3	Platoon	아니요
4	내 여자친구의 결혼식	예
5	Citizen Kane	아니요
6	스파이널 탭입니다.	예

처음 세 영화 중 두 편이 관련이 있으므로 정밀도는 3입니다.

$$\text{precision at 3} = \frac{\text{2}} {\text{3}} = 0.67$$

처음 5편의 영화 중 4편이 매우 재미있으므로 정확도는 5입니다.

$$\text{precision at 5} = \frac{\text{4}} {\text{5}} = 0.8$$

선행 학습된 모델

#language

#image

#generativeAI

일반적으로 이미 학습된 모델입니다. 이 용어는 이전에 학습된 임베딩 벡터를 의미할 수도 있습니다.

사전 학습된 언어 모델이라는 용어는 일반적으로 이미 학습된 대규모 언어 모델을 나타냅니다.

사전 학습

#language

#image

#generativeAI

대규모 데이터 세트에서 모델을 초기 학습합니다. 일부 사전 학습된 모델은 거대하지만 부정확하므로 일반적으로 추가 학습을 통해 미세 조정해야 합니다. 예를 들어 ML 전문가는 위키피디아의 모든 영어 페이지와 같은 방대한 텍스트 데이터 세트에서 대규모 언어 모델을 사전 학습할 수 있습니다. 선행 학습 후에는 다음 기법 중 하나를 통해 결과 모델을 추가로 미세 조정할 수 있습니다.

distillation
미세 조정
instruction tuning
매개변수 효율적인 조정
prompt-tuning

프롬프트

#language

#generativeAI

대규모 언어 모델의 입력으로 입력되어 모델이 특정 방식으로 작동하도록 조정하는 텍스트입니다. 프롬프트는 문구처럼 짧을 수도 있고 소설의 전체 텍스트처럼 임의로 길 수도 있습니다. 프롬프트는 다음 표에 표시된 카테고리를 비롯하여 여러 카테고리로 분류됩니다.

프롬프트 카테고리	예	참고
질문	`비둘기는 얼마나 빨리 날 수 있나요?`
안내	`차익거래에 관한 재미있는 시를 써 줘.`	대규모 언어 모델에 무언가를 수행하도록 요청하는 프롬프트입니다.
예	`마크다운 코드를 HTML로 변환합니다. 예: 마크다운: * 목록 항목 HTML: <ul> <li>목록 항목</li> </ul>`	이 프롬프트의 첫 번째 문장은 안내입니다. 나머지 프롬프트는 예시입니다.
역할	`물리학 박사 과정에 있는 학생에게 머신러닝 학습에 경사하강법이 사용되는 이유를 설명합니다.`	문장의 첫 부분은 안내입니다. '물리학 박사'라는 문구는 역할 부분입니다.
모델이 완료할 부분 입력	`영국 총리는`	부분 입력 프롬프트는 갑자기 끝날 수도 있고 (이 예와 같이) 밑줄로 끝날 수도 있습니다.

생성형 AI 모델은 텍스트, 코드, 이미지, 임베딩, 동영상 등 거의 모든 것으로 프롬프트에 응답할 수 있습니다.

프롬프트 기반 학습

#language

#generativeAI

임의의 텍스트 입력 (프롬프트)에 응답하여 동작을 조정할 수 있는 특정 모델의 기능입니다. 일반적인 프롬프트 기반 학습 패러다임에서 대규모 언어 모델은 텍스트를 생성하여 프롬프트에 응답합니다. 예를 들어 사용자가 다음 프롬프트를 입력한다고 가정해 보겠습니다.

뉴턴의 운동 제3법칙을 요약합니다.

프롬프트 기반 학습을 할 수 있는 모델은 이전 프롬프트에 대답하도록 구체적으로 학습되지 않습니다. 오히려 모델은 물리학에 관한 많은 사실, 일반적인 언어 규칙에 관한 많은 사실, 일반적으로 유용한 답변을 구성하는 요소에 관한 많은 사실을 '알고' 있습니다. 이 지식은 유용한 답변을 제공하기에 충분합니다. 추가적인 인간의 피드백(예: '답변이 너무 복잡했습니다.' 또는 '어떤 반응이 있나요?')을 통해 일부 프롬프트 기반 학습 시스템은 답변의 유용성을 점진적으로 개선할 수 있습니다.

프롬프트 설계

#language

#generativeAI

프롬프트 엔지니어링의 동의어입니다.

프롬프트 엔지니어링

#language

#generativeAI

대규모 언어 모델에서 원하는 응답을 유도하는 프롬프트를 만드는 기술입니다. 사람이 프롬프트 엔지니어링을 실행합니다. 체계적인 메시지 작성은 대규모 언어 모델의 유용한 응답을 보장하는 데 필수적인 부분입니다. 프롬프트 엔지니어링은 다음을 비롯한 여러 요인에 따라 달라집니다.

대규모 언어 모델을 사전 학습하고 경우에 따라 미세 조정하는 데 사용되는 데이터 세트입니다.
모델이 응답을 생성하는 데 사용하는 강도 및 기타 디코딩 매개변수입니다.

프롬프트 설계는 프롬프트 엔지니어링의 동의어입니다.

유용한 프롬프트 작성에 관한 자세한 내용은 프롬프트 설계 소개를 참고하세요.

프롬프트 조정

#language

#generativeAI

시스템이 실제 프롬프트 앞에 추가하는 '접두사'를 학습하는 매개변수 효율적인 조정 메커니즘입니다.

프롬프트 조정의 한 가지 변형(접두사 조정이라고도 함)은 모든 레이어에 접두사를 추가하는 것입니다. 반면 대부분의 프롬프트 조정은 입력 레이어에 접두사만 추가합니다.

접두사에 대해 자세히 알아보려면 아이콘을 클릭하세요.

프롬프트 조정 시 '접두사'('소프트 프롬프트'라고도 함)는 학습된 태스크별 벡터로, 실제 프롬프트의 텍스트 토큰 임베딩 앞에 추가됩니다. 시스템은 다른 모든 모델 매개변수를 고정하고 특정 작업에서 미세 조정하여 조용한 프롬프트를 학습합니다.

R

k 기준 재현율 (recall@k)

#language

#Metric

순위가 지정된 (순서가 지정된) 항목 목록을 출력하는 시스템을 평가하기 위한 측정항목입니다. k의 재현율은 반환된 총 관련 항목 수 중 해당 목록의 첫 번째 k개 항목에 있는 관련 항목의 비율을 나타냅니다.

\[\text{recall at k} = \frac{\text{relevant items in first k items of the list}} {\text{total number of relevant items in the list}}\]

k 기준 정밀도와 대비되는 개념입니다.

아이콘을 클릭하여 예를 확인하세요.

대규모 언어 모델에 다음 쿼리가 주어졌다고 가정해 보겠습니다.

List the 10 funniest movies of all time in order.

대규모 언어 모델은 첫 번째 두 열에 표시된 목록을 반환합니다.

위치	영화	관련성이 있나요?
1	장군	예
2	Mean Girls	예
3	Platoon	아니요
4	내 여자친구의 결혼식	예
5	스파이널 탭입니다.	예
6	비행기!	예
7	Groundhog Day	예
8	몬티 파이튼의 성배	예
9	오펜하이머	아니요
10	클루리스	예

위 목록의 영화 중 8편은 매우 재미있으므로 '목록의 관련 항목'입니다. 따라서 8은 k에서의 모든 재현율 계산에서 분모가 됩니다. 분자는 어떨까요? 첫 4개 항목 중 3개가 관련이 있으므로 4에서의 재현율은 다음과 같습니다.

$$\text{recall at 4} = \frac{\text{3}} {\text{8}} = 0.375$$

처음 8편의 영화 중 7편이 매우 재미있으므로 8번에서의 회상은 다음과 같습니다.

$$\text{recall at 8} = \frac{\text{7}} {\text{8}} = 0.875$$

참조 텍스트

#language

#generativeAI

프롬프트에 대한 전문가의 대답입니다. 예를 들어 다음과 같은 프롬프트가 표시될 수 있습니다.

'이름이 뭐야?'라는 질문을 영어에서 프랑스어로 번역하세요.

전문가의 응답은 다음과 같습니다.

Comment vous appelez-vous?

다양한 측정항목 (예: ROUGE)은 참조 텍스트가 ML 모델의 생성된 텍스트와 일치하는 정도를 측정합니다.

역할 프롬프트

#language

#generativeAI

생성형 AI 모델의 응답에 대한 공유 대상 그룹을 식별하는 프롬프트의 선택적 부분입니다. 역할 프롬프트가 없으면 대규모 언어 모델은 질문하는 사람에게 유용하거나 유용하지 않을 수 있는 답변을 제공합니다. 역할 프롬프트를 사용하면 대규모 언어 모델이 특정 대상 사용자에게 더 적절하고 유용한 방식으로 응답할 수 있습니다. 예를 들어 다음 프롬프트의 역할 프롬프트 부분은 굵은 글꼴로 표시됩니다.

경제학 박사 과정을 위한 이 문서를 요약해 줘.
10세 아이에게 조수의 작동 원리를 설명합니다.
2008년 금융 위기 설명 어린 아이나 골든 리트리버에게 말하는 것처럼 말합니다.

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

#language

#Metric

자동 요약 및 기계 번역 모델을 평가하는 측정항목 계열입니다. ROUGE 측정항목은 참조 텍스트가 ML 모델의 생성된 텍스트와 겹치는 정도를 결정합니다. ROUGE 계열의 각 요소는 다른 방식으로 중복을 측정합니다. ROUGE 점수가 높을수록 참조 텍스트와 생성된 텍스트 간의 유사성이 높습니다.

각 ROUGE 계열은 일반적으로 다음 측정항목을 생성합니다.

정밀도
재현율
F₁

자세한 내용과 예는 다음을 참고하세요.

ROUGE-L
ROUGE-N
ROUGE-S

ROUGE-L

#language

#Metric

ROUGE 계열의 한 구성원은 참조 텍스트와 생성된 텍스트의 최장 공통 부분 수열 길이에 중점을 두었습니다. 다음 수식은 ROUGE-L의 재현율과 정밀도를 계산합니다.

$$\text{ROUGE-L recall} = \frac{\text{longest common sequence}} {\text{number of words in the reference text} }$$

$$\text{ROUGE-L precision} = \frac{\text{longest common sequence}} {\text{number of words in the generated text} }$$

그런 다음 F₁을 사용하여 ROUGE-L 재현율과 ROUGE-L 정밀도를 단일 측정항목으로 롤업할 수 있습니다.

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{ROUGE-L recall} * \text{ROUGE-L precision}} {\text{ROUGE-L recall} + \text{ROUGE-L precision} }$$

아이콘을 클릭하여 ROUGE-L 계산 예시를 확인합니다.

다음 참조 텍스트와 생성된 텍스트를 살펴보세요.

카테고리	제작자는 누구인가요?	텍스트
참조 텍스트	인간 번역사	다양한 것을 이해하고 싶습니다.
생성된 텍스트	ML 모델	많은 것을 배우고 싶습니다.

따라서 다음과 같습니다.

가장 긴 공통 하위 문자열은 5개입니다 (I want to of things).
참조 텍스트의 단어 수는 9개입니다.
생성된 텍스트의 단어 수는 7개입니다.

따라서 다음 사항에 유의하세요.

$$\text{ROUGE-L recall} = \frac{\text{5}} {\text{9} } = 0.56$$

$$\text{ROUGE-L precision} = \frac{\text{5}} {\text{7} } = 0.71$$

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{0.56} * \text{0.71}} {\text{0.56} + \text{0.71} } = 0.63$$

ROUGE-L은 참조 텍스트와 생성된 텍스트의 줄바꿈을 무시하므로 최장 공통 부분 수열이 여러 문장을 교차할 수 있습니다. 참조 텍스트와 생성된 텍스트에 여러 문장이 포함된 경우 일반적으로 ROUGE-L의 변형인 ROUGE-Lsum이 더 나은 측정항목입니다. ROUGE-Lsum은 구문의 각 문장에 대한 최장 공통 부분 수열을 결정한 다음 이러한 최장 공통 부분 수열의 평균을 계산합니다.

아이콘을 클릭하여 ROUGE-Lsum 계산 예시를 확인합니다.

다음 참조 텍스트와 생성된 텍스트를 살펴보세요.

카테고리	제작자는 누구인가요?	텍스트
참조 텍스트	인간 번역사	화성의 표면은 건조합니다. 거의 모든 물은 지하 깊숙이 있습니다.
생성된 텍스트	ML 모델	화성의 표면은 건조합니다. 하지만 대부분의 물은 지하에 있습니다.

따라서 날짜는 다음과 같이 계산합니다.

	첫 문장	두 번째 문장
최장 공통 서열	2 (화성 건조)	3 (지하에 물 있음)
참조 텍스트의 문장 길이	6	7
생성된 텍스트의 문장 길이	5	8

따라서 다음을 실행해야 합니다.

$$\text{recall of first sentence} = \frac{\text{2}} {\text{6}} = 0.33 $$

$$\text{recall of second sentence} = \frac{\text{3}} {\text{7}} = 0.43 $$

$$\text{ROUGE-Lsum recall} = \frac{\text{0.33} + \text{0.43}} {\text{2}} = 0.38 $$

$$\text{precision of first sentence} = \frac{\text{2}} {\text{5}} = 0.4 $$

$$\text{precision of second sentence} = \frac{\text{3}} {\text{8}} = 0.38 $$

$$\text{ROUGE-Lsum precision} = \frac{\text{0.4} + \text{0.38}} {\text{2}} = 0.39 $$

$$\text{ROUGE-Lsum F}{_1} = \frac{\text{2} * \text{0.38} * \text{0.39}} {\text{0.38} + \text{0.39}} = 0.38 $$

ROUGE-N

#language

#Metric

ROUGE 계열 내의 측정항목 집합으로, 참조 텍스트와 생성된 텍스트에서 특정 크기의 공유 N-gram을 비교합니다. 예를 들면 다음과 같습니다.

ROUGE-1은 참조 텍스트와 생성된 텍스트에서 공유되는 토큰 수를 측정합니다.
ROUGE-2는 참조 텍스트와 생성된 텍스트에서 공유되는 바이그램 (2-그램) 수를 측정합니다.
ROUGE-3는 참조 텍스트와 생성된 텍스트에서 공유되는 트라이그램 (3-그램) 수를 측정합니다.

다음 수식을 사용하여 ROUGE-N 계열의 모든 구성원의 ROUGE-N 재현율과 ROUGE-N 정밀도를 계산할 수 있습니다.

$$\text{ROUGE-N recall} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the reference text} }$$

$$\text{ROUGE-N precision} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the generated text} }$$

그런 다음 F₁을 사용하여 ROUGE-N 재현율과 ROUGE-N 정밀도를 단일 측정항목으로 롤업할 수 있습니다.

$$\text{ROUGE-N F}{_1} = \frac{\text{2} * \text{ROUGE-N recall} * \text{ROUGE-N precision}} {\text{ROUGE-N recall} + \text{ROUGE-N precision} }$$

예시를 보려면 아이콘을 클릭하세요.

ROUGE-2를 사용하여 인간 번역가와 비교하여 ML 모델의 번역 효과를 측정하기로 결정했다고 가정해 보겠습니다.

카테고리	제작자는 누구인가요?	텍스트	바이그램
참조 텍스트	인간 번역사	다양한 것을 이해하고 싶습니다.	광범위하고 다양하며 다양한 것을 원하며, 이해하려고 함, 이해하려고 함
생성된 텍스트	ML 모델	많은 것을 배우고 싶습니다.	I want, want to, to learn, learn plenty, plenty of, of things

따라서 다음과 같습니다.

일치하는 2-그램의 수는 3개 (I want, want to, of things)입니다.
참조 텍스트의 2-그램 수는 8개입니다.
생성된 텍스트의 2-gram 수는 6개입니다.

따라서 다음 사항에 유의하세요.

$$\text{ROUGE-2 recall} = \frac{\text{3}} {\text{8} } = 0.375$$

$$\text{ROUGE-2 precision} = \frac{\text{3}} {\text{6} } = 0.5$$

$$\text{ROUGE-2 F}{_1} = \frac{\text{2} * \text{0.375} * \text{0.5}} {\text{0.375} + \text{0.5} } = 0.43$$

ROUGE-S

#language

#Metric

skip-gram 일치를 사용 설정하는 관대한 형태의 ROUGE-N입니다. 즉, ROUGE-N은 정확하게 일치하는 N-그램만 집계하지만 ROUGE-S는 하나 이상의 단어로 구분된 N-그램도 집계합니다. 예를 들어 다음 사항을 고려해 보세요.

참조 텍스트: 흰색 구름
생성된 텍스트: 구름이 흰색으로 뭉게뭉게 끼여 있음

ROUGE-N을 계산할 때 2그램인 흰색 구름은 흰색 구름이 피어오름과 일치하지 않습니다. 하지만 ROUGE-S를 계산할 때는 흰 구름이 흰색 구름이 피어오름과 일치합니다.

S

셀프 어텐션 (셀프 어텐션 계층이라고도 함)

#language

임베딩 시퀀스 (예: 토큰 임베딩)를 다른 임베딩 시퀀스로 변환하는 신경망 레이어입니다. 출력 시퀀스의 각 임베딩은 주의 집중 메커니즘을 통해 입력 시퀀스의 요소에서 정보를 통합하여 구성됩니다.

셀프 어텐션의 셀프 부분은 다른 맥락이 아닌 자체에 주의를 기울이는 시퀀스를 나타냅니다. 셀프 어텐션은 트랜스포머의 주요 구성요소 중 하나이며 '검색어', '키', '값'과 같은 사전 조회 용어를 사용합니다.

셀프 어텐션 레이어는 단어별로 하나씩 입력 표현의 시퀀스로 시작합니다. 단어의 입력 표현은 간단한 임베딩일 수 있습니다. 입력 시퀀스의 각 단어에 대해 네트워크는 단어가 전체 단어 시퀀스의 모든 요소와 얼마나 관련성이 있는지 점수를 매깁니다. 관련성 점수는 단어의 최종 표현이 다른 단어의 표현을 얼마나 통합하는지를 결정합니다.

예를 들어 다음 문장을 살펴보겠습니다.

동물이 너무 피곤해서 길을 건너지 않았습니다.

다음 그림 (Transformer: A Novel Neural Network Architecture for Language Understanding에서 발췌)은 호칭 it에 대한 자기 어텐션 레이어의 어텐션 패턴을 보여줍니다. 각 선의 어두운 정도는 각 단어가 표현에 기여하는 정도를 나타냅니다.

다음 문장이 두 번 나타납니다. 동물이 너무 피곤해서 길을 건너지 않았습니다. 선은 한 문장의 it 호칭 대명사를 다른 문장의 5개 토큰 (The, animal, street, it, 그리고 마침표)에 연결합니다. it 대명사와 동물이라는 단어 사이의 선이 가장 굵습니다.

셀프 어텐션 레이어는 'it'과 관련된 단어를 강조 표시합니다. 이 경우 주목 레이어는 자신이 언급할 수 있는 단어를 강조 표시하는 방법을 학습하여 동물에 가장 높은 가중치를 할당했습니다.

n개의 토큰 시퀀스의 경우, 자기 어텐션은 시퀀스의 각 위치에서 한 번씩 n개의 임베딩 시퀀스를 별도로 변환합니다.

주목 및 멀티 헤드 자기 주목도 참고하세요.

감정 분석

#language

통계 또는 머신러닝 알고리즘을 사용하여 서비스, 제품, 조직, 주제 등에 대한 그룹의 전체적인 태도(긍정적 또는 부정적)를 확인합니다. 예를 들어 자연어 이해 알고리즘을 사용하여 대학 과정의 텍스트 피드백에 대한 감정 분석을 수행하여 학생들이 대부분 과정을 마음에 들어 했거나 싫어한 정도를 평가할 수 있습니다.

자세한 내용은 텍스트 분류 가이드를 참고하세요.

시퀀스 대 시퀀스 작업

#language

토큰의 입력 시퀀스를 토큰의 출력 시퀀스로 변환하는 태스크입니다. 예를 들어 널리 사용되는 두 가지 종류의 시퀀스 대 시퀀스 작업은 다음과 같습니다.

번역자:
- 샘플 입력 시퀀스: '사랑해'
- 샘플 출력 시퀀스: 'Je t'aime.'
질문에 답변하기:
- 샘플 입력 시퀀스: "뉴욕에 있을 때 차가 필요할까요?"
- 샘플 출력 시퀀스: "아니요. 차를 집에 두세요."

skip-gram

#language

원래 문맥에서 단어를 생략 (또는 '건너뛰기')할 수 있는 n-그램으로, 즉 N개의 단어가 원래는 나란히 있지 않았을 수 있습니다. 더 정확하게는 'k-skip-n-gram'은 최대 k개의 단어가 건너뛰어질 수 있는 n-gram입니다.

예를 들어 'the quick brown fox'에는 다음과 같은 2-그램이 있을 수 있습니다.

"the quick"
"quick brown"
"brown fox"

'1-skip-2-gram'은 두 단어 사이에 최대 1개의 단어가 있는 단어 쌍입니다. 따라서 'the quick brown fox'에는 다음과 같은 1단위 건너뛰기 2-그램이 있습니다.

"the brown"
"quick fox"

또한 단어를 1개 미만 건너뛸 수 있으므로 모든 2-그램은 1-skip-2-gram도 됩니다.

건너뛰기 그래프는 단어 주변의 맥락을 더 잘 이해하는 데 유용합니다. 이 예에서 'fox'는 1단위 건너뛰기 2그램 세트에서 'quick'과 직접 연결되었지만 2그램 세트에서는 연결되지 않았습니다.

스킵그램은 단어 임베딩 모델을 학습하는 데 도움이 됩니다.

조용한 프롬프트 조정

#language

#generativeAI

리소스 집약적인 미세 조정 없이 특정 태스크에 맞게 대규모 언어 모델을 조정하는 기법입니다. 모델의 모든 가중치를 재학습하는 대신 조용한 프롬프트 조정은 동일한 목표를 달성하기 위해 프롬프트를 자동으로 조정합니다.

텍스트 프롬프트가 주어지면 조용히 프롬프트를 조정하는 것은 일반적으로 프롬프트에 토큰 임베딩을 추가하고 역전 전파를 사용하여 입력을 최적화합니다.

'단단한' 프롬프트에는 토큰 임베딩 대신 실제 토큰이 포함됩니다.

희소 지형지물

#language

#fundamentals

값이 대부분 0이거나 비어 있는 특징입니다. 예를 들어 1 값 1개와 0 값 100만 개가 포함된 특성은 희소합니다. 반면 밀집된 특징은 대부분 0이 아니거나 비어 있지 않은 값을 갖습니다.

머신러닝에서 놀라운 수의 특성이 희소한 특성입니다. 범주형 특성은 일반적으로 희소한 특성입니다. 예를 들어 숲에 있는 300가지 수종 중 단일 예시로 단풍나무만 식별할 수 있습니다. 또는 동영상 보관함에 있는 수백만 개의 동영상 중 단일 예시가 '카사블랑카'만 식별할 수도 있습니다.

모델에서는 일반적으로 원-핫 인코딩으로 희소 특성을 나타냅니다. 원-핫 인코딩이 큰 경우 효율성을 높이기 위해 원-핫 인코딩 위에 임베딩 레이어를 배치할 수 있습니다.

희소 표현

#language

#fundamentals

희소한 지형지물에 0이 아닌 요소의 위치만 저장합니다.

예를 들어 species라는 범주형 특성이 특정 숲의 36가지 수종을 식별한다고 가정해 보겠습니다. 또한 각 예가 단일 종만 식별한다고 가정합니다.

원핫 벡터를 사용하여 각 예시에서 나무 종을 나타낼 수 있습니다. 원-핫 벡터는 단일 1 (예시의 특정 수종을 나타내기 위해)와 35개의 0 (예시의 해당하지 않는 35가지 수종을 나타내기 위해)를 포함합니다. 따라서 maple의 원-핫 표현은 다음과 같이 표시될 수 있습니다.

0~23번 위치에 값 0이, 24번 위치에 값 1이, 25~35번 위치에 값 0이 있는 벡터입니다.

또는 희소 표현은 특정 종의 위치만 식별합니다. maple가 24번 위치에 있으면 maple의 희소 표현은 다음과 같습니다.

희소 표현은 원핫 표현보다 훨씬 더 컴팩트합니다.

아이콘을 클릭하면 약간 더 복잡한 예시를 확인할 수 있습니다.

모델의 각 예시가 영어 문장의 단어를 나타내야 하지만 단어의 순서는 나타내지 않아야 한다고 가정해 보겠습니다. 영어는 약 170,000개의 단어로 구성되므로 영어는 약 170,000개의 요소가 있는 카테고리형 특성입니다. 대부분의 영어 문장은 이 170,000단어 중 극히 일부만 사용하므로 단일 예시의 단어 집합은 거의 확실히 희소 데이터가 될 것입니다.

다음 문장을 생각해 보세요.

My dog is a great dog

원-핫 벡터의 변형을 사용하여 이 문장의 단어를 나타낼 수 있습니다. 이 변형에서는 벡터의 여러 셀에 0이 아닌 값이 포함될 수 있습니다. 또한 이 변형에서는 셀에 1이 아닌 정수가 포함될 수 있습니다. 'my', 'is', 'a', 'great'라는 단어는 문장에 한 번만 나타나지만 'dog'라는 단어는 두 번 나타납니다. 이 원-핫 벡터 변형을 사용하여 이 문장의 단어를 표현하면 다음과 같은 170,000개 요소 벡터가 생성됩니다.

동일한 문장의 희소 표현은 다음과 같습니다.

혼란스러우면 아이콘을 클릭하세요.

'희소 표현'이라는 용어는 많은 사람들을 혼란스럽게 합니다. 희소 표현 자체가 희소 벡터가 아니기 때문입니다. 오히려 희소 표현은 실제로 희소 벡터의 밀집 표현입니다. 색인 표현이라는 동의어는 '희소 표현'보다 조금 더 명확합니다.

자세한 내용은 머신러닝 단기집중과정의 범주형 데이터 작업을 참고하세요.

단계적 학습

#language

개별적인 단계의 순서로 모델을 학습하는 전술입니다. 학습 프로세스의 속도를 높이거나 모델 품질을 개선하는 것이 목표일 수 있습니다.

점진적 쌓기 접근 방식을 보여주는 그림은 다음과 같습니다.

1단계에는 숨겨진 레이어가 3개, 2단계에는 숨겨진 레이어가 6개, 3단계에는 숨겨진 레이어가 12개 있습니다.
2단계에서는 1단계의 3개 숨겨진 레이어에서 학습된 가중치로 학습을 시작합니다. 3단계에서는 2단계의 6개 숨겨진 레이어에서 학습된 가중치로 학습을 시작합니다.

3단계(1단계, 2단계, 3단계)
각 단계에는 레이어 수가 다릅니다. 1단계에는 3개, 2단계에는 6개, 3단계에는 12개의 레이어가 포함됩니다.
1단계의 3개 레이어가 2단계의 첫 번째 3개 레이어가 됩니다.
마찬가지로 2단계의 6개 레이어가 3단계의 첫 6개 레이어가 됩니다.

파이프라인 처리도 참고하세요.

하위 단어 토큰

#language

언어 모델에서 단어의 하위 문자열인 토큰으로, 전체 단어일 수도 있습니다.

예를 들어 'itemize'와 같은 단어는 'item'(기본 단어)과 'ize' (접미사)로 나눌 수 있으며, 각각은 자체 토큰으로 표현됩니다. 흔하지 않은 단어를 하위 단어라고 하는 이러한 부분으로 분할하면 언어 모델이 접두사 및 접미사와 같은 단어의 더 일반적인 구성요소를 처리할 수 있습니다.

반대로 'going'과 같은 일반적인 단어는 분할되지 않고 단일 토큰으로 표시될 수 있습니다.

T

T5

#language

2020년 Google AI에서 도입한 텍스트 대 텍스트 전이 학습 모델입니다. T5는 Transformer 아키텍처를 기반으로 하며 매우 큰 데이터 세트를 사용하여 학습된 인코더-디코더 모델입니다. 텍스트 생성, 언어 번역, 대화 방식으로 질문에 답변하는 등 다양한 자연어 처리 태스크에 효과적입니다.

T5는 '텍스트 간 변환 변환기'의 다섯 가지 T에서 이름을 따왔습니다.

T5X

#language

대규모 자연어 처리(NLP) 모델을 빌드하고 학습하도록 설계된 오픈소스 머신러닝 프레임워크입니다. T5는 JAX 및 Flax를 기반으로 빌드된 T5X 코드베이스에 구현됩니다.

기온

#language

#image

#generativeAI

모델 출력의 무작위성 수준을 제어하는 초매개변수입니다. 온도가 높을수록 무작위 출력이 많아지고 온도가 낮을수록 무작위 출력이 적어집니다.

최적의 온도는 특정 애플리케이션과 모델 출력의 선호 속성에 따라 다릅니다. 예를 들어 창의적인 결과물을 생성하는 애플리케이션을 만들 때는 온도를 높일 수 있습니다. 반대로 이미지나 텍스트를 분류하는 모델을 빌드할 때는 모델의 정확성과 일관성을 개선하기 위해 온도를 낮출 수 있습니다.

온도는 softmax와 함께 사용되는 경우가 많습니다.

텍스트 스팬

#language

텍스트 문자열의 특정 하위 섹션과 연결된 배열 색인 범위입니다. 예를 들어 Python 문자열 s="Be good now"의 good라는 단어는 3~6 사이의 텍스트 범위를 차지합니다.

토큰

#language

언어 모델에서 모델이 학습하고 예측을 수행하는 원자 단위입니다. 토큰은 일반적으로 다음 중 하나입니다.

단어: 예를 들어 '개는 고양이를 좋아합니다'라는 문구는 '개', '좋아합니다', '고양이'라는 세 단어 토큰으로 구성됩니다.
문자: 예를 들어 '자전거 물고기'라는 문구는 9개의 문자 토큰으로 구성됩니다. 빈 공백은 토큰 중 하나로 간주됩니다.
하위 단어: 단일 단어가 단일 토큰 또는 여러 토큰이 될 수 있습니다. 하위 단어는 기본 단어, 접두사 또는 접미사로 구성됩니다. 예를 들어 하위 단어를 토큰으로 사용하는 언어 모델은 'dogs'라는 단어를 두 개의 토큰 (기본 단어 'dog' 및 복수형 접미사 's')으로 간주할 수 있습니다. 동일한 언어 모델은 단일 단어인 'taller'를 두 개의 하위 단어 (기본 단어인 'tall'과 접미사인 'er')로 볼 수 있습니다.

언어 모델 외부의 도메인에서 토큰은 다른 종류의 원자 단위를 나타낼 수 있습니다. 예를 들어 컴퓨터 비전에서 토큰은 이미지의 하위 집합일 수 있습니다.

자세한 내용은 머신러닝 단기집중과정의 대규모 언어 모델을 참고하세요.

top-k 정확성

#language

#Metric

생성된 목록의 처음 k개 위치 내에 '타겟 라벨'이 표시되는 빈도의 비율입니다. 목록은 맞춤 추천이거나 소프트맥스로 정렬된 항목 목록일 수 있습니다.

Top-k 정확도는 k의 정확도라고도 합니다.

예시를 보려면 아이콘을 클릭하세요.

소프트맥스를 사용하여 나뭇잎 사진에 기반해 나무의 확률을 식별하는 머신러닝 시스템을 생각해 보세요. 다음 표에는 5개의 입력 나무 사진에서 생성된 출력 목록이 나와 있습니다. 각 행에는 타겟 라벨과 가장 가능성이 높은 다섯 개의 트리가 포함됩니다. 예를 들어 타겟 라벨이 maple인 경우 머신러닝 모델은 elm을 가장 가능성이 높은 나무로, oak를 두 번째로 가능성이 높은 나무로 식별했습니다.

대상 라벨	1	2	3	4	5
단풍	느릅나무	오크	maple	너도밤나무	포플러
층층나무	오크	dogwood	포플러	Hickory	단풍
오크	oak	배나무	locust	오리나무	Linden
Linden	단풍	paw-paw	오크	배나무	포플러
오크	locust	Linden	oak	단풍	paw-paw

타겟 라벨은 첫 번째 위치에 한 번만 표시되므로 1위 정확도는 다음과 같습니다.

$$\text{top-1 accuracy} = \frac{\text{1}} {\text{5}} = 0.2$$

타겟 라벨이 상위 3개 위치 중 하나에 4번 표시되므로 상위 3개 정확성은 다음과 같습니다.

$$\text{top-1 accuracy} = \frac{\text{4}} {\text{5}} = 0.8$$

유해

#language

#Metric

콘텐츠가 얼마나 악의적이거나 위협적이거나 불쾌감을 주는가에 대한 정도 많은 머신러닝 모델이 독성을 식별하고 측정할 수 있습니다. 이러한 모델의 대부분은 악성 언어의 수준, 위협적인 언어의 수준과 같은 여러 매개변수를 기준으로 악성을 식별합니다.

Transformer

#language

Google에서 개발한 신경망 아키텍처로, 자기 주목 메커니즘을 사용하여 컨볼루션 또는 회귀 신경망에 의존하지 않고 입력 임베딩의 시퀀스를 출력 임베딩의 시퀀스로 변환합니다. Transformer는 자체 주목(self-attention) 레이어의 스택으로 볼 수 있습니다.

변환기에는 다음 중 하나가 포함될 수 있습니다.

인코더
디코더
인코더와 디코더 모두

인코더는 임베딩 시퀀스를 동일한 길이의 새 시퀀스로 변환합니다. 인코더는 각각 두 개의 하위 레이어를 포함하는 동일한 레이어 N개를 포함합니다. 이 두 하위 레이어는 입력 임베딩 시퀀스의 각 위치에 적용되어 시퀀스의 각 요소를 새 임베딩으로 변환합니다. 첫 번째 인코더 하위 레이어는 입력 시퀀스 전체에서 정보를 집계합니다. 두 번째 인코더 하위 레이어는 집계된 정보를 출력 임베딩으로 변환합니다.

디코더는 입력 임베딩 시퀀스를 길이가 다를 수 있는 출력 임베딩 시퀀스로 변환합니다. 디코더에는 세 개의 하위 레이어가 있는 동일한 레이어 N개도 포함되며, 이 중 두 개는 인코더 하위 레이어와 유사합니다. 세 번째 디코더 하위 레이어는 인코더의 출력을 가져와 자기 주목 메커니즘을 적용하여 정보를 수집합니다.

Transformer: 언어 이해를 위한 새로운 신경망 아키텍처 블로그 게시물에서 Transformer에 관해 자세히 알아보세요.

자세한 내용은 머신러닝 단기집중과정의 LLM: 대규모 언어 모델이란 무엇인가요?를 참고하세요.

트라이그램

#seq

#language

N=3인 N-그램입니다.

U

단방향

#language

대상 텍스트 섹션의 앞에 있는 텍스트만 평가하는 시스템입니다. 반면에 양방향 시스템은 대상 텍스트 섹션의 앞에 있는 텍스트와 뒤에 있는 텍스트를 모두 평가합니다. 자세한 내용은 양방향을 참고하세요.

단방향 언어 모델

#language

타겟 토큰 뒤가 아닌 앞에 표시되는 토큰에만 확률을 기반으로 하는 언어 모델입니다. 양방향 언어 모델과 대비되는 개념입니다.

V

변분 자동 인코더 (VAE)

#language

입력과 출력 간의 불일치를 활용하여 수정된 버전의 입력을 생성하는 오토인코더의 한 유형입니다. 변형 자동 인코더는 생성형 AI에 유용합니다.

VAE는 확률 모델의 매개변수를 추정하는 기술인 변형 추론을 기반으로 합니다.

W

단어 임베딩

#language

임베딩 벡터 내의 단어 집합에 있는 각 단어를 표현합니다. 즉, 각 단어를 0.0~1.0 사이의 부동 소수점 값 벡터로 표현합니다. 의미가 비슷한 단어는 의미가 다른 단어보다 더 유사한 표현을 갖습니다. 예를 들어 당근, 셀러리, 오이는 모두 상대적으로 유사한 표현을 갖게 되며, 이는 비행기, 선글라스, 치약의 표현과는 매우 다릅니다.

Z

제로샷 프롬프팅

#language

#generativeAI

대규모 언어 모델이 응답할 방식의 예시를 제공하지 않는 프롬프트입니다. 예를 들면 다음과 같습니다.

하나의 프롬프트의 부분	참고
`지정된 국가의 공식 통화는 무엇인가요?`	LLM이 답변할 질문
`인도:`	실제 쿼리입니다.

대규모 언어 모델은 다음 중 하나로 응답할 수 있습니다.

루피 기호
INR
₹
인도 루피
루피
인도 루피

모든 답변이 올바르지만 특정 형식을 선호할 수도 있습니다.

제로 샷 프롬프트를 다음 용어와 비교 및 대조하세요.

원샷 프롬프팅
퓨샷 프롬프팅

머신러닝 용어집: 언어 평가 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.

A

Attention,

autoencoder

자동 평가

자동 평가 도구 평가

자동 회귀 모델

k 기준 평균 정밀도

아이콘을 클릭하여 예시를 확인하세요.

B

단어 집합

BERT (Bidirectional Encoder Representations from Transformers)

양방향

양방향 언어 모델

바이그램

BLEU (Bilingual Evaluation Understudy)

BLEURT (Transformer의 Bilingual Evaluation Understudy)

C

인과 언어 모델

연쇄적 사고 프롬프트

채팅

꾸며내기

선거구 파싱

문맥화된 언어 임베딩

컨텍스트 윈도우

중의적 구문

추가 메모를 보려면 아이콘을 클릭하세요.

D

decoder

노이즈 제거

직접 프롬프트

E

수정 거리

임베딩 레이어

임베딩 공간

임베딩 벡터

인코더

evals

평가

F

퓨샷 프롬프팅

바이올린

미세 조정

플랙스

Flaxformer

G

Gemini

Gemini 모델

생성된 텍스트

생성형 AI의

황금 응답

이상적인 응답 및 참조 텍스트에 관한 메모를 보려면 여기를 클릭하세요.

GPT (Generative Pre-trained Transformer)

H

할루시네이션

사람의 평가

I

맥락적 학습

L

LaMDA (대화형 애플리케이션을 위한 언어 모델)

언어 모델

추가 메모를 보려면 아이콘을 클릭하세요.

대규모 언어 모델

잠재 공간

Levenshtein Distance

LLM

LLM 평가 (evals)

LoRA

LoRA (Low-Rank Adaptation)

LoRA의 업데이트 매트릭스에 대해 자세히 알아보려면 아이콘을 클릭하세요.

M

마스크드 언어 모델

k에서의 평균 정밀도 (mAP@k)

아이콘을 클릭하여 예를 확인하세요.

메타 학습

전문가의 조합

MMIT

modality

모델 동시 로드

MOE

머신러닝 용어집: 언어 평가