Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

머신러닝 용어집

이 용어집에서는 인공지능 용어를 정의합니다.

A

절제

모델에서 특성 또는 구성요소를 일시적으로 삭제하여 중요도를 평가하는 기법입니다. 그런 다음 해당 기능이나 구성요소 없이 모델을 재학습시키고 재학습된 모델의 성능이 크게 저하되면 삭제된 기능이나 구성요소가 중요한 것일 수 있습니다.

예를 들어 10개의 특징에 대해 분류 모델을 학습하고 테스트 세트에서 88% 의 정밀도를 달성한다고 가정해 보겠습니다. 첫 번째 특성의 중요도를 확인하려면 다른 9개의 특성만 사용하여 모델을 재학습하면 됩니다. 재학습된 모델의 성능이 크게 저하되는 경우 (예: 정밀도 55%) 삭제된 특성이 중요한 것일 수 있습니다. 반대로 재학습된 모델의 성능이 동일하게 우수하다면 해당 기능은 그다지 중요하지 않았을 수 있습니다.

제거는 다음의 중요도를 파악하는 데도 도움이 될 수 있습니다.

더 큰 ML 시스템의 전체 하위 시스템과 같은 더 큰 구성요소
데이터 전처리 단계와 같은 프로세스 또는 기법

두 경우 모두 구성요소를 삭제한 후 시스템 성능이 어떻게 변하는지 (또는 변하지 않는지) 관찰합니다.

A/B 테스트

A와 B라는 두 개 이상의 기법을 비교하는 통계적 방법입니다. 일반적으로 A는 기존 기술이고 B는 새로운 기술입니다. A/B 테스트는 어떤 기법이 더 나은지뿐만 아니라 그 차이가 통계적으로 유의미한지 여부도 파악합니다.

A/B 테스트에서는 일반적으로 두 기법의 단일 측정항목을 비교합니다. 예를 들어 두 기법의 모델 정확도를 비교합니다. 하지만 A/B 테스트에서는 유한한 수의 측정항목을 비교할 수도 있습니다.

액셀러레이터 칩

#GoogleCloud

딥 러닝 알고리즘에 필요한 주요 연산을 실행하도록 설계된 특수 하드웨어 구성요소의 카테고리입니다.

가속기 칩 (줄여서 가속기)은 범용 CPU에 비해 학습 및 추론 작업의 속도와 효율성을 크게 높일 수 있습니다. 신경망 학습 및 유사한 컴퓨팅 집약적 작업에 적합합니다.

가속기 칩의 예는 다음과 같습니다.

심층 학습을 위한 전용 하드웨어가 탑재된 Google의 Tensor Processing Unit (TPU)
NVIDIA의 GPU는 원래 그래픽 처리를 위해 설계되었지만 병렬 처리를 지원하도록 설계되어 처리 속도를 크게 높일 수 있습니다.

정확성

#fundamentals

#Metric

올바른 분류 예측 수를 총 예측 수로 나눈 값입니다. 이는 다음과 같은 의미입니다.

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

예를 들어 올바른 예측을 40번 하고 잘못된 예측을 10번 한 모델의 정확도는 다음과 같습니다.

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

이진 분류는 올바른 예측과 잘못된 예측의 다양한 카테고리에 대한 구체적인 이름을 제공합니다. 따라서 이진 분류의 정확도 공식은 다음과 같습니다.

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

각 항목의 의미는 다음과 같습니다.

TP는 참양성 (올바른 예측)의 수입니다.
TN은 참음성 (올바른 예측)의 수입니다.
FP는 거짓양성 (잘못된 예측)의 수입니다.
FN은 거짓음성 (잘못된 예측)의 수입니다.

정확도와 정밀도 및 재현율을 비교 및 대조합니다.

정확도 및 클래스 불균형 데이터 세트에 관한 세부정보를 보려면 아이콘을 클릭하세요.

정확도는 일부 상황에서는 유용한 측정항목이지만 다른 상황에서는 매우 오해의 소지가 있습니다. 특히 정확도는 일반적으로 클래스 불균형 데이터 세트를 처리하는 분류 모델을 평가하는 데 적합하지 않은 측정항목입니다.

예를 들어 특정 아열대 도시에서는 100년에 25일만 눈이 내린다고 가정해 보겠습니다. 눈이 오지 않는 날 (음성 클래스)이 눈이 오는 날 (양성 클래스)보다 훨씬 많으므로 이 도시의 눈 데이터 세트는 클래스 불균형입니다. 매일 눈이 오는지 안 오는지 예측해야 하는 이진 분류 모델이 매일 '눈이 안 옴'이라고만 예측한다고 가정해 보겠습니다. 이 모델은 정확도가 높지만 예측력이 없습니다. 다음 표에는 100년간의 예측 결과가 요약되어 있습니다.

카테고리	숫자
TP	0
TN	36499
FP	0
FN	25

따라서 이 모델의 정확도는 다음과 같습니다.

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36499) / (0 + 36499 + 0 + 25) = 0.9993 = 99.93%

정확도가 99.93% 로 매우 인상적인 수치로 보이지만 모델에는 실제로 예측력이 없습니다.

정밀도와 재현율은 클래스 불균형 데이터 세트로 학습된 모델을 평가할 때 정확도보다 유용한 측정항목입니다.

자세한 내용은 머신러닝 단기집중과정의 분류: 정확도, 재현율, 정밀도 및 관련 측정항목을 참고하세요.

행동

#agent

에이전트 루프의 단계로, 에이전트가 이유 단계에서 선택한 작업을 실행합니다. 예를 들어 행동 단계에서 API 요청을 보낼 수 있습니다.

action

#agent

강화 학습에서 에이전트가 환경의 상태 간에 전환하는 메커니즘입니다. 에이전트는 정책을 사용하여 작업을 선택합니다.

action space(작업 공간)

#agent

에이전트가 작업을 실행하는 데 사용할 수 있는 리소스 집합입니다. 작업 공간에는 에이전트가 호출할 수 있는 도구와 API, 에이전트가 보유한 권한이 포함될 수 있습니다. 일반적으로 작업 공간은 상담사가 작업을 수행할 수 있을 만큼만 커야 합니다. 작업 공간이 너무 작으면 에이전트가 작업을 수행하기에 리소스가 부족할 수 있습니다. 작업 공간이 너무 크면 에이전트가 오류를 더 많이 일으키는 경향이 있습니다.

활성화 함수

#fundamentals

신경망이 특성과 라벨 간의 비선형 (복잡한) 관계를 학습할 수 있도록 지원하는 함수입니다.

인기 있는 활성화 함수는 다음과 같습니다.

ReLU
시그모이드

활성화 함수의 플롯은 단일 직선이 아닙니다. 예를 들어 ReLU 활성화 함수의 플롯은 두 개의 직선으로 구성됩니다.

두 선의 데카르트 좌표계 첫 번째 선은 y 값이 0인 상수이며 x축을 따라 -infinity,0에서 0,-0까지 실행됩니다.
두 번째 선은 0,0에서 시작합니다. 이 선의 기울기는 +1이므로 0,0에서 +무한대,+무한대까지 이어집니다.

시그모이드 활성화 함수의 플롯은 다음과 같습니다.

x 값은 -무한대에서 +양수까지, y 값은 거의 0에서 거의 1까지의 범위를 갖는 2차원 곡선 플롯 x가 0일 때 y는 0.5입니다. 곡선의 기울기는 항상 양수이며, 0,0.5에서 기울기가 가장 높고 x의 절대값이 증가할수록 기울기가 점차 감소합니다.

아이콘을 클릭하여 예를 확인하세요.

신경망에서 활성화 함수는 뉴런에 대한 모든 입력의 가중 합계를 조작합니다. 가중 합계를 계산하기 위해 뉴런은 관련 값과 가중치의 곱을 더합니다. 예를 들어 뉴런에 대한 관련 입력이 다음과 같다고 가정해 보겠습니다.

입력 값	입력 가중치
2	-1.3
-1	0.6
3	0.4

따라서 가중치가 적용된 합계는 다음과 같습니다.

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

이 신경망의 설계자가 시그모이드 함수를 활성화 함수로 선택한다고 가정해 보겠습니다. 이 경우 뉴런은 -2.0의 시그모이드를 계산하며 이는 약 0.12입니다. 따라서 뉴런은 신경망의 다음 레이어에 -2.0이 아닌 0.12를 전달합니다. 다음 그림은 프로세스의 관련 부분을 보여줍니다.

자세한 내용은 머신러닝 단기집중과정의 신경망: 활성화 함수를 참고하세요.

능동적 학습

알고리즘이 데이터를 선택하여 학습하는 학습 방법입니다. 능동적 학습은 라벨이 지정된 예가 부족하거나 비싸서 취득하기 어려운 경우에 특히 유용합니다. 무조건 다양한 범위의 라벨이 있는 예를 찾는 대신, 능동적 학습 알고리즘에서 학습에 필요한 특정 범위의 예를 선택적으로 찾습니다.

AdaGrad

각 매개변수의 경사를 재조정하여 효과적으로 각 매개변수에 독립 학습률을 부여하는 정교한 경사하강법 알고리즘입니다. 자세한 설명은 온라인 학습 및 확률적 최적화를 위한 적응형 하위 기울기 방법을 참고하세요.

적응

#generativeAI

튜닝 또는 파인 튜닝의 동의어입니다.

에이전트

#generativeAI

#agent

사용자를 대신하여 작업을 계획하고 실행하기 위해 사용자 입력에 대해 추론할 수 있는 소프트웨어입니다.

강화 학습에서 에이전트는 정책을 사용하여 환경의 상태 간 전환에서 얻는 예상 수익을 극대화하는 엔티티입니다.

대리적/대리자적

#generativeAI

#agent

agent의 형용사 형태입니다. 에이전트란 에이전트가 보유한 속성 (예: 자율성)을 말합니다.

에이전트 루프

#agent

종료 조건이 충족될 때까지 에이전트가 반복하는 사이클입니다. 이 주기는 일반적으로 다음 네 단계로 구성됩니다.

관찰
이유
Act
의견

에이전트형 워크플로

#generativeAI

#agent

에이전트가 목표를 달성하기 위해 자율적으로 행동을 계획하고 실행하는 동적 프로세스입니다. 이 프로세스에는 추론, 외부 도구 호출, 계획 자체 수정이 포함될 수 있습니다.

에이전트 조정

#agent

여러 하위 에이전트 또는 LLM 호출 간의 중앙 집중식 작업 관리 및 라우팅 에이전트 오케스트레이션은 복잡한 작업을 더 작은 하위 작업으로 나누고 가장 유능한 하위 에이전트에 할당합니다.

병합형 군집화

#clustering

계층적 군집화를 참고하세요.

AI 슬롭

#generativeAI

품질보다 양을 우선시하는 생성형 AI 시스템의 출력입니다. 예를 들어 AI 슬롭이 있는 웹페이지는 저렴하게 제작된 AI 생성 저품질 콘텐츠로 가득합니다.

이상 감지

이상치를 식별하는 프로세스입니다. 예를 들어 특정 특성의 평균이 100이고 표준편차가 10인 경우 이상치 감지에서 200 값을 의심스러운 값으로 표시해야 합니다.

AR

증강 현실의 약어입니다.

PR 곡선 아래 영역

#Metric

PR AUC (PR 곡선 아래 영역)를 참고하세요.

ROC 곡선 아래 영역

#Metric

AUC (ROC 곡선 아래 영역)을 참고하세요.

범용 인공지능

광범위한 문제 해결, 창의성, 적응성을 보여주는 인간이 아닌 메커니즘 예를 들어 일반 인공지능을 보여주는 프로그램은 텍스트를 번역하고, 교향곡을 작곡하고, 아직 발명되지 않은 게임에서 뛰어난 실력을 발휘할 수 있습니다.

인공지능

#fundamentals

정교한 작업을 해결할 수 있는 인간이 아닌 프로그램 또는 모델 예를 들어 텍스트를 번역하는 프로그램이나 모델, 방사선 영상에서 질병을 식별하는 프로그램이나 모델은 모두 인공지능을 나타냅니다.

공식적으로 머신러닝은 인공지능의 하위 분야입니다. 하지만 최근 몇 년간 일부 조직에서는 인공지능과 머신러닝이라는 용어를 혼용하기 시작했습니다.

Attention,

신경망에서 특정 단어나 단어의 중요도를 나타내는 데 사용되는 메커니즘입니다. 어텐션은 모델이 다음 토큰/단어를 예측하는 데 필요한 정보의 양을 압축합니다. 일반적인 어텐션 메커니즘은 입력 집합에 대한 가중 합계로 구성될 수 있으며, 각 입력의 가중치는 신경망의 다른 부분에서 계산됩니다.

트랜스포머의 빌딩 블록인 셀프 어텐션 및 멀티 헤드 셀프 어텐션도 참고하세요.

셀프 어텐션에 관한 자세한 내용은 머신러닝 단기집중과정의 LLM: 대규모 언어 모델이란 무엇인가요?를 참고하세요.

속성

#responsible

기능의 동의어입니다.

머신러닝 공정성에서 속성은 개인과 관련된 특성을 의미하는 경우가 많습니다.

속성 샘플링

#df

각 결정 트리가 조건을 학습할 때 가능한 특성의 무작위 하위 집합만 고려하는 결정 포레스트를 학습하는 전략입니다. 일반적으로 각 노드에 대해 서로 다른 기능 하위 집합이 샘플링됩니다. 반면 속성 샘플링 없이 결정 트리를 학습할 때는 각 노드에 대해 가능한 모든 특성이 고려됩니다.

AUC (ROC 곡선 아래 영역)

#fundamentals

#Metric

긍정 클래스와 부정 클래스를 구분하는 이진 분류 모델의 능력을 나타내는 0.0~1.0 사이의 숫자입니다. AUC가 1.0에 가까울수록 모델이 클래스를 서로 더 잘 구분할 수 있습니다.

예를 들어 다음 그림은 포지티브 클래스 (녹색 타원)를 네거티브 클래스 (보라색 직사각형)와 완벽하게 구분하는 분류 모델을 보여줍니다. 이 비현실적으로 완벽한 모델의 AUC는 1.0입니다.

한쪽에 8개의 긍정적 예가 있고 다른 쪽에 9개의 부정적 예가 있는 수직선

반대로 다음 그림은 무작위 결과를 생성한 분류 모델의 결과를 보여줍니다. 이 모델의 AUC는 0.5입니다.

긍정적 예 6개와 부정적 예 6개가 있는 수직선
예시의 순서는 긍정, 부정, 긍정, 부정, 긍정, 부정, 긍정, 부정, 긍정, 부정, 긍정, 부정입니다.

예, 앞의 모델의 AUC는 0.0이 아닌 0.5입니다.

대부분의 모델은 두 극단 사이에 있습니다. 예를 들어 다음 모델은 긍정적인 것과 부정적인 것을 어느 정도 구분하므로 AUC가 0.5와 1.0 사이에 있습니다.

긍정적 예 6개와 부정적 예 6개가 있는 수직선
예시의 순서는 음수, 음수, 음수, 음수, 양수, 음수, 양수, 양수, 음수, 양수, 양수, 양수입니다.

AUC는 분류 기준점에 설정된 값을 무시합니다. AUC는 가능한 모든 분류 임곗값을 고려합니다.

아이콘을 클릭하여 AUC와 ROC 곡선 간의 관계를 알아보세요.

AUC는 ROC 곡선 아래의 영역을 나타냅니다. 예를 들어 양수를 음수와 완벽하게 구분하는 모델의 ROC 곡선은 다음과 같습니다.

AUC는 위의 그림에서 회색 영역의 면적입니다. 이 특이한 경우 영역은 회색 영역의 길이(1.0)에 회색 영역의 너비 (1.0)를 곱한 값입니다. 따라서 1.0과 1.0의 곱은 정확히 1.0의 AUC를 산출하며 이는 가능한 가장 높은 AUC 점수입니다.

반대로 클래스를 전혀 구분할 수 없는 분류 모델의 ROC 곡선은 다음과 같습니다. 이 회색 영역의 면적은 0.5입니다.

일반적인 ROC 곡선은 다음과 같습니다.

이 곡선 아래 영역을 수동으로 계산하는 것은 매우 번거롭기 때문에 일반적으로 프로그램에서 대부분의 AUC 값을 계산합니다.

AUC의 보다 공식적인 정의를 보려면 아이콘을 클릭하세요.

AUC는 분류 모델이 무작위로 선택한 양성 예시가 실제로 양성일 가능성이 무작위로 선택한 음성 예시가 양성일 가능성보다 높다고 신뢰할 확률입니다.

자세한 내용은 머신러닝 단기집중과정의 분류: ROC 및 AUC를 참고하세요.

증강 현실

컴퓨터로 생성된 이미지를 사용자의 실제 세계 뷰에 중첩하여 합성 뷰를 제공하는 기술입니다.

autoencoder

입력에서 가장 중요한 정보를 추출하도록 학습하는 시스템 오토인코더는 인코더와 디코더의 조합입니다. 오토인코더는 다음 두 단계 프로세스를 사용합니다.

인코더는 입력을 (일반적으로) 손실이 있는 하위 차원 (중간) 형식에 매핑합니다.
디코더는 낮은 차원 형식을 원래 높은 차원 입력 형식에 매핑하여 원래 입력의 손실 버전을 빌드합니다.

오토인코더는 디코더가 인코더의 중간 형식에서 원래 입력을 최대한 가깝게 재구성하도록 하여 엔드 투 엔드로 학습됩니다. 중간 형식이 원래 형식보다 작기 때문에(차원이 낮음) 자동 인코더는 입력에서 필수적인 정보를 학습해야 하며 출력은 입력과 완전히 동일하지 않습니다.

예를 들면 다음과 같습니다.

입력 데이터가 그래픽인 경우 정확하지 않은 사본은 원본 그래픽과 유사하지만 약간 수정됩니다. 정확하지 않은 사본은 원본 그래픽에서 노이즈를 제거하거나 누락된 픽셀을 채울 수 있습니다.
입력 데이터가 텍스트인 경우 자동 인코더는 원본 텍스트를 모방하지만 동일하지는 않은 새 텍스트를 생성합니다.

변분 오토인코더도 참고하세요.

자동 평가

#generativeAI

소프트웨어를 사용하여 모델 출력의 품질을 판단합니다.

모델 출력이 비교적 간단한 경우 스크립트나 프로그램이 모델의 출력을 모범 대답과 비교할 수 있습니다. 이러한 유형의 자동 평가를 프로그래매틱 평가라고도 합니다. ROUGE 또는 BLEU와 같은 측정항목은 프로그래매틱 평가에 유용한 경우가 많습니다.

모델 출력이 복잡하거나 정답이 없는 경우 자동 평가기라는 별도의 ML 프로그램이 자동 평가를 실행하기도 합니다.

인간 평가와 대비되는 개념입니다.

자동화 편향

#responsible

자동 의사결정 시스템에 오류가 있는 경우에도 불구하고 의사 결정권자가 자동 의사결정 시스템에서 제공되는 권장사항을 자동화 없이 생성된 정보보다 우선시하는 경우입니다.

자세한 내용은 머신러닝 단기집중과정의 공정성: 편향 유형을 참고하세요.

AutoML

머신러닝 모델을 빌드하는 자동화된 프로세스 AutoML은 다음과 같은 작업을 자동으로 실행할 수 있습니다.

가장 적합한 모델을 검색합니다.
초매개변수를 조정합니다.
데이터를 준비합니다 (특성 추출 실행 포함).
결과 모델을 배포합니다.

AutoML은 머신러닝 파이프라인을 개발하는 데 드는 시간과 노력을 절약하고 예측 정확도를 개선할 수 있으므로 데이터 과학자에게 유용합니다. 또한 복잡한 머신러닝 작업을 비전문가도 더 쉽게 이용할 수 있도록 지원합니다.

자세한 내용은 머신러닝 단기집중과정의 자동화된 머신러닝 (AutoML)을 참고하세요.

자율 에이전트

#agent

지속적인 인간의 개입 없이 계획, 행동, 적응을 통해 복잡한 목표를 달성하는 에이전트

자동 평가 도구 평가

#generativeAI

인간 평가와 자동 평가를 결합하여 생성형 AI 모델의 출력 품질을 판단하는 하이브리드 메커니즘입니다. 자동 평가 도구는 인간 평가로 생성된 데이터를 학습한 ML 모델입니다. 이상적으로는 자동 평가 도구가 사람 평가자를 모방하는 방법을 학습합니다.

사전 빌드된 자동 평가 도구를 사용할 수 있지만 가장 좋은 자동 평가 도구는 평가 중인 태스크에 맞게 특별히 미세 조정된 것입니다.

자기 회귀 모델

#generativeAI

자체 이전 예측을 기반으로 예측을 추론하는 모델 예를 들어 자기 회귀 언어 모델은 이전에 예측된 토큰을 기반으로 다음 토큰을 예측합니다. 모든 Transformer 기반 대규모 언어 모델은 자기 회귀적입니다.

반면 GAN 기반 이미지 모델은 일반적으로 자기 회귀가 아닙니다. 단일 순방향 패스에서 이미지를 생성하며 단계별로 반복적으로 생성하지 않기 때문입니다. 하지만 일부 이미지 생성 모델은 단계별로 이미지를 생성하므로 자기 회귀적입니다.

보조 손실

가중치가 무작위로 초기화되는 초기 반복 중에 학습을 가속화하는 데 도움이 되는 손실 함수(신경망 모델의 기본 손실 함수와 함께 사용됨)

보조 손실 함수는 효과적인 그라데이션을 이전 레이어로 푸시합니다. 이를 통해 기울기 소실 문제를 해결하여 학습 중에 수렴이 촉진됩니다.

k에서의 평균 정밀도

#Metric

순위가 지정된 결과(예: 책 추천의 번호가 매겨진 목록)를 생성하는 단일 프롬프트에 대한 모델의 성능을 요약하는 측정항목입니다. k에서의 평균 정밀도는 각 관련 결과의 k에서의 정밀도 값의 평균입니다. 따라서 k에서의 평균 정밀도 공식은 다음과 같습니다.

\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]

각 항목의 의미는 다음과 같습니다.

$n$ 은 목록에 있는 관련 항목의 수입니다.

k에서의 재현율과 대비되는 개념입니다.

아이콘을 클릭하여 예시를 확인하세요.

대규모 언어 모델에 다음 질문이 주어졌다고 가정해 보겠습니다.

List the 6 funniest movies of all time in order.

대규모 언어 모델은 다음 목록을 반환합니다.

일반
Mean Girls
Platoon
내 여자친구의 결혼식
Citizen Kane
스파이널 탭입니다.

반환된 목록의 영화 중 4개는 매우 재미있지만 (즉, 관련성이 있음) 2개는 드라마입니다 (관련성이 없음). 다음 표는 결과를 자세히 보여줍니다.

위치	영화	관련성	k에서의 정밀도
1	일반	예	1.0
2	Mean Girls	예	1.0
3	Platoon	아니요	관련성이 없음
4	내 여자친구의 결혼식	예	0.75
5	Citizen Kane	아니요	관련성이 없음
6	스파이널 탭입니다.	예	0.67

관련 결과 수는 4개입니다. 따라서 다음과 같이 6에서의 평균 정밀도를 계산할 수 있습니다.

$${\text{average precision at 6}} = \frac{1}{4} {\text{(1.0 + 1.0 + 0.75 + 0.67)} } $$ $${\text{average precision at 6}} = {\text{~0.85} } $$

축 정렬 조건

#df

결정 트리에서 단일 기능만 포함하는 조건입니다. 예를 들어 area가 기능인 경우 축 정렬 조건은 다음과 같습니다.

area > 200

비대칭 조건과 대비되는 개념입니다.

B

역전파

#fundamentals

신경망에서 경사하강법을 구현하는 알고리즘입니다.

신경망 학습에는 다음 2패스 주기가 여러 번 반복됩니다.

정방향 패스 중에 시스템은 예의 배치를 처리하여 예측을 생성합니다. 시스템은 각 예측을 각 라벨 값과 비교합니다. 예측값과 라벨 값의 차이가 해당 예의 손실입니다. 시스템은 모든 예의 손실을 집계하여 현재 배치에 대한 총 손실을 계산합니다.
역방향 패스(역전파) 중에 시스템은 모든 숨겨진 레이어에 있는 모든 뉴런의 가중치를 조정하여 손실을 줄입니다.

신경망에는 여러 히든 레이어에 걸쳐 많은 뉴런이 포함되는 경우가 많습니다. 이러한 각 뉴런은 다양한 방식으로 전체 손실에 기여합니다. 역전파는 특정 뉴런에 적용되는 가중치를 늘릴지 줄일지 결정합니다.

학습률은 각 역방향 패스가 각 가중치를 증가시키거나 감소시키는 정도를 제어하는 승수입니다. 학습률이 크면 학습률이 작은 경우보다 각 가중치가 더 많이 증가하거나 감소합니다.

미적분학 용어로 역전파는 미적분학의 연쇄 법칙을 구현합니다. 즉, 역전파는 각 매개변수에 대한 오류의 편미분을 계산합니다.

몇 년 전에는 ML 실무자가 역전파를 구현하기 위해 코드를 작성해야 했습니다. 이제 Keras와 같은 최신 ML API에서 역전파를 구현합니다. 다양한 혜택이 마음에 드셨나요?

자세한 내용은 머신러닝 단기집중과정의 신경망을 참고하세요.

bagging

#df

각 구성 모델이 복원 추출된 학습 예의 무작위 하위 집합에 대해 학습하는 앙상블을 학습하는 방법 예를 들어 랜덤 포레스트는 배깅으로 학습된 결정 트리의 모음입니다.

배깅이라는 용어는 부트스트랩 애그리게이팅의 줄임말입니다.

자세한 내용은 결정 트리 과정의 랜덤 포레스트를 참고하세요.

단어 집합

순서에 상관없이 단어를 구 또는 구절로 표현합니다. 예를 들어, 단어 집합은 다음 세 구를 동일하게 표현합니다.

the dog jumps
jumps the dog
dog jumps the

각 단어는 희소 벡터의 색인에 매핑되며 벡터에는 어휘의 모든 단어에 대한 색인이 포함됩니다. 예를 들어, the dog jumps 구는 특징 벡터에 매핑되며, 벡터에는 the, dog 및 jumps 단어에 해당하는 세 색인에 0이 아닌 값이 표시됩니다. 0이 아닌 값은 다음 중 하나일 수 있습니다.

1은 단어가 있음을 나타냅니다.
단어가 집합에 나타나는 횟수입니다. 예를 들어, the maroon dog is a dog with maroon fur라는 어구가 있는 경우 maroon과 dog는 모두 2로 표시되고 다른 단어는 1로 표시됩니다.
기타 값(예: 단어가 집합에 나타나는 횟수의 로그)입니다.

기준

#Metric

다른 모델 (일반적으로 더 복잡한 모델)의 성능을 비교하는 데 참조용으로 사용되는 모델입니다. 예를 들어 로지스틱 회귀 모델은 심층 모델의 좋은 기준이 될 수 있습니다.

특정 문제의 경우 기준은 새 모델이 유용하려면 달성해야 하는 최소 예상 성능을 모델 개발자가 수치화하는 데 도움이 됩니다.

기본 모델

#generativeAI

특정 작업이나 애플리케이션을 해결하기 위해 미세 조정의 시작점으로 사용할 수 있는 선행 학습된 모델입니다.

사전 학습 모델 및 기반 모델도 참고하세요.

일괄

#fundamentals

한 번의 학습 반복에 사용되는 예의 집합입니다. 배치 크기에 따라 배치에 포함되는 예시 수가 결정됩니다.

배치가 에포크와 어떤 관련이 있는지에 대한 설명은 에포크를 참고하세요.

자세한 내용은 머신러닝 단기집중과정의 선형 회귀: 하이퍼파라미터를 참고하세요.

일괄 추론

#GoogleCloud

더 작은 하위 집합 ('배치')으로 나뉜 여러 라벨이 지정되지 않은 예에서 예측을 추론하는 프로세스입니다.

배치 추론은 가속기 칩의 병렬화 기능을 활용할 수 있습니다. 즉, 여러 가속기가 라벨이 지정되지 않은 예시의 여러 배치에서 동시에 예측을 추론하여 초당 추론 수를 크게 늘릴 수 있습니다.

자세한 내용은 머신러닝 단기집중과정의 프로덕션 ML 시스템: 정적 추론과 동적 추론 비교을 참고하세요.

배치 정규화

숨겨진 레이어의 활성화 함수의 입력 또는 출력을 정규화합니다. 배치 정규화를 사용하면 다음과 같은 이점이 있습니다.

이상점 가중치로부터 보호하여 신경망을 더 안정적으로 만듭니다.
학습률을 높여 학습 속도를 높일 수 있습니다.
과적합을 줄입니다.

배치 크기

#fundamentals

배치의 예 수입니다. 예를 들어 배치 크기가 100이면 모델은 반복당 100개의 예시를 처리합니다.

다음은 인기 있는 배치 크기 전략입니다.

배치 크기가 1인 확률적 경사하강법 (SGD)
전체 배치: 배치 크기가 전체 학습 세트의 예시 수입니다. 예를 들어 학습 세트에 백만 개의 예가 포함되어 있으면 배치 크기는 백만 개의 예가 됩니다. 전체 배치 전략은 일반적으로 비효율적입니다.
미니 배치: 배치 크기는 일반적으로 10~1,000입니다. 일반적으로 미니 배치가 가장 효율적인 전략입니다.

자세한 내용은 다음을 참조하세요.

머신러닝 단기집중과정의 프로덕션 ML 시스템: 정적 추론과 동적 추론 비교
딥 러닝 조정 플레이북

베이즈 신경망

가중치와 출력의 불확실성을 설명하는 확률적 신경망입니다. 표준 신경망 회귀 모델은 일반적으로 스칼라 값을 예측합니다. 예를 들어 표준 모델은 8억5천만원의 주택 가격을 예측합니다. 반면, 확률적 신경망은 값의 분포를 예측합니다. 예를 들어 확률적 모델은 표준 편차가 67,200인 853,000의 주택 가격을 예측합니다.

확률적 신경망은 베이즈의 정리에 따라 가중치와 예측으로 불확실성을 계산합니다. 베이즈 신경망은 제약 회사 관련 모델의 경우처럼 불확실성을 수치화해야 하는 경우에 유용합니다. 또한 확률적 신경망을 사용하면 과적합을 방지할 수 있습니다.

Bayesian 최적화

베이즈 학습 기법을 사용하여 불확실성을 정량화하는 대리자를 최적화하여 계산 비용이 많이 드는 목표 함수를 최적화하는 확률적 회귀 모델 기법입니다. 베이지안 최적화는 자체적으로 매우 비용이 많이 들기 때문에 일반적으로 초매개변수 선택과 같이 평가하는 데 비용이 많이 들고 매개변수 수가 적은 작업을 최적화하는 데 사용됩니다.

벨만 방정식

강화 학습에서 최적의 Q 함수가 충족하는 다음 항등식

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

강화 학습 알고리즘은 이 ID를 적용하여 다음 업데이트 규칙을 사용하여 Q-러닝을 만듭니다.

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

강화 학습 외에도 벨만 방정식은 동적 프로그래밍에 적용됩니다. 벨만 방정식에 관한 위키백과 항목을 참고하세요.

BERT (Bidirectional Encoder Representations from Transformers)

텍스트 표현을 위한 모델 아키텍처입니다. 학습된 BERT 모델은 텍스트 분류 또는 기타 ML 작업을 위한 더 큰 모델의 일부로 작동할 수 있습니다.

BERT의 특징은 다음과 같습니다.

Transformer 아키텍처를 사용하므로 self-attention에 의존합니다.
Transformer의 인코더 부분을 사용합니다. 인코더의 작업은 분류와 같은 특정 작업을 실행하는 것이 아니라 적절한 텍스트 표현을 생성하는 것입니다.
양방향입니다.
비지도 학습에 마스킹을 사용합니다.

BERT의 변형에는 다음이 포함됩니다.

ALBERT(A Light BERT의 약어)
LaBSE.

BERT 개요는 Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing을 참고하세요.

편향(bias)(윤리학/공정성)

#responsible

#fundamentals

1. 특정 사물, 인물 또는 그룹에 대한 정형화, 편견 또는 편애를 말합니다. 이러한 편향은 데이터의 수집과 해석 가능성, 시스템 설계, 사용자가 시스템과 상호작용하는 방식 등에 영향을 줍니다. 이러한 유형의 편향에는 다음이 포함됩니다.

자동화 편향
확증 편향
실험자 편향
그룹 귀인 편향
내재적 편향
내집단 편향
외부 집단 동질화 편향

2. 샘플링 또는 보고 절차로 인해 발생하는 체계적인 오류입니다. 이러한 유형의 편향에는 다음이 포함됩니다.

포함 편향
무응답 편향
참여 편향
보고 편향
샘플링 편향
표본 선택 편향

머신러닝 모델의 바이어스 항 또는 예측 편향과 혼동하지 마시기 바랍니다.

자세한 내용은 머신러닝 단기집중과정의 공정성: 편향 유형을 참고하세요.

편향(bias)(수학) 또는 편향 항

#fundamentals

원점을 기준으로 한 절편 또는 오프셋입니다. 편향은 머신러닝 모델의 파라미터로, 다음 중 하나로 표시됩니다.

b
w₀

예를 들어 다음 수식에서 편향은 b입니다.

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

단순한 2차원 선에서 편향은 'y 절편'을 의미합니다. 예를 들어 다음 그림의 선의 편향은 2입니다.

기울기가 0.5이고 편향 (y 절편)이 2인 선의 플롯

모든 모델이 원점 (0,0)에서 시작하지 않기 때문에 편향이 존재합니다. 예를 들어 놀이공원 입장료가 2유로이고 고객이 머무는 시간당 0.5유로가 추가로 부과된다고 가정해 보겠습니다. 따라서 총비용을 매핑하는 모델에는 가장 낮은 비용이 2유로이므로 2의 편향이 있습니다.

편향은 윤리학 및 공정성의 편향 또는 예측 편향과 혼동하지 마시기 바랍니다.

자세한 내용은 머신러닝 단기집중과정의 선형 회귀를 참고하세요.

양방향

대상 텍스트 섹션의 앞과 뒤에 있는 텍스트를 모두 평가하는 시스템을 설명하는 데 사용되는 용어입니다. 반면 단방향 시스템은 대상 텍스트 섹션 앞에 있는 텍스트만 평가합니다.

예를 들어 다음 질문에서 밑줄을 나타내는 단어의 확률을 결정해야 하는 마스크 언어 모델을 생각해 보세요.

무슨 _____가 있나요?

단방향 언어 모델은 'What', 'is', 'the'라는 단어가 제공하는 맥락에만 확률을 기반해야 합니다. 반면 양방향 언어 모델은 'with' 및 'you'에서도 컨텍스트를 파악할 수 있으므로 모델이 더 나은 예측을 생성하는 데 도움이 될 수 있습니다.

양방향 언어 모델

이전 및 다음 텍스트를 기반으로 텍스트 발췌문의 지정된 위치에 지정된 토큰이 있을 확률을 결정하는 언어 모델

바이그램

N=2인 N-그램입니다.

이진 분류

#fundamentals

상호 배타적인 두 클래스 중 하나를 예측하는 분류 작업의 유형입니다.

양성 클래스
음성 클래스

예를 들어 다음 두 머신러닝 모델은 각각 이진 분류를 실행합니다.

이메일 메시지가 스팸 (포지티브 클래스)인지 스팸 아님 (네거티브 클래스)인지 판단하는 모델입니다.
의학적 증상을 평가하여 사람이 특정 질병 (양성 클래스)에 걸렸는지 또는 걸리지 않았는지 (음성 클래스)를 판단하는 모델입니다.

다중 클래스 분류와 대비되는 개념입니다.

로지스틱 회귀 및 분류 임계값도 참고하세요.

자세한 내용은 머신러닝 단기집중과정의 분류를 참고하세요.

이진 조건

#df

결정 트리에서 가능한 결과가 두 개(일반적으로 예 또는 아니요)인 조건입니다. 예를 들어 다음은 이진 조건입니다.

temperature >= 100

비이진 조건과 대비되는 개념입니다.

자세한 내용은 결정 트리 과정의 조건 유형을 참고하세요.

비닝

버케팅의 동의어입니다.

블랙박스 모델

모델의 '이유'를 사람이 이해하기 어렵거나 불가능합니다. 즉, 사람은 프롬프트가 대답에 미치는 영향을 확인할 수 있지만 블랙박스 모델이 대답을 결정하는 방식을 정확하게 파악할 수는 없습니다. 즉, 블랙박스 모델에는 해석 가능성이 부족합니다.

대부분의 심층 모델과 대규모 언어 모델은 블랙박스입니다.

BLEU (Bilingual Evaluation Understudy)

기계 번역(예: 스페인어에서 일본어로)을 평가하는 0.0~1.0 사이의 측정항목입니다.

점수를 계산하기 위해 BLEU는 일반적으로 ML 모델의 번역(생성된 텍스트)을 인간 전문가의 번역(참조 텍스트)과 비교합니다. 생성된 텍스트와 참조 텍스트의 N-그램이 일치하는 정도에 따라 BLEU 점수가 결정됩니다.

이 측정항목에 관한 원본 논문은 BLEU: 기계 번역의 자동 평가 방법입니다.

BLEURT도 참고하세요.

BLEURT (Bilingual Evaluation Understudy from Transformers)

한 언어에서 다른 언어로, 특히 영어로 또는 영어에서 기계 번역을 평가하는 측정항목입니다.

영어와 다른 언어 간의 번역의 경우 BLEURT가 BLEU보다 사람의 평가와 더 밀접하게 일치합니다. BLEU와 달리 BLEURT는 시맨틱(의미) 유사성을 강조하며 의역을 수용할 수 있습니다.

BLEURT는 사전 학습된 대규모 언어 모델(정확히 말하면 BERT)을 기반으로 하며, 이 모델은 인간 번역가의 텍스트를 기반으로 미세 조정됩니다.

이 측정항목에 관한 원본 논문은 BLEURT: Learning Robust Metrics for Text Generation입니다.

불리언 질문 (BoolQ)

#Metric

예/아니요 질문에 답변하는 LLM의 숙련도를 평가하기 위한 데이터 세트입니다. 데이터 세트의 각 챌린지에는 세 가지 구성요소가 있습니다.

질문
질문에 대한 답변을 암시하는 구절입니다.
정답(예 또는 아니요)

예를 들면 다음과 같습니다.

질문: 미시간에 원자력 발전소가 있나요?
통로: ...미시간에 전력의 약 30% 를 공급하는 원자력 발전소 3곳이 있습니다.
정답: 예

연구자들은 익명 처리되고 집계된 Google 검색 질문에서 질문을 수집한 다음 Wikipedia 페이지를 사용하여 정보를 뒷받침했습니다.

자세한 내용은 BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions을 참고하세요.

BoolQ는 SuperGLUE 앙상블의 구성요소입니다.

BoolQ

#Metric

Boolean Questions의 약어입니다.

부스팅

모델에서 현재 잘못 분류된 예를 가중치 보정하여 간단하고 그리 정확하지 않은 분류 모델('약한 분류기') 집합을 정확성이 높은 분류 모델('강한 분류기')과 반복적으로 결합하는 머신러닝 기술입니다.

자세한 내용은 결정 트리 과정의 경사 강화 의사 결정 트리란 무엇인가요?를 참고하세요.

경계 상자

이미지에서 관심 영역(예: 아래 이미지의 개) 주변의 직사각형 (x, y) 좌표입니다.

소파에 앉아 있는 개의 사진 왼쪽 상단 좌표가 (275, 1271)이고 오른쪽 하단 좌표가 (2954, 2761)인 녹색 경계 상자가 개의 몸통을 둘러싸고 있습니다.

방송

행렬 수학 연산에서 피연산자의 모양을 해당 연산과 호환되는 차원으로 확장합니다. 예를 들어, 선형 대수에서는 행렬 덧셈 연산의 두 피연산자의 차원이 동일해야 합니다. 따라서 길이가 n인 벡터에 (m, n) 모양 행렬을 추가할 수 없습니다. 브로드캐스팅은 각 열 아래에 동일한 값을 복제하여 길이가 n인 벡터를 (m, n) 모양 행렬로 가상 확장함으로써 이 연산을 가능하게 합니다.

아이콘을 클릭하여 예시를 확인하세요.

A와 B의 정의가 다음과 같을 경우 A와 B의 차원이 다르므로 선형 대수에서는 A+B를 금지합니다.

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

하지만 브로드캐스팅을 사용하면 B를 다음과 같이 확장하여 A+B 연산이 가능합니다.

 [[2, 2, 2],
  [2, 2, 2]]

따라서 이제 A+B는 유효한 연산입니다.

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

자세한 내용은 다음 NumPy의 브로드캐스팅 설명을 참고하세요.

버킷팅,

#fundamentals

하나의 특성을 버킷 또는 빈이라고 하는 다중 이진 특성으로 변환하는 작업으로서, 일반적으로 값 범위를 기준으로 합니다. 잘린 특성은 일반적으로 연속 특성입니다.

예를 들어 온도를 단일 연속 부동 소수점 특성으로 표현하는 대신 온도 범위를 다음과 같은 불연속 버킷으로 나눌 수 있습니다.

섭씨 10도 이하는 '차가운' 버킷입니다.
11~24도는 '온대' 버킷에 해당합니다.
섭씨 25도 이상은 '따뜻함' 버킷이 됩니다.

모델은 동일한 버킷의 모든 값을 동일하게 취급합니다. 예를 들어 13와 22 값은 모두 온대 버킷에 있으므로 모델은 두 값을 동일하게 취급합니다.

아이콘을 클릭하여 추가 메모를 확인하세요.

온도를 연속 특성으로 표현하면 모델에서 온도를 단일 특성으로 취급합니다. 온도를 세 개의 버킷으로 나타내면 모델은 각 버킷을 별도의 특성으로 취급합니다. 즉, 모델은 각 버킷과 라벨 간의 별도 관계를 학습할 수 있습니다. 예를 들어 선형 회귀 모델은 각 버킷에 대해 별도의 가중치를 학습할 수 있습니다.

버킷 수를 늘리면 모델이 학습해야 하는 관계 수가 늘어나 모델이 더 복잡해집니다. 예를 들어 추운, 온대, 따뜻한 버킷은 모델이 학습할 세 가지 별도의 기능입니다. 예를 들어 냉동과 뜨거움이라는 두 개의 버킷을 더 추가하면 모델은 이제 5개의 개별 특징에 대해 학습해야 합니다.

만들 버킷 수나 각 버킷의 범위를 어떻게 알 수 있나요? 답변에는 일반적으로 상당한 실험이 필요합니다.

자세한 내용은 머신러닝 단기집중과정의 숫자 데이터: 구간화를 참고하세요.

C

보정 레이어

일반적으로 예측 편향을 보정하기 위한 예측 후 조정입니다. 조정된 예측 및 확률은 관찰된 라벨 집합의 분포와 일치해야 합니다.

후보군 생성

추천 시스템에서 선택되는 일련의 초기 추천입니다. 예를 들어, 10만 권의 서적을 판매하는 서점이 있다고 가정합니다. 후보군 생성 단계에서는 특정 사용자에게 추천할 적은 수(예: 500권)의 도서 목록을 만듭니다. 하지만 500권도 사용자에게 추천하기에는 너무 많습니다. 추천 시스템의 후속 단계 (예: 점수 매기기 및 재정렬)에서는 도서 수를 500권보다 훨씬 줄여 추천을 더 유용하게 만듭니다.

자세한 내용은 추천 시스템 과정의 후보 생성 개요를 참고하세요.

후보 샘플링

학습 도중 소프트맥스 등을 사용하여 모든 긍정 라벨의 확률을 계산하는 최적화입니다. 부정 라벨의 경우 무작위 샘플에 대해서만 계산합니다. 예를 들어 라벨이 beagle 및 dog인 예가 있으면 후보 샘플링에서 다음 항목에 대해 예측되는 확률과 해당 손실 항을 계산합니다.

beagle
개
나머지 부정적 클래스 (예: cat, lollipop, fence)의 무작위 부분집합

포지티브 클래스가 항상 적절한 포지티브 강화를 받는 한 네거티브 클래스는 빈도가 적은 네거티브 강화로부터 학습할 수 있기 때문이며, 이는 실제로 경험적으로 관찰되는 사실입니다.

후보 샘플링은 특히 음성 클래스 수가 매우 많은 경우 모든 음성 클래스에 대한 예측을 계산하는 학습 알고리즘보다 컴퓨팅 효율성이 높습니다.

범주형 데이터

#fundamentals

가능한 값의 특정 집합을 갖는 특성입니다. 예를 들어 다음 세 가지 값 중 하나만 가질 수 있는 traffic-light-state이라는 범주형 특성을 생각해 보겠습니다.

red
yellow
green

traffic-light-state를 범주형 특성으로 표현하면 모델이 운전자 행동에 대한 red, green, yellow의 서로 다른 영향을 학습할 수 있습니다.

범주형 특성을 불연속 특성이라고도 합니다.

수치 데이터와 대비되는 개념입니다.

자세한 내용은 머신러닝 단기집중과정의 범주형 데이터 작업을 참고하세요.

인과 관계 언어 모델

단방향 언어 모델의 동의어입니다.

언어 모델링에서 다양한 방향 접근 방식을 비교하려면 양방향 언어 모델을 참고하세요.

CB

#Metric

CommitmentBank의 약어입니다.

centroid

#clustering

k-평균 또는 k-중앙값 알고리즘에 의해 결정되는 클러스터의 중심입니다. 예를 들어 k가 3인 경우 k-평균 또는 k-중앙값 알고리즘에서는 3개의 중심을 찾아냅니다.

자세한 내용은 클러스터링 과정의 클러스터링 알고리즘을 참고하세요.

중심 기반 군집화

#clustering

데이터를 비계층적 클러스터로 구성하는 클러스터링 알고리즘의 카테고리입니다. k-평균은 가장 널리 사용되는 중심 기반 클러스터링 알고리즘입니다.

계층적 군집화 알고리즘과 대비되는 개념입니다.

자세한 내용은 클러스터링 과정의 클러스터링 알고리즘을 참고하세요.

연쇄적 사고(CoT) 프롬프팅

#generativeAI

대규모 언어 모델 (LLM)이 추론을 단계별로 설명하도록 유도하는 프롬프트 엔지니어링 기법입니다. 예를 들어 다음 프롬프트를 살펴보세요. 특히 두 번째 문장에 주의하세요.

7초 만에 시속 0마일에서 60마일로 이동하는 자동차에서 운전자가 경험하는 중력 가속도는 얼마일까요? 답변에 관련된 모든 계산을 표시합니다.

LLM의 응답은 다음과 같을 수 있습니다.

적절한 위치에 값 0, 60, 7을 대입하여 일련의 물리학 공식을 보여 줘.
이러한 공식을 선택한 이유와 다양한 변수가 의미하는 바를 설명해 줘.

사고의 사슬 프롬프트는 LLM이 모든 계산을 수행하도록 강제하므로 더 정확한 답변을 얻을 수 있습니다. 또한 사고의 연쇄 프롬프트를 사용하면 사용자가 LLM의 단계를 검토하여 답변이 타당한지 여부를 확인할 수 있습니다.

문자 N-그램 F-점수 (ChrF)

#Metric

기계 번역 모델을 평가하는 측정항목입니다. 문자 N-그램 F 점수는 참조 텍스트의 N-그램이 ML 모델의 생성된 텍스트의 N-그램과 얼마나 중복되는지 결정합니다.

문자 N-그램 F 점수는 ROUGE 및 BLEU 계열의 측정항목과 유사하지만 다음과 같은 차이점이 있습니다.

문자 N-그램 F 점수는 문자 N-그램에서 작동합니다.
ROUGE와 BLEU는 단어 N-그램 또는 토큰을 기반으로 작동합니다.

채팅

#generativeAI

ML 시스템(일반적으로 대규모 언어 모델)과의 대화 내용입니다. 채팅의 이전 상호작용(내가 입력한 내용과 대규모 언어 모델이 응답한 방식)은 채팅의 후속 부분에 대한 맥락이 됩니다.

챗봇은 대규모 언어 모델의 애플리케이션입니다.

체크포인트

학습 중 또는 학습이 완료된 후에 모델의 파라미터 상태를 캡처하는 데이터입니다. 예를 들어 학습 중에 다음 작업을 할 수 있습니다.

의도적으로 또는 특정 오류의 결과로 학습을 중지합니다.
체크포인트를 캡처합니다.
나중에 다른 하드웨어에서 체크포인트를 새로고침합니다.
학습을 다시 시작합니다.

가능한 대안 선택 (COPA)

#Metric

LLM이 전제에 대한 두 가지 대안 답변 중 더 나은 답변을 얼마나 잘 식별할 수 있는지 평가하기 위한 데이터 세트입니다. 데이터 세트의 각 챌린지는 다음 세 가지 구성요소로 구성됩니다.

전제(일반적으로 질문이 뒤따르는 진술)
전제에 제시된 질문에 대한 두 가지 가능한 답변(하나는 정답이고 다른 하나는 오답)
정답

예를 들면 다음과 같습니다.

전제: 남자가 발가락을 다쳤습니다. 이 문제의 원인은 무엇이었나요?
예시 답변:
1. 양말에 구멍이 났어.
2. 발에 망치를 떨어뜨렸어.
정답: 2

COPA는 SuperGLUE 앙상블의 구성요소입니다.

인용 정확도

다음 질문에 답하는 측정항목입니다.

LLM 대답의 인용 중 실제로 정확하고 뒷받침하는 인용의 비율은 어느 정도인가요?

즉, 인용의 몇 퍼센트가 LLM의 대답에 포함된 주장을 검증하는 데 필요한 정확한 사실 또는 관련 정보를 포함하는지 나타냅니다.

예를 들어 LLM 대답에서 10개의 문서를 인용했지만 그중 7개의 인용만 정확하고 뒷받침하는 경우 인용 정밀도는 0.7이 됩니다.

인용 회상

다음 질문에 답하는 측정항목입니다.

LLM이 대답을 작성하는 데 사용한 소스 문서 중 실제로 대답에 인용된 문서의 비율은 얼마인가요?

예를 들어 LLM이 20개의 문서를 기반으로 대답을 작성했지만 대답에서 11개의 문서만 인용한 경우 인용 회수율은 0.55입니다.

클래스

#fundamentals

라벨이 속할 수 있는 카테고리입니다. 예를 들면 다음과 같습니다.

스팸을 감지하는 이진 분류 모델에서 두 클래스는 스팸과 스팸 아님일 수 있습니다.
견종을 식별하는 다중 클래스 분류 모델에서 클래스는 푸들, 비글, 퍼그 등이 될 수 있습니다.

분류 모델은 클래스를 예측합니다. 반면 회귀 모델은 클래스가 아닌 숫자를 예측합니다.

자세한 내용은 머신러닝 단기집중과정의 분류를 참고하세요.

클래스 균형 데이터 세트

각 카테고리의 인스턴스 수가 거의 동일한 범주형 라벨이 포함된 데이터 세트 예를 들어 바이너리 라벨이 자생 식물 또는 비자생 식물일 수 있는 식물 데이터 세트를 생각해 보세요.

자생 식물 515개와 외래 식물 485개가 있는 데이터 세트는 클래스 균형 데이터 세트입니다.
자생 식물 875개와 비자생 식물 125개가 있는 데이터 세트는 클래스 불균형 데이터 세트입니다.

클래스 균형 데이터 세트와 클래스 불균형 데이터 세트 간의 공식적인 구분선은 없습니다. 클래스 불균형이 심한 데이터 세트로 학습된 모델이 수렴할 수 없는 경우에만 이 구분이 중요해집니다. 자세한 내용은 머신러닝 단기집중과정의 데이터 세트: 불균형 데이터 세트를 참고하세요.

분류 모델

#fundamentals

예측이 클래스인 모델입니다. 예를 들어 다음은 모두 분류 모델입니다.

입력 문장의 언어 (프랑스어? 스페인어? 이탈리아어?)
나무 종(단풍나무? 오크? 바오밥?).
특정 질병의 양성 또는 음성 클래스를 예측하는 모델입니다.

반면 회귀 모델은 클래스가 아닌 숫자를 예측합니다.

일반적인 분류 모델에는 다음 두 가지 유형이 있습니다.

이진 분류
다중 클래스 분류

분류 기준점

#fundamentals

이진 분류에서 로지스틱 회귀 모델의 원시 출력을 양성 클래스 또는 음성 클래스의 예측으로 변환하는 0과 1 사이의 숫자입니다. 분류 기준은 모델 학습에서 선택한 값이 아니라 사람이 선택한 값입니다.

로지스틱 회귀 모델은 0과 1 사이의 원시 값을 출력합니다. 그런 다음 아래를 실행합니다.

이 원시 값이 분류 기준보다 크면 포지티브 클래스가 예측됩니다.
이 원시 값이 분류 임계값보다 작으면 부정 클래스가 예측됩니다.

예를 들어 분류 임곗값이 0.8이라고 가정해 보겠습니다. 원시 값이 0.9이면 모델이 포지티브 클래스를 예측합니다. 원시 값이 0.7이면 모델이 네거티브 클래스를 예측합니다.

분류 기준점 선택은 거짓양성 및 거짓음성 수에 큰 영향을 미칩니다.

아이콘을 클릭하여 추가 메모를 확인하세요.

모델이나 데이터 세트가 발전함에 따라 엔지니어가 분류 기준점을 변경하는 경우도 있습니다. 분류 기준이 변경되면 갑자기 포지티브 클래스 예측이 네거티브 클래스가 되고 그 반대의 경우도 발생할 수 있습니다.

예를 들어 이진 분류 질병 예측 모델을 생각해 보세요. 시스템이 첫해에 실행될 때 다음을 가정해 보겠습니다.

특정 환자의 원시 값은 0.95입니다.
분류 기준은 0.94입니다.

따라서 시스템은 포지티브 클래스를 진단합니다. (환자가 숨을 헐떡이며 말합니다.) '이런! I'm sick!')

1년 후에는 값이 다음과 같이 표시될 수 있습니다.

동일한 환자의 원시 값은 0.95로 유지됩니다.
분류 임곗값이 0.97로 변경됩니다.

따라서 시스템은 이제 해당 환자를 음성 클래스로 재분류합니다. ('기쁜 소식입니다! I'm not sick.') 동일한 환자입니다. 다른 진단

자세한 내용은 머신러닝 단기집중과정의 기준점 및 혼동 행렬을 참고하세요.

분류기

#fundamentals

분류 모델의 비공식 용어입니다.

클래스 불균형 데이터 세트

#fundamentals

각 클래스의 총 라벨 수가 크게 다른 분류의 데이터 세트 예를 들어 두 라벨이 다음과 같이 나뉘는 이진 분류 데이터 세트를 생각해 보겠습니다.

1,000,000개의 음수 값 표시 라벨
긍정적인 라벨 10개

부정적 라벨과 긍정적 라벨의 비율이 100,000:1이므로 클래스 불균형 데이터 세트입니다.

반면 다음 데이터 세트는 음성 라벨과 양성 라벨의 비율이 1에 비교적 가까우므로 클래스 균형을 이룹니다.

517개의 부정적 라벨
483개의 긍정적 라벨

다중 클래스 데이터 세트도 클래스 불균형일 수 있습니다. 예를 들어 다음 다중 클래스 분류 데이터 세트는 한 라벨에 다른 두 라벨보다 훨씬 많은 예가 있으므로 클래스 불균형이기도 합니다.

클래스가 'green'인 라벨 1,000,000개
클래스가 'purple'인 라벨 200개
'orange' 클래스가 있는 라벨 350개

클래스 불균형 데이터 세트를 학습하는 데는 특별한 문제가 있을 수 있습니다. 자세한 내용은 머신러닝 단기집중과정의 불균형 데이터 세트를 참고하세요.

엔트로피, 다수 클래스, 소수 클래스도 참고하세요.

클리핑

#fundamentals

다음 중 하나 또는 둘 다를 실행하여 이상치를 처리하는 기법입니다.

최대 기준점보다 큰 특성 값을 해당 최대 기준점으로 줄입니다.
최소 기준점보다 작은 특성 값을 해당 최소 기준점까지 늘립니다.

예를 들어 특정 특성의 값 중 0.5% 미만이 40~60 범위를 벗어난다고 가정합니다. 이 경우 다음과 같이 할 수 있습니다.

60 (최대 기준점)을 초과하는 모든 값을 정확히 60으로 자릅니다.
40 (최소 기준점) 미만인 모든 값을 정확히 40으로 자릅니다.

이상치는 모델을 손상시켜 학습 중에 가중치가 오버플로되는 경우가 있습니다. 일부 이상치는 정확도와 같은 측정항목을 크게 망칠 수도 있습니다. 클리핑은 손상을 제한하는 일반적인 기법입니다.

경사 제한은 학습 중에 지정된 범위 이내의 경사 값을 강제 적용합니다.

자세한 내용은 머신러닝 단기집중과정의 숫자 데이터: 정규화를 참고하세요.

Cloud TPU

#TensorFlow

#GoogleCloud

Google Cloud에서 머신러닝 워크로드 속도를 높이도록 설계된 특수 하드웨어 가속기입니다.

클러스터링

#clustering

특히 비지도 학습 중에 관련 예를 그룹화합니다. 모든 예가 그룹으로 묶이고 나면 사람이 선택적으로 각 클러스터에 의미를 부여할 수 있습니다.

클러스터링에는 여러 가지 알고리즘이 사용됩니다. 예를 들어 k-평균 알고리즘은 다음 다이어그램과 같이 중심과의 근접성을 기반으로 예시를 클러스터링합니다.

x축에 나무 너비가 표시되고 y축에 나무 높이가 표시된 2차원 그래프입니다. 그래프에는 중심점 2개와 데이터 포인트 수십 개가 포함되어 있습니다. 데이터 포인트는 근접성을 기반으로 분류됩니다. 즉, 한 중심에 가장 가까운 데이터 포인트는 클러스터 1로 분류되고 다른 중심에 가장 가까운 데이터 포인트는 클러스터 2로 분류됩니다.

그런 다음 연구원이 클러스터를 검토하고 클러스터 1에는 '난쟁이 나무', 클러스터 2에는 '완전한 크기의 나무'와 같이 라벨을 붙입니다.

다음에서 확인할 수 있는 것처럼 중심점에서 예가 얼마나 떨어져 있는지를 바탕으로 한 클러스터링 알고리즘도 있을 수 있습니다.

수십 개의 데이터 포인트가 동심원 모양으로 배열되어 있습니다. 마치 다트판의 중심 주변에 있는 구멍과 같습니다. 데이터 포인트의 가장 안쪽 고리는 클러스터 1로 분류되고, 중간 고리는 클러스터 2로 분류되고, 가장 바깥쪽 고리는 클러스터 3으로 분류됩니다.

자세한 내용은 클러스터링 과정을 참고하세요.

모방 적응

뉴런이 신경망의 전체 행동이 아닌 다른 특정 뉴런의 출력에만 의존하여 학습 데이터의 패턴을 예측하는 바람직하지 않은 동작입니다. 모방 적응을 일으키는 패턴이 유효성 검사 데이터에 없는 경우 모방 적응은 과적합을 초래합니다. 드롭아웃 정규화는 드롭아웃이 뉴런이 다른 특정 뉴런에만 의존하지 못하도록 하므로 모방 적응을 줄여줍니다.

협업 필터링

다른 여러 사용자의 관심사를 기준으로 특정 사용자의 관심 항목에 관한 예측을 수행합니다. 협업 필터링은 추천 시스템에 자주 사용됩니다.

자세한 내용은 추천 시스템 과정의 협업 필터링을 참고하세요.

CommitmentBank (CB)

#Metric

LLM이 한 구절의 저자가 해당 구절 내의 타겟 절을 믿는지 여부를 판단하는 능력을 평가하기 위한 데이터 세트입니다. 데이터 세트의 각 항목에는 다음이 포함됩니다.

문구
해당 구절 내의 타겟 절
단락의 작성자가 타겟 조항을

예를 들면 다음과 같습니다.

구절: 아르테미스가 웃는 소리를 들으니 정말 즐거웠어. 아이가 정말 진지하네요. 유머 감각이 있는 줄 몰랐어요.
타겟 절: 그녀는 유머 감각이 있었습니다.
Boolean: True. 즉, 작성자가 타겟 조항을

CommitmentBank는 SuperGLUE 앙상블의 구성요소입니다.

소형 모델

컴퓨팅 리소스가 제한된 소형 기기에서 실행되도록 설계된 소형 모델입니다. 예를 들어 소형 모델은 휴대전화, 태블릿 또는 삽입된 시스템에서 실행할 수 있습니다.

컴퓨팅

(명사) 모델 또는 시스템에서 사용하는 컴퓨팅 리소스(예: 처리 능력, 메모리, 스토리지)입니다.

가속기 칩을 참고하세요.

개념 드리프트

특성과 라벨 간의 관계 변화 시간이 지남에 따라 개념 드리프트로 인해 모델의 품질이 저하됩니다.

학습 중에 모델은 학습 세트의 특성과 라벨 간의 관계를 학습합니다. 학습 세트의 라벨이 실제 세계를 잘 나타낸다면 모델은 실제 세계를 잘 예측해야 합니다. 하지만 개념 드리프트로 인해 모델의 예측은 시간이 지남에 따라 저하되는 경향이 있습니다.

예를 들어 특정 자동차 모델이 '연비가 좋은지' 여부를 예측하는 이진 분류 모델을 생각해 보겠습니다. 즉, 기능은 다음과 같을 수 있습니다.

자동차 무게
엔진 압축
변속기 유형

라벨이 다음 중 하나인 경우

연비가 좋은
연비가 좋지 않음

하지만 '연비가 좋은 자동차'의 개념은 계속해서 변화하고 있습니다. 1994년에 연비가 좋은 것으로 표시된 자동차 모델은 2024년에는 거의 확실히 연비가 좋지 않은 것으로 표시될 것입니다. 개념 드리프트가 발생하는 모델은 시간이 지남에 따라 유용성이 떨어지는 예측을 하는 경향이 있습니다.

비정상성과 비교 및 대조

아이콘을 클릭하여 추가 메모를 확인하세요.

콘셉트 드리프트를 보완하려면 콘셉트 드리프트의 속도보다 빠르게 모델을 재학습시키세요. 예를 들어 개념 드리프트로 인해 모델 정밀도가 2개월마다 유의미한 수준으로 감소하는 경우 2개월보다 더 자주 모델을 재학습시키세요.

상태

#df

결정 트리에서 테스트를 실행하는 노드입니다. 예를 들어 다음 결정 트리에는 두 가지 조건이 포함되어 있습니다.

(x > 0) 및 (y > 0)의 두 조건으로 구성된 결정 트리

조건을 분할 또는 테스트라고도 합니다.

리프와 대비되는 조건입니다.

혼동

할루시네이션의 동의어입니다.

혼동은 환각보다 기술적으로 더 정확한 용어일 수 있습니다. 하지만 할루시네이션이 먼저 인기를 얻었습니다.

구성

모델을 학습하는 데 사용되는 초기 속성 값을 할당하는 프로세스입니다. 여기에는 다음이 포함됩니다.

모델의 구성 레이어
데이터의 위치
다음과 같은 초매개변수:

머신러닝 프로젝트에서 구성은 특수 구성 파일을 통해 또는 다음과 같은 구성 라이브러리를 사용하여 실행할 수 있습니다.

확증 편향

#responsible

이미 가지고 있는 믿음이나 가설을 긍정하는 방향으로 정보를 검색, 해석, 선호, 재현하는 경향입니다. 머신러닝 개발자가 의도치 않게 기존 믿음을 뒷받침하는 결과에 영향을 미치는 방식으로 데이터를 수집하거나 데이터에 라벨을 지정할 수 있습니다. 확증 편향은 일종의 내재적 편향입니다.

실험자 편향은 기존 가설이 확인될 때까지 실험자가 모델 학습을 계속하는 일종의 확증 편향입니다.

혼동 행렬

#fundamentals

분류 모델이 수행한 올바른 예측과 잘못된 예측의 수를 요약한 NxN 표입니다. 예를 들어 이진 분류 모델의 다음 혼동 행렬을 고려해 보세요.

	종양 (예측)	종양 아님 (예측)
종양 (정답)	18 (TP)	1 (FN)
종양이 아님 (정답)	6 (FP)	452 (TN)

위의 혼동 행렬은 다음을 보여줍니다.

그라운드 트루스가 종양인 19개의 예측 중 모델이 18개를 올바르게 분류하고 1개를 잘못 분류했습니다.
그라운드 트루스가 종양이 아닌 458개의 예측 중 모델이 452개를 올바르게 분류하고 6개를 잘못 분류했습니다.

다중 클래스 분류 문제의 혼동 행렬은 실수 패턴을 식별하는 데 도움이 될 수 있습니다. 예를 들어 세 가지 다른 붓꽃 유형(버지니카, 버시컬러, 세토사)을 분류하는 3개 클래스 다중 클래스 분류 모델의 다음 혼동 행렬을 고려해 보세요. 실측값이 Virginica인 경우 혼동 행렬을 보면 모델이 Setosa보다 Versicolor를 잘못 예측할 가능성이 훨씬 더 높습니다.

	Setosa (예측)	Versicolor (예측)	Virginica (예측)
Setosa (정답)	88	12	0
Versicolor (정답)	6	141	7
Virginica (정답)	2	27	109

또 다른 예로, 혼동 행렬은 필기 숫자를 인식하도록 학습된 모델이 4를 9로, 아니면 7을 1로 잘못 예측하는 경향이 있음을 드러낼 수 있습니다.

혼동 행렬에는 정밀도 및 재현율을 비롯한 다양한 성능 측정항목을 계산하기에 충분한 정보가 포함되어 있습니다.

선거구 파싱

문장을 더 작은 문법 구조 ('구성요소')로 나눕니다. 자연어 이해 모델과 같은 ML 시스템의 후반부에서는 원래 문장보다 구성요소를 더 쉽게 파싱할 수 있습니다. 예를 들어 다음 문장을 살펴보겠습니다.

내 친구가 고양이 두 마리를 입양했어.

구성요소 파서는 이 문장을 다음 두 구성요소로 나눌 수 있습니다.

내 친구는 명사구입니다.
adopted two cats는 동사구입니다.

이러한 구성요소는 더 작은 구성요소로 세분화할 수 있습니다. 예를 들어 동사구

고양이 두 마리를 입양했습니다.

다음과 같이 더 세분화할 수 있습니다.

adopted는 동사입니다.
두 마리의 고양이는 또 다른 명사구입니다.

문맥화된 언어 임베딩

#generativeAI

유창한 인간 화자가 단어와 구문을 이해하는 방식과 유사하게 단어와 구문을 '이해'하는 임베딩 맥락화된 언어 임베딩은 복잡한 구문, 시맨틱, 컨텍스트를 이해할 수 있습니다.

예를 들어 영어 단어 cow의 임베딩을 생각해 보세요. word2vec과 같은 이전 임베딩은 cow에서 bull까지의 임베딩 공간 거리가 ewe (암양)에서 ram (수양)까지의 거리 또는 female에서 male까지의 거리와 유사하도록 영어 단어를 표현할 수 있습니다. 문맥화된 언어 삽입은 영어 사용자가 때때로 소라는 단어를 암소 또는 수소 중 하나를 의미하는 데 무심코 사용한다는 점을 인식하여 한 단계 더 나아갈 수 있습니다.

컨텍스트 윈도우

#generativeAI

모델이 특정 프롬프트에서 처리할 수 있는 토큰 수입니다. 컨텍스트 윈도우가 클수록 모델은 더 많은 정보를 사용하여 프롬프트에 일관되고 논리적인 대답을 제공할 수 있습니다.

연속 특성

#fundamentals

온도나 무게와 같이 가능한 값의 범위가 무한한 부동 소수점 특성입니다.

불연속 특성과 대비되는 개념입니다.

편의 샘플링

실험을 빠르게 실행하기 위해 과학적으로 수집되지 않은 데이터 세트를 사용합니다. 나중에 과학적으로 수집된 데이터 세트로 전환해야 합니다.

수렴

#fundamentals

반복마다 손실 값이 거의 또는 전혀 변화하지 않는 상태입니다. 예를 들어 다음 손실 곡선은 약 700회 반복에서 수렴을 보여줍니다.

카티전 플롯입니다. X축이 손실됩니다. Y축은 학습 반복 횟수입니다. 처음 몇 번의 반복에서는 손실이 매우 높지만 급격히 감소합니다. 약 100회 반복 후에도 손실은 여전히 감소하지만 훨씬 더 점진적으로 감소합니다. 약 700회 반복 후 손실이 일정하게 유지됩니다.

추가 학습으로 모델이 개선되지 않으면 모델이 수렴됩니다.

딥 러닝에서는 손실 값이 최종적으로 감소하기 전에 여러 반복 동안 일정하거나 거의 일정하게 유지되는 경우가 있습니다. 손실 값이 일정하게 유지되는 기간이 길어지면 일시적으로 수렴이 이루어진 것처럼 느껴질 수 있습니다.

조기 중단도 참고하세요.

자세한 내용은 머신러닝 단기집중과정의 모델 수렴 및 손실 곡선을 참고하세요.

대화형 코딩

#generativeAI

소프트웨어를 만들기 위해 사용자와 생성형 AI 모델 간에 이루어지는 반복적인 대화입니다. 소프트웨어를 설명하는 프롬프트를 입력합니다. 그런 다음 모델은 이 설명을 사용하여 코드를 생성합니다. 그런 다음 이전 프롬프트 또는 생성된 코드의 결함을 해결하기 위해 새 프롬프트를 실행하면 모델에서 업데이트된 코드를 생성합니다. 생성된 소프트웨어가 충분히 좋을 때까지 두 사람이 계속해서 주고받습니다.

대화 코딩은 기본적으로 바이브 코딩의 원래 의미입니다.

명시적 코딩과 대비되는 개념입니다.

볼록 함수

함수 그래프의 위쪽 영역이 볼록 집합인 함수입니다. 전형적인 볼록 함수는 U자 모양입니다. 예를 들어 다음은 모두 볼록 함수입니다.

각각 하나의 최솟값을 갖는 U자형 곡선

반면 다음 함수는 볼록하지 않습니다. 그래프 위의 영역이 볼록 집합이 아닌 것을 확인하세요.

두 개의 서로 다른 지역 최솟값이 있는 W자형 곡선

순볼록 함수에는 지역 최솟값이 하나만 있으며 이는 전역 최솟값이기도 합니다. 고전적인 U자형 함수는 순볼록 함수입니다. 그러나 직선과 같은 볼록 함수는 U자형이 아닙니다.

아이콘을 클릭하여 수학을 자세히 살펴보세요.

일반적인 손실 함수 중 다음을 비롯한 다수는 볼록 함수입니다.

L₂ 손실
로그 손실
L₁ 정규화
L₂ 정규화

경사하강법의 여러 가지 변형을 사용하면 순볼록 함수의 최저점에 가까운 점을 찾을 수 있습니다. 마찬가지로, 확률적 경사하강법의 여러 변형을 사용하면 순볼록 함수의 최저점에 가까운 점을 찾을 가능성이 높지만 항상 찾을 수 있는 것은 아닙니다.

두 볼록 함수의 합 (예: L₂ 손실 + L₁ 정규화)은 볼록 함수입니다.

심층 모델은 어떠한 경우에도 볼록 함수가 아닙니다. 그럼에도 불구하고 볼록 최적화를 위해 설계된 알고리즘은 심층 네트워크에서 비교적 양호한 해를 구할 가능성이 높지만, 이러한 해가 전역 최저점이라는 보장은 없습니다.

자세한 내용은 머신러닝 단기집중과정의 수렴 및 볼록 함수를 참고하세요.

볼록 최적화

경사하강법과 같은 수학적 기법을 사용하여 볼록 함수의 최솟값을 찾는 프로세스입니다. 머신러닝에 대한 연구 중 상당한 비중이 볼록 최적화와 같은 다양한 문제를 고안하고 효과적인 해법을 찾는 데 집중되었습니다.

자세한 내용은 Boyd와 Vandenberghe의 볼록 최적화를 참고하세요.

볼록 집합

부분 집합의 두 점 사이에 그려진 선이 부분 집합 내에 완전히 유지되도록 하는 유클리드 공간의 부분 집합입니다. 예를 들어 다음 두 도형은 볼록 집합입니다.

직사각형의 그림 타원의 또 다른 그림

반면 다음 두 도형은 볼록 집합이 아닙니다.

조각이 누락된 원형 차트의 삽화
매우 불규칙한 다각형의 또 다른 예

컨볼루션

수학에서 두 함수의 혼합을 비공식적으로 말합니다. 머신러닝에서 컨볼루션은 컨볼루셔널 필터와 입력 행렬을 혼합하여 가중치를 학습시킵니다.

머신러닝에서 '컨볼루션'이라는 용어는 컨볼루션 연산 또는 컨볼루션 레이어를 지칭하는 약칭인 경우가 많습니다.

컨볼루션이 없으면 머신러닝 알고리즘이 큰 텐서의 모든 셀에 있어서 별도의 가중치를 학습해야 합니다. 예를 들어 2K x 2K 이미지로 학습하는 머신러닝 알고리즘은 4백만 개의 별도 가중치를 찾아야 합니다. 컨볼루션이 있기 때문에 머신러닝 알고리즘은 컨볼루셔널 필터에 있는 모든 셀의 가중치만 찾아도 되고, 이로 인해 모델 학습에 필요한 메모리가 크게 줄어듭니다. 컨볼루션 필터가 적용되면 각 셀에 필터가 곱해지도록 셀 전체에 간단히 복제됩니다.

컨볼루셔널 필터

컨볼루셔널 연산에서 사용되는 두 가지 중 하나입니다. (다른 행위자는 입력 행렬의 슬라이스입니다.) 컨볼루셔널 필터는 입력 행렬과 순위는 동일하지만 모양은 더 작은 행렬입니다. 예를 들어 28x28 입력 행렬이 주어지면 필터는 28x28보다 작은 2D 행렬일 수 있습니다.

사진 조작에서 컨볼루션 필터의 모든 셀은 일반적으로 1과 0의 상수 패턴으로 설정됩니다. 머신러닝에서 컨볼루셔널 필터는 일반적으로 난수로 시드된 후 네트워크가 이상적인 값을 학습합니다.

컨볼루셔널 레이어

심층 신경망의 한 레이어로, 입력 행렬에 컨볼루셔널 필터를 적용합니다. 예를 들어 다음과 같은 3x3 컨볼루셔널 필터가 있다고 생각해 보세요.

값이 [[0,1,0], [1,0,1], [0,1,0]]인 3x3 행렬

다음 애니메이션은 5x5 입력 행렬을 포함하는 9개의 컨볼루션 연산으로 구성된 컨볼루션 레이어를 보여줍니다. 각 컨볼루션 연산은 입력 행렬의 서로 다른 3x3 슬라이스에서 작동합니다. 결과로 생성된 3x3 행렬 (오른쪽)은 9개의 컨볼루션 연산 결과로 구성됩니다.

두 개의 행렬을 보여주는 애니메이션 첫 번째 행렬은 5x5 행렬 [[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]]입니다.
두 번째 행렬은 3x3 행렬 [[181,303,618], [115,338,605], [169,351,560]]입니다.
두 번째 행렬은 5x5 행렬의 다양한 3x3 하위 집합에 컨볼루션 필터 [[0, 1, 0], [1, 0, 1], [0, 1, 0]] 을 적용하여 계산됩니다.

컨볼루셔널 신경망

적어도 하나의 레이어가 컨볼루셔널 레이어인 신경망입니다. 일반적인 컨볼루션 신경망은 다음 레이어의 조합으로 구성됩니다.

컨볼루션 레이어
풀링 레이어
밀집층

컨볼루션 신경망은 이미지 인식과 같은 특정 종류의 문제에서 큰 성공을 거두었습니다.

컨볼루셔널 연산

컨볼루셔널 연산은 다음과 같은 2단계 수학 연산입니다.

컨볼루셔널 필터 및 입력 행렬의 슬라이스 등 요소별 곱셈입니다. 입력 행렬의 슬라이스는 컨볼루셔널 필터와 순위 및 크기가 동일합니다.
곱셈의 결과로 얻어지는 행렬 내 모든 값의 합계입니다.

예를 들어 다음 5x5 입력 행렬을 고려해 보세요.

5x5 행렬: [[128,97,53,201,198], [35,22,25,200,195],
[37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]]

이제 다음 2x2 컨볼루션 필터를 상상해 보세요.

2x2 행렬: [[1, 0], [0, 1]]

각 컨볼루셔널 연산에는 입력 행렬의 단일 2x2 슬라이스가 포함됩니다. 예를 들어 입력 행렬의 왼쪽 상단에 있는 2x2 슬라이스를 사용한다고 가정해 보겠습니다. 따라서 이 슬라이스의 컨볼루션 연산은 다음과 같습니다.

컨볼루션 필터 [[1, 0], [0, 1]] 을 입력 행렬의 왼쪽 상단 2x2 섹션인 [[128,97], [35,22]]에 적용합니다.
컨볼루션 필터는 128과 22는 그대로 두지만 97과 35는 0으로 만듭니다. 따라서 컨볼루션 연산은 값 150 (128+22)을 생성합니다.

컨볼루셔널 레이어는 일련의 컨볼루셔널 연산으로 이루어지며, 각 연산은 입력 행렬의 서로 다른 슬라이스에 적용됩니다.

COPA

#Metric

Choice of Plausible Alternatives의 약어입니다.

비용

#Metric

손실의 동의어입니다.

공동 학습

다음 조건이 모두 충족되는 경우 특히 유용한 준지도 학습 접근 방식

데이터 세트에서 라벨이 없는 예의 비율이 높습니다.
이는 분류 문제입니다 (이진 또는 다중 클래스).
데이터 세트에는 서로 독립적이고 상호 보완적인 두 가지 예측 기능 세트가 포함되어 있습니다.

공동 학습은 기본적으로 독립적인 신호를 더 강력한 신호로 증폭합니다. 예를 들어 개별 중고차를 양호 또는 불량으로 분류하는 분류 모델을 생각해 보겠습니다. 한 가지 예측 기능 세트는 자동차의 연도, 제조업체, 모델과 같은 집계된 특성에 중점을 둘 수 있고, 다른 예측 기능 세트는 이전 소유자의 운전 기록과 자동차의 유지보수 기록에 중점을 둘 수 있습니다.

공동 학습에 관한 획기적인 논문은 Blum과 Mitchell의 Combining Labeled and Unlabeled Data with Co-Training입니다.

반사실적 공정성

#responsible

#Metric

민감한 속성이 하나 이상 다르다는 점을 제외하고 첫 번째 개인과 동일한 두 번째 개인에 대해 분류 모델이 동일한 결과를 생성하는지 확인하는 공정성 측정항목입니다. 반사실적 공정성을 위해 분류 모델을 평가하는 것은 모델에서 잠재적인 편향 소스를 파악하는 한 가지 방법입니다.

자세한 내용은 다음 중 하나를 참고하세요.

머신러닝 단기집중과정의 공정성: 반사실적 공정성
When Worlds Collide: Integrating Different Counterfactual Assumptions in Fairness

포함 편향

#responsible

표본 선택 편향을 참고하세요.

중의적 구문

의미가 모호한 문장 또는 구입니다. 중의적 구문은 자연어 이해에서 중요한 문제를 발생시킵니다. 예를 들어 Red Tape Holds Up Skyscraper라는 광고 제목은 NLU 모델에서 광고 제목을 문자 그대로 또는 비유적으로 해석할 수 있으므로 중의적 구문입니다.

아이콘을 클릭하여 추가 메모를 확인하세요.

이해하기 어려운 헤드라인을 명확히 설명해 드리겠습니다.

관료주의는 다음 중 하나를 의미할 수 있습니다.
- 접착제
- 과도한 관료주의
보류는 다음 중 하나를 의미할 수 있습니다.
- 구조적 지원
- 지연

비평가

Deep Q-Network의 동의어입니다.

교차 엔트로피

#Metric

로그 손실을 다중 클래스 분류 문제로 일반화한 것입니다. 교차 엔트로피는 두 확률 분포 간의 차이를 계량합니다. 퍼플렉시티도 참고하세요.

교차 검증

학습 세트에서 보류된 하나 이상의 중복되지 않은 데이터 하위 집합을 테스트하여 모델이 새 데이터로 얼마나 효과적으로 일반화될지를 예측하는 메커니즘입니다.

누적 분포 함수 (CDF)

#Metric

타겟 값 이하의 샘플 빈도를 정의하는 함수입니다. 예를 들어 연속 값의 정규 분포를 생각해 보세요. CDF는 샘플의 약 50% 가 평균 이하이고 샘플의 약 84% 가 평균보다 1표준편차 이상임을 나타냅니다.

D

데이터 분석

데이터 분석이란 샘플, 측정치, 시각화를 고려하여 데이터를 이해하는 작업입니다. 처음으로 데이터 세트를 받은 직후, 첫 번째 모델을 빌드하기 전에 특히 데이터 분석이 유용합니다. 또한 실험을 이해하고 시스템의 문제를 디버깅하는 데에도 중요합니다.

데이터 증강

기존 예를 변형하여 추가 예시를 생성함으로써 학습 예시의 범위와 수를 인위적으로 늘립니다. 예를 들어 이미지가 특성 중 하나이지만, 모델에서 유용한 연결을 학습하는 데 충분한 이미지 예가 데이터 세트에 포함되어 있지 않다고 가정합니다. 모델이 올바르게 학습할 수 있도록 데이터 세트에 라벨이 지정된 이미지를 충분히 추가하는 것이 가장 좋습니다. 그렇게 할 수 없는 경우 데이터 증강을 통해 각 이미지를 회전, 확대, 반사하여 원본 그림의 다양한 변형을 생성할 수 있습니다. 그러면 충분한 수의 라벨이 지정된 데이터가 생성되어 효과적인 학습을 지원할 수 있습니다.

DataFrame

#fundamentals

메모리에서 데이터 세트를 표현하는 데 널리 사용되는 pandas 데이터 유형입니다.

DataFrame은 테이블이나 스프레드시트와 비슷합니다. DataFrame의 각 열에는 이름 (헤더)이 있으며 각 행은 고유한 숫자로 식별됩니다.

DataFrame의 각 열은 2D 배열처럼 구성되지만 각 열에 고유한 데이터 유형을 할당할 수 있다는 점이 다릅니다.

공식 pandas.DataFrame 참조 페이지도 참고하세요.

데이터 동시 로드

학습 또는 추론을 확장하는 방법으로, 전체 모델을 여러 기기에 복제한 다음 입력 데이터의 하위 집합을 각 기기에 전달합니다. 데이터 동시 로드를 사용하면 매우 큰 배치 크기에 대한 학습 및 추론을 실행할 수 있습니다. 하지만 데이터 동시 로드를 사용하려면 모델이 모든 기기에 맞을 만큼 소형이어야 합니다.

데이터 동시 로드는 일반적으로 학습 및 추론 속도를 높입니다.

모델 병렬 처리도 참고하세요.

Dataset API (tf.data)

#TensorFlow

데이터를 읽고 머신러닝 알고리즘이 요구하는 형태로 변환하는 상위 수준의 TensorFlow API입니다. tf.data.Dataset 객체는 요소 시퀀스를 나타내며, 각 요소는 하나 이상의 텐서를 포함합니다. tf.data.Iterator 객체를 사용하면 Dataset의 요소에 액세스할 수 있습니다.

데이터 세트(data set 또는 dataset)

#fundamentals

일반적으로 다음 형식 중 하나로 구성되지만 이에 국한되지는 않는 원시 데이터 모음입니다.

스프레드시트
CSV (쉼표로 구분된 값) 형식의 파일

결정 경계

이진 클래스 또는 다중 클래스 분류 문제에서 모델이 학습한 클래스 간의 구분자입니다. 예를 들어 아래 그림과 같은 이진 분류 문제의 경우 결정 경계는 주황색 클래스와 파란색 클래스 사이의 경계선입니다.

클래스 간에 잘 정의된 경계입니다.

결정 포레스트

#df

여러 결정 트리로 생성된 모델입니다. 결정 포레스트는 결정 트리의 예측을 집계하여 예측합니다. 인기 있는 결정 포레스트 유형에는 랜덤 포레스트와 그래디언트 부스티드 트리가 있습니다.

자세한 내용은 결정 트리 과정의 결정 트리 섹션을 참고하세요.

결정 기준

분류 임곗값의 동의어입니다.

결정 트리

#df

계층적으로 구성된 일련의 조건과 리프로 구성된 지도 학습 모델입니다. 예를 들어 다음은 의사 결정 트리입니다.

계층적으로 정렬된 네 가지 조건으로 구성된 결정 트리로, 5개의 리프로 이어집니다.

decoder

일반적으로 처리된, 밀집된 또는 내부 표현을 더 원시적이고 희소하거나 외부 표현으로 변환하는 모든 ML 시스템입니다.

디코더는 더 큰 모델의 구성요소인 경우가 많으며, 여기서 디코더는 인코더와 자주 페어링됩니다.

시퀀스-투-시퀀스(Seq2Seq) 태스크에서 디코더는 인코더가 생성한 내부 상태로 시작하여 다음 시퀀스를 예측합니다.

트랜스포머 아키텍처 내 디코더의 정의는 트랜스포머를 참고하세요.

자세한 내용은 머신러닝 단기집중과정의 대규모 언어 모델을 참고하세요.

심층 모델

#fundamentals

히든 레이어가 두 개 이상 포함된 신경망

심층 모델을 심층신경망이라고도 합니다.

와이드 모델과 대비되는 개념입니다.

심층신경망

심층 모델의 동의어입니다.

Deep Q-Network (DQN)

Q-러닝에서는 Q-함수를 예측하는 심층 신경망을 사용합니다.

Critic은 Deep Q-Network의 동의어입니다.

인구통계 동등성

#responsible

#Metric

모델의 분류 결과가 지정된 민감한 속성에 종속되지 않는 경우 충족되는 공정성 측정항목입니다.

예를 들어 소인국인과 거인국인이 모두 글럽덥드립 대학에 지원하는 경우, 한 그룹이 다른 그룹보다 평균적으로 자격 요건을 더 충족하는지 여부와 관계없이 입학한 소인국인의 비율이 입학한 거인국인의 비율과 동일하면 인구통계학적 균형이 달성됩니다.

균등한 확률 및 기회의 평등과 대조됩니다. 이러한 개념은 집계된 분류 결과가 민감한 속성에 의존하는 것을 허용하지만 특정 정답 라벨의 분류 결과가 민감한 속성에 의존하는 것은 허용하지 않습니다. 인구통계학적 균형을 위해 최적화할 때의 절충안을 살펴볼 수 있는 시각화는 '더 스마트한 머신러닝으로 차별을 타파하기'를 참고하세요.

자세한 내용은 머신러닝 단기집중과정의 공정성: 인구통계학적 동등성을 참고하세요.

노이즈 제거

다음과 같은 자체 지도 학습의 일반적인 접근 방식

노이즈가 데이터 세트에 인위적으로 추가됩니다.
모델은 노이즈를 제거하려고 시도합니다.

노이즈 제거를 사용하면 라벨이 없는 예에서 학습할 수 있습니다. 원본 데이터 세트는 타겟 또는 라벨로, 노이즈가 있는 데이터는 입력으로 사용됩니다.

일부 마스크 처리된 언어 모델은 다음과 같이 노이즈 제거를 사용합니다.

일부 토큰을 마스킹하여 라벨이 지정되지 않은 문장에 노이즈가 인위적으로 추가됩니다.
모델은 원래 토큰을 예측하려고 합니다.

밀집 특성

#fundamentals

대부분 또는 모든 값이 0이 아닌 특성으로, 일반적으로 부동 소수점 값의 텐서입니다. 예를 들어 다음 10요소 텐서는 값이 0이 아닌 요소가 9개이므로 밀집되어 있습니다.

희소 특성과 대비되는 개념입니다.

밀집 레이어

완전 연결 레이어의 동의어입니다.

깊이

#fundamentals

신경망에서 다음을 합산한 값입니다.

히든 레이어 수
출력 레이어 수(일반적으로 1)
임베딩 레이어의 수

예를 들어 히든 레이어 5개와 출력 레이어 1개가 있는 신경망의 깊이는 6입니다.

입력 레이어는 깊이에 영향을 미치지 않습니다.

깊이별 분리 컨볼루셔널 신경망 (sepCNN)

Inception을 기반으로 하는 컨볼루셔널 신경망 아키텍처로, Inception 모듈이 깊이별 분리형 컨볼루션으로 대체됩니다. Xception이라고도 합니다.

깊이별 분리형 컨볼루션 (분리형 컨볼루션이라고도 함)은 표준 3D 컨볼루션을 계산 효율성이 더 높은 두 개의 별도 컨볼루션 연산으로 분해합니다. 첫 번째는 깊이가 1 (n ✕ n ✕ 1)인 깊이별 컨볼루션이고 두 번째는 길이와 너비가 1 (1 ✕ 1 ✕ n)인 포인트별 컨볼루션입니다.

자세한 내용은 Xception: Deep Learning with Depthwise Separable Convolutions를 참고하세요.

파생 라벨

유추 라벨의 동의어입니다.

결정론적

지정된 입력에 대해 항상 동일한 출력을 반환하는 시스템입니다. 예를 들어 ReLU 함수는 다음 이유로 결정적입니다.

입력이 음수이면 출력은 항상 0입니다.
입력이 음수가 아닌 경우 출력은 항상 입력과 같습니다.

반면 호출될 때마다 난수를 반환하는 함수는 비결정적입니다.

결정적 시스템은 일반적으로 비결정적 시스템보다 테스트하기가 훨씬 쉽습니다.

LLM은 일반적으로 비결정적입니다. 즉, 동일한 프롬프트에 대한 LLM의 응답이 종종 다릅니다.

기기

#TensorFlow

#GoogleCloud

다음과 같은 두 가지 정의로 중복 정의된 용어입니다.

CPU, GPU, TPU 등 TensorFlow 세션을 실행할 수 있는 하드웨어 카테고리입니다.
가속기 칩(GPU 또는 TPU)에서 ML 모델을 학습할 때 텐서와 삽입을 실제로 조작하는 시스템 부분입니다. 기기는 가속기 칩에서 실행됩니다. 반면 호스트는 일반적으로 CPU에서 실행됩니다.

개인 정보 차등 보호

머신러닝에서 모델의 학습 세트에 포함된 민감한 데이터(예: 개인의 개인 정보)가 노출되지 않도록 보호하는 익명화 접근 방식입니다. 이 접근 방식을 사용하면 모델이 특정 개인에 대해 많이 학습하거나 기억하지 않습니다. 이는 모델 학습 중에 노이즈를 샘플링하고 추가하여 개별 데이터 포인트를 가려 민감한 학습 데이터가 노출될 위험을 줄임으로써 달성됩니다.

개인 정보 차등 보호는 머신러닝 외부에서도 사용됩니다. 예를 들어 데이터 과학자는 다양한 인구통계에 대한 제품 사용 통계를 계산할 때 개인 정보 차등 보호를 사용하여 개인 정보를 보호하기도 합니다.

차원 축소

일반적으로 임베딩 벡터로 변환하여 특징 벡터에서 특정 특징을 표현하는 데 사용되는 차원 수를 줄입니다.

측정기준

다음과 같은 정의로 중복 정의된 용어입니다.

Tensor에서 좌표의 수준 수입니다. 예를 들면 다음과 같습니다.
- 스칼라에는 0개의 차원(예: ["Hello"])이 있습니다.
- 벡터에는 1개의 차원(예: [3, 5, 7, 11])이 있습니다.
- 행렬에는 2개의 차원(예: [[2, 4, 18], [5, 7, 14]])이 있습니다. 좌표가 하나인 1차원 벡터에서 특정 셀을 고유하게 지정할 수 있습니다. 2차원 행렬에서 특정 셀을 고유하게 지정하려면 두 개의 좌표가 필요합니다.
특징 벡터의 항목 수입니다.
임베딩 레이어의 요소 수입니다.

직접 프롬프트

#generativeAI

제로샷 프롬프팅의 동의어입니다.

불연속 특성

#fundamentals

가능한 값의 유한 집합을 갖는 특성입니다. 예를 들어 값이 animal, vegetable 또는 mineral만 될 수 있는 특성은 불연속 (또는 범주형) 특성입니다.

연속 특성과 대비되는 개념입니다.

분류 모델

하나 이상의 특성 세트에서 라벨을 예측하는 모델입니다. 공식적으로 분류 모델은 특성과 가중치를 고려한 출력의 조건부 확률을 정의합니다. 즉,

p(output | features, weights)

예를 들어 특성과 가중치에서 이메일이 스팸인지 여부를 예측하는 모델은 분류 모델입니다.

분류 모델과 회귀 모델을 비롯한 다양한 지도 학습 모델이 분류 모델에 해당됩니다.

생성 모델과 대비되는 개념입니다.

분류자

예가 진짜인지 가짜인지 여부를 결정하는 시스템입니다.

또는 생성적 적대 신경망 내 하위 시스템으로, 생성기에서 생성한 예가 진짜인지 가짜인지 여부를 결정합니다.

자세한 내용은 GAN 과정의 판별자를 참고하세요.

차별적 영향

#responsible

다양한 인구 하위 그룹에 불균형적으로 영향을 미치는 사람에 관한 결정을 내립니다. 이는 일반적으로 알고리즘 기반 의사 결정 프로세스가 일부 하위 그룹에 다른 하위 그룹보다 더 큰 피해를 주거나 이익을 주는 상황을 의미합니다.

예를 들어 소인국의 소형 주택 대출 자격 요건을 결정하는 알고리즘이 우편 주소에 특정 우편번호가 포함된 경우 '자격 요건 미충족'으로 분류할 가능성이 더 높다고 가정해 보겠습니다. Big-Endian Lilliputians가 Little-Endian Lilliputians보다 이 우편번호가 포함된 우편 주소를 가질 가능성이 더 높다면 이 알고리즘은 불균형한 영향을 미칠 수 있습니다.

하위 그룹 특성이 알고리즘 의사 결정 프로세스에 명시적으로 입력될 때 발생하는 불균형에 초점을 맞추는 차별적 대우와는 대조적입니다.

차별적 대우

#responsible

다양한 하위 그룹의 사람들이 다르게 취급되도록 알고리즘 의사 결정 과정에 주체의 민감한 속성을 고려합니다.

예를 들어 대출 신청서에 제공된 데이터를 기반으로 소인국의 소형 주택 대출 자격 요건을 결정하는 알고리즘을 생각해 보세요. 알고리즘이 릴리풋의 소속을 입력으로 빅엔디언 또는 리틀엔디언으로 사용하는 경우 해당 차원을 따라 차별적 대우를 시행하는 것입니다.

불균형한 영향과 대조됩니다. 불균형한 영향은 하위 그룹이 모델의 입력인지 여부와 관계없이 알고리즘 결정이 하위 그룹에 미치는 사회적 영향의 불균형에 초점을 맞춥니다.

증류

#generativeAI

하나의 모델 (교사라고 함)의 크기를 원래 모델의 예측을 최대한 충실하게 모방하는 더 작은 모델 (학생이라고 함)로 줄이는 프로세스입니다. 정제는 더 작은 모델이 더 큰 모델 (티처)에 비해 두 가지 주요 이점이 있기 때문에 유용합니다.

더 빠른 추론 시간
메모리 및 에너지 사용량 감소

하지만 학생의 예측은 일반적으로 교사의 예측만큼 정확하지 않습니다.

증류는 학생 모델과 교사 모델의 예측 출력 간 차이를 기반으로 손실 함수를 최소화하도록 학생 모델을 학습시킵니다.

증류를 다음 용어와 비교 및 대조하세요.

미세 조정
프롬프트 기반 학습

자세한 내용은 머신러닝 단기집중과정의 LLM: 미세 조정, 증류, 프롬프트 엔지니어링을 참고하세요.

배포

지정된 특성 또는 라벨의 다양한 값의 빈도와 범위입니다. 분포는 특정 값이 얼마나 가능성이 있는지 캡처합니다.

다음 이미지는 서로 다른 두 분포의 히스토그램을 보여줍니다.

왼쪽에는 부의 거듭제곱 법칙 분포와 해당 부를 소유한 사람 수가 표시되어 있습니다.
오른쪽에는 키와 해당 키를 가진 사람 수의 정규 분포가 표시됩니다.

히스토그램 2개 한 히스토그램은 x축에 재산이 있고 y축에 해당 재산을 보유한 사람 수가 있는 거듭제곱 분포를 보여줍니다. 대부분의 사람은 재산이 거의 없으며 일부 사람만 재산이 많습니다. 다른 히스토그램은 x축에 키, y축에 해당 키를 가진 사람 수를 표시하는 정규 분포를 보여줍니다. 대부분의 사람들은 평균 근처에 모여 있습니다.

각 특성과 라벨의 분포를 이해하면 값을 정규화하고 이상치를 감지하는 방법을 결정하는 데 도움이 됩니다.

분포 외라는 문구는 데이터 세트에 표시되지 않거나 매우 드문 값을 나타냅니다. 예를 들어 고양이 이미지로 구성된 데이터 세트의 경우 토성 이미지는 분포에서 벗어난 것으로 간주됩니다.

분리형 군집화

#clustering

계층적 군집화를 참고하세요.

다운샘플링

중복으로 정의된 용어로서 다음 중 하나를 의미할 수 있습니다.

모델을 더욱 효과적으로 학습하기 위해 특성에서 정보의 양을 줄입니다. 예를 들어 이미지 인식 모델을 학습하기 전에 고해상도 이미지를 저해상도 형식으로 다운샘플링합니다.
기반이 취약한 클래스에 대한 모델 학습을 개선하기 위해 불균형적으로 낮은 비율의 과대 표현된 클래스를 학습합니다. 예를 들어 클래스 불균형 데이터 세트에서 모델은 다수 클래스에 관해 많이 학습하고 소수 클래스에 관해서는 충분히 학습하지 않는 경향이 있습니다. 다운샘플링을 사용하면 다수 범주와 소수 범주에 대한 학습량을 균형 조정할 수 있습니다.

자세한 내용은 머신러닝 단기집중과정의 데이터 세트: 불균형 데이터 세트를 참고하세요.

DQN

Deep Q-Network의 약어입니다.

드롭아웃 정규화

신경망을 학습시키는 데 유용한 정규화의 한 형태입니다. 드롭아웃 정규화는 단일 경사 단계가 일어날 때마다 특정 네트워크 레이어의 유닛을 고정된 개수만큼 무작위로 선택하여 삭제합니다. 드롭아웃된 단위가 많을수록 정규화가 강력해집니다. 이 방식은 네트워크를 학습시켜 더 작은 네트워크로 이루어진 대규모 앙상블을 모방하도록 하는 방식과 비슷합니다. 자세한 내용은 드롭아웃: 신경망의 과적합을 방지하는 간단한 방법을 참고하세요.

동적

#fundamentals

자주 또는 지속적으로 수행되는 작업입니다. 머신러닝에서 동적과 온라인은 동의어입니다. 다음은 머신러닝에서 동적 및 온라인이 일반적으로 사용되는 경우입니다.

동적 모델 (또는 온라인 모델)은 자주 또는 지속적으로 재학습되는 모델입니다.
동적 학습 (또는 온라인 학습)은 자주 또는 지속적으로 학습하는 프로세스입니다.
동적 추론 (또는 온라인 추론)은 요청 시 예측을 생성하는 프로세스입니다.

동적 모델

#fundamentals

모델이 자주 (심지어 지속적으로) 재학습됩니다. 동적 모델은 변화하는 데이터에 지속적으로 적응하는 '평생 학습자'입니다. 동적 모델은 온라인 모델이라고도 합니다.

정적 모델과 대비되는 개념입니다.

E

즉시 실행

#TensorFlow

작업이 즉시 실행되는 TensorFlow 프로그래밍 환경입니다. 반대로 지연 실행에서 호출되는 작업은 명시적으로 평가될 때까지 실행되지 않습니다. 즉시 실행은 대부분의 프로그래밍 언어로 된 코드와 마찬가지로 명령형 인터페이스입니다. 즉시 실행 프로그램은 일반적으로 그래프 실행 프로그램보다 훨씬 쉽게 디버깅됩니다.

조기 중단

#fundamentals

학습 손실이 감소하기 전에 학습을 종료하는 정규화 방법입니다. 조기 중단에서는 검증 데이터 세트의 손실이 증가하기 시작하면(즉, 일반화 성능이 저하되면) 의도적으로 모델 학습을 중단합니다.

아이콘을 클릭하여 추가 메모를 확인하세요.

조기 중단은 직관적이지 않을 수 있습니다. 결국 손실이 계속 감소하는 동안 모델에 학습을 중단하라고 지시하는 것은 디저트가 완전히 구워지기 전에 요리사에게 요리를 중단하라고 지시하는 것과 같을 수 있습니다. 하지만 모델을 너무 오래 학습하면 과적합이 발생할 수 있습니다. 즉, 모델을 너무 오래 학습시키면 모델이 학습 데이터에 너무 잘 맞아 새 예시에 대한 예측을 제대로 하지 못할 수 있습니다.

조기 종료와 대비되는 개념입니다.

earth mover's distance (EMD)

#Metric

두 분포의 상대적 유사성을 나타내는 측정값입니다. 이동 거리(EMD)가 낮을수록 분포가 더 유사합니다.

편집 거리

#Metric

두 텍스트 문자열이 서로 얼마나 유사한지를 측정한 값입니다. 머신러닝에서 편집 거리는 다음과 같은 이유로 유용합니다.

편집 거리는 쉽게 계산할 수 있습니다.
편집 거리는 서로 유사한 것으로 알려진 두 문자열을 비교할 수 있습니다.
편집 거리는 서로 다른 문자열이 지정된 문자열과 얼마나 유사한지 확인할 수 있습니다.

편집 거리에는 여러 정의가 있으며 각 정의는 서로 다른 문자열 작업을 사용합니다. 예는 레벤슈타인 거리를 참고하세요.

Einsum 표기법

두 텐서를 결합하는 방법을 설명하는 효율적인 표기법입니다. 텐서는 한 텐서의 요소를 다른 텐서의 요소와 곱한 다음 곱을 합산하여 결합됩니다. Einsum 표기법은 기호를 사용하여 각 텐서의 축을 식별하며, 이러한 동일한 기호가 재배열되어 새로운 결과 텐서의 모양을 지정합니다.

NumPy는 일반적인 Einsum 구현을 제공합니다.

임베딩 레이어

#fundamentals

고차원 카테고리 특성을 학습하여 점진적으로 하위 차원 임베딩 벡터를 학습하는 특수 숨겨진 레이어 임베딩 레이어를 사용하면 신경망이 고차원 카테고리 특성으로만 학습하는 것보다 훨씬 효율적으로 학습할 수 있습니다.

예를 들어 지구에는 현재 약 73,000가지의 수종이 생식하고 있습니다. 나무 종이 모델의 특성이라고 가정해 보겠습니다. 그러면 모델의 입력 레이어에는 길이가 73,000인 원-핫 벡터가 포함됩니다. 예를 들어 baobab는 다음과 같이 표현될 수 있습니다.

73,000개 요소의 배열입니다. 처음 6,232개 요소는 값 0을 보유합니다. 다음 요소는 값 1을 보유합니다. 마지막 66,767개 요소는 0 값을 보유합니다.

73,000개 요소 배열은 매우 깁니다. 모델에 삽입 레이어를 추가하지 않으면 72,999개의 0을 곱해야 하므로 학습에 시간이 매우 오래 걸립니다. 임베딩 레이어가 12개의 차원으로 구성되도록 선택할 수 있습니다. 따라서 임베딩 레이어는 각 나무 종에 대한 새로운 임베딩 벡터를 점진적으로 학습합니다.

경우에 따라 해싱이 삽입 레이어의 합리적인 대안이 될 수 있습니다.

자세한 내용은 머신러닝 단기집중과정의 임베딩을 참고하세요.

임베딩 공간

고차원 벡터 공간의 특성이 매핑되는 d차원 벡터 공간입니다. 의도한 애플리케이션에 의미 있는 구조를 포착하도록 임베딩 공간이 학습됩니다.

두 임베딩의 내적은 유사성의 척도입니다.

임베딩 벡터

대체적으로 모든 숨겨진 레이어에서 가져온 부동 소수점 수의 배열로, 해당 숨겨진 레이어의 입력을 설명합니다. 임베딩 벡터는 임베딩 레이어에서 학습된 부동 소수점 숫자의 배열인 경우가 많습니다. 예를 들어 임베딩 레이어가 지구상의 73,000개 수종 각각에 대한 임베딩 벡터를 학습해야 한다고 가정해 보겠습니다. 다음 배열이 바오밥 나무의 임베딩 벡터일 수 있습니다.

각각 0.0~1.0 사이의 부동 소수점 숫자를 보유하는 12개 요소의 배열입니다.

임베딩 벡터는 무작위 숫자의 모음이 아닙니다. 임베딩 레이어는 학습 중에 신경망이 다른 가중치를 학습하는 방식과 유사하게 학습을 통해 이러한 값을 결정합니다. 배열의 각 요소는 나무 종의 특정 특성에 대한 평가입니다. 어떤 요소가 어떤 수종의 특징을 나타내나요? 사람이 판단하기는 매우 어렵습니다.

임베딩 벡터의 수학적으로 주목할 만한 부분은 유사한 항목이 유사한 부동 소수점 숫자 집합을 갖는다는 점입니다. 예를 들어 유사한 나무 종은 유사하지 않은 나무 종보다 더 유사한 부동 소수점 수 집합을 갖습니다. 레드우드와 세쿼이아는 관련이 있는 나무 종이므로 레드우드와 야자수보다 더 비슷한 부동 소수점 숫자를 갖습니다. 동일한 입력으로 모델을 재학습하더라도 모델을 재학습할 때마다 임베딩 벡터의 숫자가 변경됩니다.

창발적 행동

명시적으로 학습되지 않은 프롬프트에 대한 대답을 생성하는 LLM의 기능입니다.

경험적 누적 분포 함수 (eCDF 또는 EDF)

#Metric

실제 데이터 세트의 실증적 측정을 기반으로 하는 누적 분포 함수 x축을 따라 어느 지점에서든 함수의 값은 지정된 값보다 작거나 같은 데이터 세트의 관측치 비율입니다.

경험적 위험 최소화 (ERM)

학습 세트에서 손실을 최소화하는 함수를 선택합니다. 구조적 위험 최소화와 대비되는 개념입니다.

인코더

일반적으로 원시적이고 희소한 또는 외부 표현을 더 처리되고, 더 밀집되거나, 더 내부적인 표현으로 변환하는 모든 ML 시스템입니다.

인코더는 더 큰 모델의 구성요소인 경우가 많으며, 여기서 인코더는 디코더와 자주 페어링됩니다. 일부 트랜스포머는 인코더와 디코더를 페어링하지만, 인코더만 사용하거나 디코더만 사용하는 트랜스포머도 있습니다.

일부 시스템은 인코더의 출력을 분류 또는 회귀 네트워크의 입력으로 사용합니다.

시퀀스-투-시퀀스(Seq2Seq) 태스크에서 인코더는 입력 시퀀스를 가져와 내부 상태(벡터)를 반환합니다. 그런 다음 디코더는 이 내부 상태를 사용하여 다음 시퀀스를 예측합니다.

트랜스포머 아키텍처의 인코더 정의는 트랜스포머를 참고하세요.

자세한 내용은 머신러닝 단기집중과정의 LLM: 대규모 언어 모델이란 무엇인가요?를 참고하세요.

엔드포인트

서비스에 연결할 수 있는 네트워크 주소 지정 가능 위치 (일반적으로 URL)입니다.

자동화

독립적으로 학습된 모델 모음으로, 예측이 평균화되거나 집계됩니다. 대부분의 경우 앙상블은 단일 모델보다 더 나은 예측을 생성합니다. 예를 들어 랜덤 포레스트는 여러 결정 트리로 구성된 앙상블입니다. 모든 결정 포레스트가 앙상블은 아닙니다.

자세한 내용은 머신러닝 단기집중과정의 랜덤 포레스트를 참고하세요.

엔트로피

#df

#Metric

정보 이론에서 확률 분포가 얼마나 예측 불가능한지를 설명합니다. 또는 엔트로피는 각 예시에 포함된 정보의 양으로도 정의됩니다. 분포는 확률 변수의 모든 값이 동일할 가능성이 있을 때 가능한 가장 높은 엔트로피를 갖습니다.

가능한 값이 두 개인 집합('0'과 '1', 예를 들어 이진 분류 문제의 라벨)의 엔트로피는 다음 공식을 따릅니다.

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

각 항목의 의미는 다음과 같습니다.

H는 엔트로피입니다.
p는 '1' 예시의 비율입니다.
q는 '0' 예시의 비율입니다. q = (1 - p)입니다.
log는 일반적으로 log₂입니다. 이 경우 엔트로피 단위는 비트입니다.

예를 들어 다음을 가정합니다.

100개의 예에 값 '1'이 포함되어 있습니다.
300개의 예시에는 '0' 값이 포함되어 있습니다.

따라서 엔트로피 값은 다음과 같습니다.

p = 0.25
q = 0.75
H = (-0.25)log₂(0.25) - (0.75)log₂(0.75) = 0.81비트/예시

완벽하게 균형이 잡힌 집합 (예: '0' 200개와 '1' 200개)의 엔트로피는 예시당 1.0비트입니다. 세트가 불균형해질수록 엔트로피가 0.0에 가까워집니다.

결정 트리에서 엔트로피는 정보 획득을 공식화하여 분할기가 분류 결정 트리의 성장 중에 조건을 선택하도록 지원합니다.

다음과 엔트로피 비교:

지니 불순도
교차 엔트로피 손실 함수

엔트로피는 흔히 섀넌의 엔트로피라고 불립니다.

자세한 내용은 결정 트리 과정의 숫자 특징이 있는 이진 분류를 위한 정확한 분할기를 참고하세요.

환경

강화 학습에서 에이전트를 포함하고 에이전트가 해당 환경의 상태를 관찰할 수 있는 환경입니다. 예를 들어 표현된 환경이 체스와 같은 게임이거나 미로와 같은 실제 환경일 수 있습니다. 에이전트가 환경에 작업을 적용하면 환경이 상태 간에 전환됩니다.

환경 그라운딩

에이전트 루프의 피드백 단계에서 에이전트로 다시 전달되는 원시 데이터입니다. 예를 들어 에이전트의 환경 그라운딩에는 오류 로그나 새로 생성된 웹페이지의 HTML이 포함될 수 있습니다.

에피소드

강화 학습에서 에이전트가 환경을 학습하기 위해 반복적으로 시도하는 각각의 시도입니다.

에피소드 기억

LLM에서 학습 후 학습한 정보입니다. 반면 의미 기억은 학습 중에 학습한 정보입니다. 에피소드 기억은 일시적일 수도 있고 (예: 현재 챗봇 세션 내에서만 지속됨) 더 영구적일 수도 있습니다(예: 사용자가 호출하는 각 세션에 대해 지속됨).

절차적 기억도 참고하세요.

에포크

#fundamentals

각 예가 한 번 처리되도록 전체 학습 세트에 대한 전체 학습 패스입니다.

에포크는 N/배치 크기 학습 반복을 나타내며, 여기서 N은 총 예시 수입니다.

예를 들어 다음과 같이 가정해 보겠습니다.

데이터 세트는 1,000개의 예시로 구성됩니다.
배치 크기는 50개 예시입니다.

따라서 단일 에포크에는 20번의 반복이 필요합니다.

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

자세한 내용은 머신러닝 단기집중과정의 선형 회귀: 하이퍼파라미터를 참고하세요.

epsilon greedy 정책

강화 학습에서 무작위 정책을 입실론 확률로 따르거나 그렇지 않은 경우 탐욕 정책을 따르는 정책입니다. 예를 들어 입실론이 0.9이면 정책은 90% 의 시간 동안 무작위 정책을 따르고 10% 의 시간 동안 탐욕 정책을 따릅니다.

연속된 에피소드에서 알고리즘은 무작위 정책을 따르는 것에서 탐욕스러운 정책을 따르는 것으로 전환하기 위해 입실론 값을 줄입니다. 정책을 전환함으로써 에이전트는 먼저 환경을 무작위로 탐색한 다음 무작위 탐색 결과를 탐욕스럽게 활용합니다.

기회의 평등

#responsible

#Metric

모델이 민감한 속성의 모든 값에 대해 원하는 결과를 동일하게 잘 예측하는지 평가하는 공정성 측정항목 즉, 모델의 바람직한 결과가 양성 클래스인 경우 목표는 모든 그룹에 대해 참양성률이 동일하도록 하는 것입니다.

기회의 균등은 균등화된 오즈와 관련이 있으며, 이를 위해서는 참양성률과 거짓양성률이 모든 그룹에 대해 동일해야 합니다.

글럽더브드립 대학교에서 소인국인과 거인국인을 모두 엄격한 수학 프로그램에 입학시킨다고 가정해 보겠습니다. 릴리풋의 중등학교에서는 수학 수업의 강력한 커리큘럼을 제공하며, 대부분의 학생이 대학 프로그램에 적합합니다. 브로브딩나그의 중등학교에서는 수학 수업을 전혀 제공하지 않으므로 자격을 갖춘 학생이 훨씬 적습니다. 자격 요건을 갖춘 학생이 릴리풋 사람인지 브로브딩낵 사람인지에 관계없이 입학할 가능성이 동일한 경우 국적 (릴리풋 또는 브로브딩낵)과 관련하여 '입학'이라는 선호 라벨에 대한 기회 균등이 충족됩니다.

예를 들어 100명의 소인과 100명의 거인이 Glubbdubdrib University에 지원하고 입학 결정이 다음과 같이 내려진다고 가정해 보겠습니다.

표 1. 릴리풋 지원자 (90% 가 자격 요건을 충족함)

	적격성 확인됨	자격 없음
허용됨	45	3
거부됨	45	7
합계	90	10
자격 요건을 충족하는 학생의 입학 비율: 45/90 = 50% 자격 요건을 충족하지 않는 학생의 거부 비율: 7/10 = 70% 릴리풋 학생의 총 입학 비율: (45+3)/100 = 48%

표 2. 브로브딩나그 지원자 (10% 가 자격 요건을 충족함):

	적격성 확인됨	자격 없음
허용됨	5	9
거부됨	5	81
합계	10	90
자격 요건을 충족하는 학생 중 합격자 비율: 5/10 = 50% 자격 요건을 충족하지 않는 학생 중 불합격자 비율: 81/90 = 90% Brobdingnagian 학생 중 합격자 비율: (5+9)/100 = 14%

위의 예에서는 자격을 갖춘 릴리풋인과 브로브딩나그인 모두 입학할 확률이 50% 이므로 자격을 갖춘 학생의 입학 기회가 균등하게 제공됩니다.

기회의 균등은 충족되지만 다음 두 가지 공정성 측정항목은 충족되지 않습니다.

인구통계학적 균형: 릴리풋과 브로브딩낵의 학생이 대학에 입학하는 비율이 다릅니다. 릴리풋 학생의 48% 가 입학하지만 브로브딩낵 학생의 경우 14% 만 입학합니다.
균등한 기회: 자격 요건을 충족하는 소인국 학생과 거인국 학생 모두 입학할 기회가 동일하지만 자격 요건을 충족하지 않는 소인국 학생과 거인국 학생 모두 거부될 기회가 동일하다는 추가 제약 조건은 충족되지 않습니다. 자격이 없는 Lilliputian의 거부율은 70% 인 반면 자격이 없는 Brobdingnagian의 거부율은 90% 입니다.

자세한 내용은 머신러닝 단기집중과정의 공정성: 기회의 평등을 참고하세요.

균등한 기회

#responsible

#Metric

모델이 양성 클래스 및 음성 클래스 모두에 대해 민감한 속성의 모든 값에 대해 결과를 동일하게 잘 예측하는지 평가하는 공정성 측정항목입니다. 한 클래스 또는 다른 클래스만 독점적으로 평가하지 않습니다. 즉, 모든 그룹의 참양성률과 거짓음성률이 동일해야 합니다.

균등화된 오즈는 단일 클래스 (양수 또는 음수)의 오류율에만 초점을 맞추는 기회의 균등과 관련이 있습니다.

예를 들어 Glubbdubdrib University에서 Lilliputians와 Brobdingnagians를 모두 엄격한 수학 프로그램에 입학시킨다고 가정해 보겠습니다. 릴리풋의 중등학교에서는 수학 수업의 강력한 커리큘럼을 제공하며, 대다수의 학생이 대학 프로그램에 적합합니다. 브로브딩나그의 중등학교에서는 수학 수업을 전혀 제공하지 않으므로 자격을 갖춘 학생이 훨씬 적습니다. 지원자가 소인인지 거인인지에 관계없이 자격이 있는 경우 프로그램에 합격할 가능성이 동일하고 자격이 없는 경우 거부될 가능성이 동일하다면 균등한 기회가 충족됩니다.

100명의 소인과 100명의 거인이 글럽덥드립 대학에 지원하고 입학 결정이 다음과 같이 내려진다고 가정해 보겠습니다.

표 3. 릴리풋 지원자 (90% 가 자격 요건을 충족함)

	적격성 확인됨	자격 없음
허용됨	45	2
거부됨	45	8
합계	90	10
자격 요건을 충족하는 학생의 합격률: 45/90 = 50% 자격 요건을 충족하지 않는 학생의 불합격률: 8/10 = 80% 릴리풋 학생의 총 합격률: (45+2)/100 = 47%

표 4. 브로브딩나그 지원자 (10% 가 자격 요건을 충족함):

	적격성 확인됨	자격 없음
허용됨	5	18
거부됨	5	72
합계	10	90
자격 요건을 충족하는 학생 중 합격한 학생의 비율: 5/10 = 50% 자격 요건을 충족하지 않는 학생 중 불합격한 학생의 비율: 72/90 = 80% Brobdingnagian 학생 중 합격한 학생의 총 비율: (5+18)/100 = 23%

자격 요건을 충족하는 소인국 학생과 거인국 학생 모두 입학할 확률이 50% 이고 자격 요건을 충족하지 않는 소인국 학생과 거인국 학생 모두 거부될 확률이 80% 이므로 균등한 기회가 충족됩니다.

균등화된 오즈는 '감독 학습의 기회 균등'에서 다음과 같이 공식적으로 정의됩니다. '예측 변수 Ŷ이 보호 속성 A 및 결과 Y와 관련하여 균등화된 오즈를 충족하는 경우는 Ŷ과 A가 Y에 따라 독립적인 경우입니다.'

에스티메이터

#TensorFlow

지원 중단된 TensorFlow API입니다. Estimator 대신 tf.keras를 사용하세요.

평가

#generativeAI

#Metric

주로 LLM 평가의 약어로 사용됩니다. 더 광범위하게 평가는 모든 형태의 평가의 약어입니다.

평가

#generativeAI

#Metric

모델의 품질을 측정하거나 서로 다른 모델을 비교하는 프로세스입니다.

지도 머신러닝 모델을 평가하려면 일반적으로 검증 세트와 테스트 세트를 기준으로 판단합니다. LLM 평가에는 일반적으로 더 광범위한 품질 및 안전성 평가가 포함됩니다.

평가자 에이전트

#agent

결과가 확정되기 전에 다른 에이전트의 결과를 평가하는 에이전트입니다. 한 에이전트는 제품을 제조하고 별도의 에이전트(평가자 에이전트)는 출시 전에 해당 제품을 테스트한다고 생각하면 됩니다.

비평가는 평가자 에이전트의 동의어입니다.

일치검색

#Metric

모델의 출력이 정답 또는 참조 텍스트와 정확히 일치하거나 일치하지 않는 전무후무한 측정항목입니다. 예를 들어 정답이 orange인 경우 완전 일치를 충족하는 유일한 모델 출력은 orange입니다.

정확한 일치로 출력이 시퀀스(순위가 지정된 항목 목록)인 모델을 평가할 수도 있습니다. 일반적으로 일치검색을 위해서는 생성된 순위 목록이 그라운드 트루스와 정확히 일치해야 합니다. 즉, 두 목록의 각 항목이 동일한 순서여야 합니다. 하지만 정답이 여러 개의 올바른 시퀀스로 구성된 경우 정확한 일치에는 모델의 출력이 올바른 시퀀스 중 하나와 일치하기만 하면 됩니다.

예시

#fundamentals

특성의 한 행 값과 라벨 값(있는 경우) 지도 학습의 예는 다음 두 가지 일반 카테고리로 나뉩니다.

라벨이 지정된 예는 하나 이상의 특성과 하나의 라벨로 구성됩니다. 라벨이 지정된 예가 학습에 사용됩니다.
라벨이 없는 예는 하나 이상의 특성으로 구성되지만 라벨은 없습니다. 라벨이 없는 예는 추론 중에 사용됩니다.

예를 들어 날씨 조건이 학생 시험 점수에 미치는 영향을 파악하도록 모델을 학습시킨다고 가정해 보겠습니다. 다음은 라벨이 지정된 세 가지 예입니다.

기능			라벨
온도	습도	압력	테스트 점수
15	47	998	좋음
19	34	1020	매우 좋음
18	92	1012	나쁨

다음은 라벨이 지정되지 않은 세 가지 예입니다.

온도	습도	압력
12	62	1014
21	47	1017
19	41	1021

데이터 세트의 행은 일반적으로 예시의 원시 소스입니다. 즉, 예시는 일반적으로 데이터 세트의 열 하위 집합으로 구성됩니다. 또한 예의 특성에는 특성 교차와 같은 합성 특성도 포함될 수 있습니다.

자세한 내용은 머신러닝 소개 과정의 감독 학습을 참고하세요.

경험 리플레이

강화 학습에서 학습 데이터의 시간적 상관관계를 줄이는 데 사용되는 DQN 기법입니다. 에이전트는 상태 전환을 리플레이 버퍼에 저장한 다음 리플레이 버퍼에서 전환을 샘플링하여 학습 데이터를 만듭니다.

실험자 편향

#responsible

확증 편향을 참고하세요.

경사 폭발 문제

심층신경망 (특히 순환 신경망)의 기울기가 놀라울 정도로 가파르게 (높게) 되는 경향입니다. 경사가 가파르면 심층 신경망의 각 노드의 가중치가 매우 크게 업데이트되는 경우가 많습니다.

경사 폭발 문제가 있는 모델은 학습하기가 어렵거나 불가능해집니다. 그라데이션 클리핑을 사용하면 이 문제를 완화할 수 있습니다.

경사 소멸 문제와 비교해 보세요.

Extreme Summarization (xsum)

#Metric

단일 문서를 요약하는 LLM의 기능을 평가하기 위한 데이터 세트입니다. 데이터 세트의 각 항목은 다음으로 구성됩니다.

영국 방송 공사 (BBC)에서 작성한 문서입니다.
해당 문서의 한 문장 요약입니다.

자세한 내용은 세부정보는 필요 없고 요약만 알려 줘! Topic-Aware Convolutional Neural Networks for Extreme Summarization.

F

F₁

#Metric

정밀도와 재현율을 모두 사용하는 '롤업' 이진 분류 측정항목입니다. 공식은 다음과 같습니다.

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

아이콘을 클릭하여 예를 확인하세요.

정밀도와 재현율이 다음과 같은 값을 갖는다고 가정해 보겠습니다.

precision = 0.6
recall = 0.4

F₁은 다음과 같이 계산합니다.

$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

정밀도와 재현율이 상당히 유사한 경우 (위 예시 참고) F₁은 평균에 가깝습니다. 정밀도와 재현율이 크게 다른 경우 F₁은 더 낮은 값에 더 가깝습니다. 예를 들면 다음과 같습니다.

precision = 0.9
recall = 0.1

$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

사실성

#generativeAI

ML 세계에서 출력이 현실에 기반한 모델을 설명하는 속성입니다. 사실성은 측정항목이 아닌 개념입니다. 예를 들어 대규모 언어 모델에 다음 프롬프트를 전송한다고 가정해 보겠습니다.

소금의 화학식은 무엇인가요?

사실성을 최적화하는 모델은 다음과 같이 대답합니다.

NaCl

모든 모델이 사실에 기반해야 한다고 가정하기 쉽습니다. 하지만 다음과 같은 일부 프롬프트는 생성형 AI 모델이 사실성보다는 창의성을 최적화하도록 해야 합니다.

우주비행사와 애벌레에 관한 5행 희시를 들려 줘.

결과로 나오는 운율은 현실에 기반하지 않을 가능성이 높습니다.

그라운딩과 대비되는 개념입니다.

공정성 제약 조건

#responsible

하나 이상의 공정성 정의가 충족되도록 알고리즘에 제약 조건을 적용합니다. 공정성 제약 조건의 예는 다음과 같습니다.

모델의 출력을 사후 처리합니다.
공정성 측정항목 위반에 대한 페널티를 통합하도록 손실 함수를 변경합니다.
최적화 문제에 수학적 제약 조건을 직접 추가합니다.

공정성 측정항목

#responsible

#Metric

측정 가능한 '공정성'의 수학적 정의 일반적으로 사용되는 공정성 측정항목은 다음과 같습니다.

균등화된 오즈
예측 패리티
반사실적 공정성
인구통계 동등성

많은 공정성 측정항목은 상호 배타적입니다. 공정성 측정항목의 비호환성을 참고하세요.

거짓음성 (FN)

#fundamentals

#Metric

모델에서 네거티브 클래스로 잘못 예측한 예입니다. 예를 들어 모델에서 특정 이메일 메시지가 스팸이 아닌 것으로(네거티브 클래스) 예측했지만 해당 이메일 메시지가 실제로 스팸인 경우가 여기에 해당합니다.

거짓음성률

#Metric

모델이 네거티브 클래스로 잘못 예측한 실제 포지티브 예의 비율입니다. 다음 공식은 거짓 음성 비율을 계산합니다.

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

자세한 내용은 머신러닝 단기집중과정의 기준점 및 혼동 행렬을 참고하세요.

거짓양성 (FP)

#fundamentals

#Metric

모델에서 포지티브 클래스로 잘못 예측한 예입니다. 예를 들어 모델에서 특정 이메일 메시지가 스팸 (포지티브 클래스)인 것으로 예측했지만 실제로는 스팸이 아닌 경우가 여기에 해당합니다.

자세한 내용은 머신러닝 단기집중과정의 기준점 및 혼동 행렬을 참고하세요.

거짓양성률 (FPR)

#fundamentals

#Metric

모델이 포지티브 클래스로 잘못 예측한 실제 네거티브 예의 비율입니다. 다음 공식은 거짓양성률을 계산합니다.

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

거짓양성률은 ROC 곡선의 x축입니다.

자세한 내용은 머신러닝 단기집중과정의 분류: ROC 및 AUC를 참고하세요.

빠른 감쇠

#generativeAI

LLM의 성능을 개선하는 학습 기법입니다. 빠른 감소는 학습 중에 학습률을 빠르게 감소시키는 것을 의미합니다. 이 전략은 모델이 학습 데이터에 과적합되는 것을 방지하고 일반화를 개선합니다.

특징

#fundamentals

머신러닝 모델의 입력 변수입니다. example은 하나 이상의 특성으로 구성됩니다. 예를 들어 날씨 조건이 학생 시험 점수에 미치는 영향을 파악하기 위해 모델을 학습한다고 가정해 보겠습니다. 다음 표에는 각각 3개의 특징과 하나의 라벨이 포함된 세 가지 예가 나와 있습니다.

기능			라벨
온도	습도	압력	테스트 점수
15	47	998	92
19	34	1020	84
18	92	1012	87

라벨과 대비되는 개념입니다.

자세한 내용은 머신러닝 소개 과정의 감독 학습을 참고하세요.

특성 교차

#fundamentals

범주형 또는 버케팅된 특성을 '교차'하여 형성된 합성 특성입니다.

예를 들어 다음 네 가지 버킷 중 하나로 온도를 나타내는 '기분 예측' 모델을 생각해 보겠습니다.

freezing
chilly
temperate
warm

다음 세 버킷 중 하나로 풍속을 나타냅니다.

still
light
windy

특성 교차가 없으면 선형 모델은 앞의 7가지 다양한 버킷 각각에 대해 독립적으로 학습됩니다. 따라서 모델은 예를 들어 windy에 대한 학습과 독립적으로 freezing에 대해 학습합니다.

또는 온도와 풍속의 특성 교차를 만들 수도 있습니다. 이 합성 기능에는 다음과 같은 12가지 가능한 값이 있습니다.

freezing-still
freezing-light
freezing-windy
chilly-still
chilly-light
chilly-windy
temperate-still
temperate-light
temperate-windy
warm-still
warm-light
warm-windy

특성 교차 덕분에 모델은 freezing-windy일과 freezing-still일 간의 기분 차이를 학습할 수 있습니다.

각각 다양한 버킷이 많은 두 가지 특징에서 합성 특징을 만들면 결과 특징 교차에 가능한 조합이 엄청나게 많아집니다. 예를 들어 한 특성에 1,000개의 버킷이 있고 다른 특성에 2,000개의 버킷이 있는 경우 결과 특성 교차에는 2,000,000개의 버킷이 있습니다.

공식적으로 크로스는 카티전 프로덕트입니다.

특성 교차는 주로 선형 모델과 함께 사용되며 신경망에서는 거의 사용되지 않습니다.

자세한 내용은 머신러닝 단기집중과정의 범주형 데이터: 특성 교차를 참고하세요.

특성 추출 단계를 포함합니다

#fundamentals

#TensorFlow

다음 단계를 포함하는 프로세스:

모델을 학습시키는 데 유용할 특성이 무엇인지 판단합니다.
데이터 세트의 원시 데이터를 이러한 특성의 효율적인 버전으로 변환합니다.

예를 들어 temperature이 유용한 기능일 수 있다고 판단할 수 있습니다. 그런 다음 버킷팅을 실험하여 모델이 다양한 temperature 범위에서 학습할 수 있는 내용을 최적화할 수 있습니다.

특성 추출을 특징 추출 또는 특성 생성이라고도 합니다.

TensorFlow에 관한 추가 메모를 보려면 아이콘을 클릭하세요.

TensorFlow에서 특성 추출은 일반적으로 원시 로그 파일 항목을 tf.Example 프로토콜 버퍼로 변환하는 것을 의미합니다. tf.Transform도 참고하세요.

자세한 내용은 머신러닝 단기집중과정의 숫자 데이터: 모델이 특징 벡터를 사용하여 데이터를 수집하는 방법을 참고하세요.

특성 추출

다음과 같은 정의로 중복 정의된 용어입니다.

비지도 또는 사전 학습된 모델 (예: 신경망의 히든 레이어 값)에서 계산된 중간 특성 표현을 검색하여 다른 모델에서 입력으로 사용합니다.
특성 추출의 동의어입니다.

특성 중요도

#df

#Metric

변수 중요도의 동의어입니다.

기능 세트

#fundamentals

머신러닝 모델에서 학습에 사용하는 특성 그룹입니다. 예를 들어 주택 가격을 예측하는 모델의 간단한 특성 집합은 우편번호, 부동산 크기, 부동산 상태로 구성될 수 있습니다.

기능 사양

#TensorFlow

tf.Example 프로토콜 버퍼에서 특성 데이터를 추출하는 데 필요한 정보를 설명합니다. tf.Example 프로토콜 버퍼는 데이터의 컨테이너일 뿐이므로 다음을 지정해야 합니다.

추출할 데이터 (즉, 특성의 키)
데이터 유형 (예: float 또는 int)
길이 (고정 또는 가변)

특성 벡터

#fundamentals

예을 구성하는 특성 값의 배열입니다. 특성 벡터는 학습 및 추론 중에 입력됩니다. 예를 들어 이산 특성이 두 개인 모델의 특성 벡터는 다음과 같을 수 있습니다.

[0.92, 0.56]

4개의 레이어: 입력 레이어, 히든 레이어 2개, 출력 레이어 1개
입력 레이어에는 두 개의 노드가 포함되어 있으며, 하나에는 0.92 값이 포함되고 다른 하나에는 0.56 값이 포함됩니다.

각 예시에서는 특성 벡터에 다른 값을 제공하므로 다음 예시의 특성 벡터는 다음과 같을 수 있습니다.

[0.73, 0.49]

특성 추출은 특성 벡터에서 특성을 표현하는 방법을 결정합니다. 예를 들어 가능한 값이 5개인 이진 범주형 특성은 원-핫 인코딩으로 표현할 수 있습니다. 이 경우 특정 예의 특징 벡터 부분은 다음과 같이 0이 4개이고 세 번째 위치에 1.0이 하나로 구성됩니다.

[0.0, 0.0, 1.0, 0.0, 0.0]

또 다른 예로 모델이 다음 세 가지 특성으로 구성되어 있다고 가정해 보겠습니다.

원-핫 인코딩으로 표현된 가능한 값이 5개인 이진 범주형 특성(예: [0.0, 1.0, 0.0, 0.0, 0.0])
원-핫 인코딩으로 표현된 가능한 값이 3개인 또 다른 바이너리 범주형 특성(예: [0.0, 0.0, 1.0])
부동 소수점 특징입니다(예: 8.3).

이 경우 각 예시의 특징 벡터는 9개 값으로 표현됩니다. 위 목록의 예시 값을 고려할 때 특징 벡터는 다음과 같습니다.

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

자세한 내용은 머신러닝 단기집중과정의 숫자 데이터: 모델이 특징 벡터를 사용하여 데이터를 수집하는 방법을 참고하세요.

기능화

문서나 동영상과 같은 입력 소스에서 특성을 추출하고 이러한 특성을 특성 벡터에 매핑하는 프로세스입니다.

일부 ML 전문가는 특성화를 특성 추출 또는 특징 추출의 동의어로 사용합니다.

제휴 학습

스마트폰과 같은 기기에 상주하는 분산화된 예시를 사용하여 머신러닝 모델을 학습시키는 분산식 머신러닝 접근방식입니다. 제휴 학습에서는 기기의 하위 집합이 중앙 조정 서버에서 현재 모델을 다운로드합니다. 기기는 기기에 저장된 예시를 사용하여 모델을 개선합니다. 그런 다음 기기는 모델 개선사항 (학습 예시는 아님)을 조정 서버에 업로드합니다. 여기서 모델 개선사항은 다른 업데이트와 집계되어 개선된 전역 모델을 생성합니다. 집계 후에는 기기에서 계산한 모델 업데이트가 더 이상 필요하지 않으며 삭제할 수 있습니다.

학습 예는 업로드되지 않으므로 제휴 학습은 집중적인 데이터 수집 및 데이터 최소화라는 개인 정보 보호 원칙을 따릅니다.

자세한 내용은 제휴 학습 만화(만화 맞습니다)를 참고하세요.

의견 보내기

#agent

에이전트가 행동 단계에서 취한 조치를 평가하는 에이전트 루프의 단계입니다. 예를 들어 에이전트가 행동 단계에서 API 요청을 보낸 경우 피드백 단계에서 API 응답이 성공했는지 확인할 수 있습니다.

피드백 루프

#fundamentals

머신러닝에서 모델의 예측이 동일한 모델 또는 다른 모델의 학습 데이터에 영향을 미치는 상황입니다. 예를 들어 영화를 추천하는 모델은 사람들이 보는 영화에 영향을 미치고, 이는 후속 영화 추천 모델에 영향을 미칩니다.

자세한 내용은 머신러닝 단기집중과정의 프로덕션 ML 시스템: 질문하기를 참고하세요.

순방향 신경망 (FFN)

순환 또는 재귀 연결이 없는 신경망입니다. 예를 들어 기존 심층신경망은 순방향 신경망입니다. 순환되는 순환 신경망과 대비되는 개념입니다.

퓨샷 학습

객체 분류에 자주 사용되는 머신러닝 접근 방식으로, 소수의 학습 예시만으로 효과적인 분류 모델을 학습하도록 설계되었습니다.

원샷 학습 및 제로샷 학습도 참고하세요.

퓨샷 프롬프팅

#generativeAI

대규모 언어 모델이 응답해야 하는 방식을 보여주는 두 개 이상의 예시('몇 개')가 포함된 프롬프트 예를 들어 다음 긴 프롬프트에는 대규모 언어 모델이 질문에 답변하는 방법을 보여주는 두 가지 예시가 포함되어 있습니다.

하나의 프롬프트의 일부	참고
`지정된 국가의 공식 통화는 무엇인가요?`	LLM이 답변해야 하는 질문입니다.
`프랑스: EUR`	예를 들어 보겠습니다.
`영국: GBP`	또 다른 예시
`인도:`	실제 쿼리입니다.

퓨샷 프롬프팅은 일반적으로 제로샷 프롬프팅 및 원샷 프롬프팅보다 더 바람직한 결과를 생성합니다. 하지만 퓨샷 프롬프트에는 더 긴 프롬프트가 필요합니다.

퓨샷 프롬프팅은 프롬프트 기반 학습에 적용되는 퓨샷 학습의 한 형태입니다.

자세한 내용은 머신러닝 단기집중과정의 프롬프트 엔지니어링을 참고하세요.

바이올린

침습적인 코드나 인프라 없이 함수와 클래스의 값을 설정하는 Python 우선 구성 라이브러리입니다. Pax 및 기타 ML 코드베이스의 경우 이러한 함수와 클래스는 모델과 학습 초매개변수를 나타냅니다.

Fiddle은 머신러닝 코드베이스가 일반적으로 다음과 같이 나뉜다고 가정합니다.

레이어와 옵티마이저를 정의하는 라이브러리 코드
라이브러리를 호출하고 모든 것을 연결하는 데이터 세트 '글루' 코드

Fiddle은 평가되지 않고 변경 가능한 형식으로 글루 코드의 호출 구조를 캡처합니다.

세부 조정

#generativeAI

선행 학습된 모델에서 이루어지는 작업별 두 번째 학습으로, 구체적인 사용 사례에 맞춰 파라미터를 세부적으로 조정합니다. 예를 들어 일부 대규모 언어 모델의 전체 학습 시퀀스는 다음과 같습니다.

사전 학습: 모든 영어 Wikipedia 페이지와 같은 방대한 일반 데이터 세트를 기반으로 대규모 언어 모델을 학습합니다.
미세 조정: 의료 질문에 응답하는 등 특정 작업을 수행하도록 선행 학습된 모델을 학습시킵니다. 미세 조정에는 일반적으로 특정 작업에 초점을 맞춘 수백 또는 수천 개의 예가 포함됩니다.

또 다른 예로 대형 이미지 모델의 전체 학습 시퀀스는 다음과 같습니다.

사전 학습: Wikimedia Commons의 모든 이미지와 같은 방대한 일반 이미지 데이터 세트에서 대규모 이미지 모델을 학습합니다.
미세 조정: 범고래 이미지를 생성하는 등 특정 작업을 수행하도록 사전 학습된 모델을 학습시킵니다.

미세 조정에는 다음 전략의 조합이 포함될 수 있습니다.

사전 학습 모델의 기존 파라미터를 모두 수정합니다. 이를 전체 미세 조정이라고도 합니다.
사전 학습된 모델의 기존 파라미터 중 일부(일반적으로 출력 레이어에 가장 가까운 레이어)만 수정하고 다른 기존 파라미터 (일반적으로 입력 레이어에 가장 가까운 레이어)는 변경하지 않습니다. 파라미터 효율적인 조정을 참고하세요.
일반적으로 출력 레이어에 가장 가까운 기존 레이어 위에 레이어를 추가합니다.

세부 조정은 전이 학습의 한 형태입니다. 따라서 파인 튜닝에서는 사전 학습된 모델을 학습하는 데 사용된 손실 함수나 모델 유형과 다른 손실 함수나 모델 유형을 사용할 수 있습니다. 예를 들어 사전 학습된 대형 이미지 모델을 미세 조정하여 입력 이미지의 새 수를 반환하는 회귀 모델을 만들 수 있습니다.

다음 용어와 미세 조정의 비교 및 대조:

증류
프롬프트 기반 학습

자세한 내용은 머신러닝 단기집중과정의 미세 조정을 참고하세요.

플래시 모델

#generativeAI

속도와 짧은 지연 시간에 최적화된 비교적 작은 Gemini 모델 제품군입니다. Flash 모델은 빠른 응답과 높은 처리량이 중요한 다양한 애플리케이션을 위해 설계되었습니다.

플랙스

JAX를 기반으로 빌드된 딥 러닝을 위한 고성능 오픈소스 라이브러리입니다. Flax는 신경망을 학습하는 함수와 성능을 평가하는 방법을 제공합니다.

Flaxformer

Flax를 기반으로 빌드되었으며 자연어 처리 및 멀티모달 연구를 위해 설계된 오픈소스 Transformer 라이브러리입니다.

게이트 삭제

장기 단기 기억 셀을 통해 정보의 흐름을 규제하는 부분입니다. 망각 게이트는 셀 상태에서 삭제할 정보를 결정하여 컨텍스트를 유지합니다.

파운데이션 모델

#generativeAI

#Metric

방대하고 다양한 학습 세트로 학습된 매우 큰 사전 학습된 모델입니다. 파운데이션 모델은 다음을 모두 수행할 수 있습니다.

다양한 요청에 잘 응답합니다.
추가 미세 조정 또는 기타 맞춤설정을 위한 기본 모델로 사용

즉, 파운데이션 모델은 일반적인 의미에서 이미 매우 유능하지만 특정 작업에 더욱 유용하도록 추가로 맞춤설정할 수 있습니다.

성공 비율

#generativeAI

#Metric

ML 모델의 생성된 텍스트를 평가하는 측정항목입니다. 성공 비율은 '성공' 생성 텍스트 출력 수를 생성된 총 텍스트 출력 수로 나눈 값입니다. 예를 들어 대규모 언어 모델이 코드 블록 10개를 생성했는데 그중 5개가 성공했다면 성공 비율은 50%입니다.

성공률은 통계 전반에서 광범위하게 유용하지만 ML에서는 이 측정항목이 주로 코드 생성이나 수학 문제와 같은 검증 가능한 작업을 측정하는 데 유용합니다.

전체 소프트맥스

softmax의 동의어입니다.

후보 샘플링과 대비되는 개념입니다.

자세한 내용은 머신러닝 단기집중과정의 신경망: 다중 클래스 분류를 참고하세요.

완전 연결 레이어

각 노드가 후속 히든 레이어의 모든 노드에 연결된 히든 레이어

완전 연결 레이어를 밀집 레이어라고도 합니다.

함수 변환

함수를 입력으로 받아 변환된 함수를 출력으로 반환하는 함수입니다. JAX는 함수 변환을 사용합니다.

G

GAN

생성적 적대 신경망의 약어입니다.

Gemini

#generativeAI

Google의 가장 강력한 AI로 구성된 생태계 이 생태계의 요소는 다음과 같습니다.

다양한 Gemini 모델
Gemini 모델과의 대화형 인터페이스입니다. 사용자가 프롬프트를 입력하면 Gemini가 해당 프롬프트에 대답합니다.
다양한 Gemini API
Gemini 모델을 기반으로 하는 다양한 비즈니스 제품(예: Google Cloud를 위한 Gemini)

Gemini 모델

#generativeAI

#agent

Google의 최첨단 트랜스포머 기반 멀티모달 모델입니다. Gemini 모델은 에이전트와 통합되도록 특별히 설계되었습니다.

사용자는 대화형 대화 인터페이스와 SDK를 비롯한 다양한 방식으로 Gemini 모델과 상호작용할 수 있습니다.

Gemma

#generativeAI

Gemini 모델을 만드는 데 사용된 것과 동일한 연구 및 기술로 빌드된 경량 개방형 모델 제품군입니다. 다양한 Gemma 모델을 사용할 수 있으며 각 모델은 시각, 코드, 명령 준수와 같은 다양한 기능을 제공합니다. 자세한 내용은 Gemma를 참고하세요.

생성형 AI

#generativeAI

생성형 AI의 약어입니다.

일반화

#fundamentals

모델이 이전에 접하지 못한 새로운 데이터에 대해 올바른 예측을 수행하는 능력입니다. 일반화할 수 있는 모델은 과적합된 모델과는 반대입니다.

아이콘을 클릭하여 추가 메모를 확인하세요.

학습 세트의 예시를 사용하여 모델을 학습시킵니다. 따라서 모델은 학습 세트의 데이터 특성을 학습합니다. 일반화는 기본적으로 모델이 학습 세트에 없는 예에 대해 적절한 예측을 할 수 있는지 묻습니다.

일반화를 장려하기 위해 정규화는 모델이 학습 세트의 데이터 특성에 정확하게 학습하지 않도록 지원합니다.

자세한 내용은 머신러닝 단기집중과정의 일반화를 참고하세요.

일반화 곡선

#fundamentals

반복 수의 함수로 학습 손실과 검증 손실을 모두 표시한 그래프

일반화 곡선을 사용하면 가능한 과적합을 감지하는 데 도움이 됩니다. 예를 들어 다음 일반화 곡선은 검증 손실이 학습 손실보다 훨씬 높아지므로 과적합을 암시합니다.

y축에 손실 라벨이 지정되고 x축에 반복 라벨이 지정되는 데카르트 그래프입니다. 두 개의 플롯이 표시됩니다. 한 플롯에는 학습 손실이 표시되고 다른 플롯에는 검증 손실이 표시됩니다.
두 플롯은 비슷하게 시작하지만 학습 손실이 검증 손실보다 훨씬 낮아집니다.

자세한 내용은 머신러닝 단기집중과정의 일반화를 참고하세요.

일반화 선형 모델

가우시안 노이즈를 기반으로 하는 최소 제곱 회귀 모델을 포아송 노이즈 또는 범주형 노이즈와 같은 다른 유형의 노이즈를 기반으로 하는 다른 유형의 모델로 일반화한 것입니다. 일반화 선형 모델의 예는 다음과 같습니다.

로지스틱 회귀
다중 클래스 회귀
최소 제곱 회귀

볼록 최적화를 통해 일반화 선형 모델의 매개변수를 구할 수 있습니다.

일반화 선형 모델에는 다음과 같은 속성이 있습니다.

최적화된 최소 제곱 회귀 모델의 평균 예측은 학습 데이터의 평균 라벨과 동일합니다.
최적화된 로지스틱 회귀 모델이 예측하는 평균적인 확률은 학습 데이터의 평균 라벨과 동일합니다.

일반화 선형 모델의 성능은 특성에 따라 제한됩니다. 일반화 선형 모델은 심층 모델과 달리 '새로운 특성을 학습'하지 못합니다.

생성된 텍스트

#generativeAI

일반적으로 ML 모델이 출력하는 텍스트입니다. 대규모 언어 모델을 평가할 때 일부 측정항목은 생성된 텍스트와 참조 텍스트를 비교합니다. 예를 들어 ML 모델이 프랑스어를 네덜란드어로 얼마나 효과적으로 번역하는지 확인하려고 한다고 가정해 보겠습니다. 이 경우에는 다음과 같습니다.

생성된 텍스트는 ML 모델이 출력하는 네덜란드어 번역입니다.
참조 텍스트는 사람 번역가 (또는 소프트웨어)가 만든 네덜란드어 번역입니다.

일부 평가 전략에는 참조 텍스트가 포함되지 않습니다.

생성적 적대 신경망 (GAN)

생성기가 데이터를 생성하고 분류자가 생성된 데이터가 유효한지 여부를 결정하는 새 데이터 생성 시스템입니다.

자세한 내용은 생성적 적대 네트워크 과정을 참고하세요.

생성형 에이전트 (시뮬라크라)

#agent

현실적인 인간 행동을 시뮬레이션하는 고유한 페르소나, 기억, 루틴을 갖춘 에이전트

자세한 내용은 생성형 에이전트: 인간 행동의 대화형 시뮬라크라를 참고하세요.

생성형 AI의

#generativeAI

공식 정의가 없는 새로운 혁신적인 분야입니다. 하지만 대부분의 전문가는 생성형 AI 모델이 다음을 모두 충족하는 콘텐츠를 만들 수 있다고 동의합니다.

복잡한
일관성
원본

생성형 AI의 예는 다음과 같습니다.

대규모 언어 모델: 정교한 원본 텍스트를 생성하고 질문에 답변할 수 있습니다.
고유한 이미지를 생성할 수 있는 이미지 생성 모델
오리지널 음악을 작곡하거나 사실적인 음성을 생성할 수 있는 오디오 및 음악 생성 모델
동영상을 생성할 수 있는 동영상 생성 모델

LSTM, RNN과 같은 이전 기술도 독창적이고 일관된 콘텐츠를 생성할 수 있습니다. 일부 전문가들은 이러한 초기 기술을 생성형 AI로 간주하는 반면, 다른 전문가들은 진정한 생성형 AI에는 초기 기술에서 생성할 수 있는 것보다 더 복잡한 출력이 필요하다고 생각합니다.

예측 ML과 대비되는 개념입니다.

생성 모델

다음 중 하나를 수행하는 모델입니다.

학습 데이터 세트로부터 새 예제를 생성합니다. 예를 들어 생성 모델은 시 데이터 세트를 학습한 후 시를 작성할 수 있습니다. 생성적 적대 신경망의 생성기 부분이 이 카테고리에 속합니다.
새로운 예가 학습 세트에서 생성되거나 학습 세트를 생성한 것과 동일한 메커니즘을 통해 생성되었을 확률을 결정합니다. 예를 들어 영어 문장으로 구성된 데이터 세트를 학습한 후 생성 모델은 새 입력이 유효한 영어 문장일 확률을 결정합니다.

생성 모델은 이론적으로 데이터 세트에서 예 또는 특정 특성의 분포를 인식할 수 있습니다. 이는 다음과 같은 의미입니다.

p(examples)

비지도 학습 모델은 생성 모델입니다.

분류 모델과 대비되는 개념입니다.

생성기

새 예를 만드는 생성적 적대 네트워크 내의 하위 시스템입니다.

분류 모델과 대비되는 개념입니다.

gini 불순도

#df

#Metric

엔트로피와 유사한 측정항목입니다. 분할기는 지니 불순도 또는 엔트로피에서 파생된 값을 사용하여 분류 결정 트리의 조건을 구성합니다. 정보 획득은 엔트로피에서 파생됩니다. 지니 불순도에서 파생된 측정항목에 대해 보편적으로 허용되는 동등한 용어는 없습니다. 하지만 이 이름이 지정되지 않은 측정항목은 정보 획득만큼 중요합니다.

지니 불순도는 지니 계수 또는 간단히 지니라고도 합니다.

지니 불순도에 관한 수학적 세부정보를 보려면 아이콘을 클릭하세요.

지니 불순도는 동일한 분포에서 가져온 새 데이터를 잘못 분류할 확률입니다. 가능한 값이 두 개인 집합('0'과 '1', 예를 들어 이진 분류 문제의 라벨)의 지니 불순도는 다음 공식으로 계산됩니다.

I = 1 - (p² + q²) = 1 - (p² + (1-p)²)

각 항목의 의미는 다음과 같습니다.

I는 지니 불순도입니다.
p는 '1' 예시의 비율입니다.
q는 '0' 예시의 비율입니다. q = 1-p

예를 들어 다음 데이터 세트를 고려해 보세요.

100개의 라벨 (데이터 세트의 0.25)에 값 '1'이 포함되어 있습니다.
300개의 라벨 (데이터 세트의 0.75)에 값 '0'이 포함되어 있습니다.

따라서 지니 불순도는 다음과 같습니다.

p = 0.25
q = 0.75
I = 1 - (0.25² + 0.75²) = 0.375

따라서 동일한 데이터 세트의 무작위 라벨이 잘못 분류될 확률은 37.5% 이고 올바르게 분류될 확률은 62.5% 입니다.

완벽하게 균형 잡힌 라벨 (예: '0' 200개와 '1' 200개)의 지니 불순도는 0.5입니다. 불균형 라벨의 지니 불순도는 0.0에 가깝습니다.

골든 데이터 세트

정답을 포착하는 수동으로 선별된 데이터 세트입니다. 팀은 하나 이상의 골든 데이터 세트를 사용하여 모델의 품질을 평가할 수 있습니다.

일부 골든 데이터 세트는 정답의 서로 다른 하위 도메인을 캡처합니다. 예를 들어 이미지 분류를 위한 골든 데이터 세트는 조명 조건과 이미지 해상도를 캡처할 수 있습니다.

표준 대답

#generativeAI

좋은 것으로 알려진 대답 예를 들어 다음 프롬프트가 있다고 가정해 보겠습니다.

2 + 2

골든 응답은 다음과 같습니다.

4

이상적인 대답 및 참조 텍스트에 관한 메모를 보려면 여기를 클릭하세요.

ROUGE와 같은 일부 평가 측정항목은 참조 텍스트를 모델의 생성된 텍스트와 비교합니다. 프롬프트에 정답이 하나인 경우 골든 응답이 일반적으로 참조 텍스트로 사용됩니다.

일부 프롬프트에는 정답이 없습니다. 예를 들어 이 문서를 요약해 줘라는 프롬프트에는 정답이 많을 수 있습니다. 이러한 프롬프트의 경우 모델이 매우 다양한 요약을 생성할 수 있으므로 참조 텍스트가 실용적이지 않은 경우가 많습니다. 하지만 이 상황에서는 골든 응답이 도움이 될 수 있습니다. 예를 들어 좋은 문서 요약이 포함된 골든 대답은 자동 평가기가 좋은 문서 요약의 패턴을 파악하도록 학습하는 데 도움이 될 수 있습니다.

Google AI Studio

Google의 대규모 언어 모델을 사용하여 애플리케이션을 실험하고 빌드할 수 있는 사용자 친화적인 인터페이스를 제공하는 Google 도구입니다. 자세한 내용은 Google AI Studio 홈페이지를 참고하세요.

GPT (Generative Pre-trained Transformer)

#generativeAI

OpenAI에서 개발한 Transformer 기반 대규모 언어 모델 제품군입니다.

GPT 변형은 다음을 비롯한 여러 모달리티에 적용할 수 있습니다.

이미지 생성 (예: ImageGPT)
텍스트 이미지 변환 생성 (예: DALL-E)

gradient

모든 독립 변수를 기준으로 한 편미분의 벡터입니다. 머신러닝에서 경사는 모델 함수의 편미분 벡터입니다. 경사는 가장 급격한 상승 방향을 가리킵니다.

경사 누적

매개변수를 반복당 한 번이 아닌 에포크당 한 번만 업데이트하는 역전파 기법입니다. 각 미니 배치를 처리한 후 기울기 누적은 기울기의 누적 합계를 업데이트합니다. 그런 다음 에포크의 마지막 미니배치를 처리한 후 시스템은 모든 그라데이션 변경사항의 합계를 기반으로 매개변수를 최종적으로 업데이트합니다.

그라데이션 누적은 배치 크기가 학습에 사용할 수 있는 메모리 양에 비해 매우 큰 경우에 유용합니다. 메모리가 문제인 경우 배치 크기를 줄이는 것이 자연스러운 경향입니다. 하지만 일반적인 역전파에서 배치 크기를 줄이면 매개변수 업데이트 수가 증가합니다. 그라데이션 누적을 사용하면 모델이 메모리 문제를 방지하면서도 효율적으로 학습할 수 있습니다.

그래디언트 부스티드 (결정) 트리 (GBT)

#df

다음과 같은 결정 포레스트의 한 유형입니다.

학습은 그라데이션 부스팅을 사용합니다.
약한 모델은 결정 트리입니다.

자세한 내용은 의사결정 트리 과정의 그라디언트 부스팅 의사결정 트리를 참고하세요.

그라데이션 부스팅

#df

강한 모델의 품질을 반복적으로 개선 (손실 감소)하기 위해 약한 모델을 학습시키는 학습 알고리즘입니다. 예를 들어 약한 모델은 선형 모델이나 작은 결정 트리 모델일 수 있습니다. 강한 모델은 이전에 학습된 모든 약한 모델의 합이 됩니다.

가장 간단한 형태의 그레이디언트 부스팅에서는 각 반복에서 강력한 모델의 손실 그레이디언트를 예측하도록 약한 모델이 학습됩니다. 그런 다음 경사 하강법과 유사하게 예측된 경사를 빼서 강력한 모델의 출력이 업데이트됩니다.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

각 항목의 의미는 다음과 같습니다.

$F_{0}$ 은 시작 강한 모델입니다.
$F_{i+1}$ 은 다음 강력한 모델입니다.
$F_{i}$ 는 현재 강력한 모델입니다.
$\xi$ 는 0.0과 1.0 사이의 값으로 축소라고 하며, 경사 하강법의 학습률과 유사합니다.
$f_{i}$ 는 $F_{i}$의 손실 기울기를 예측하도록 학습된 약한 모델입니다.

최신 그라디언트 부스팅 변형에는 계산에 손실의 2차 도함수(헤시안)도 포함됩니다.

결정 트리는 일반적으로 그라데이션 부스팅에서 약한 모델로 사용됩니다. 그래디언트 부스팅 (결정) 트리를 참고하세요.

경사 제한

경사하강법을 사용하여 모델을 학습할 때 경사의 최댓값을 인위적으로 제한 (클리핑)하여 경사 폭주 문제를 완화하는 데 일반적으로 사용되는 메커니즘입니다.

경사하강법

#fundamentals

손실을 최소화하는 수학적 기법입니다. 경사하강법은 가중치와 편향을 반복적으로 조정하면서 손실을 최소화하는 최적의 조합을 점진적으로 찾습니다.

경사 하강법은 머신러닝보다 훨씬 오래되었습니다.

자세한 내용은 머신러닝 단기집중과정의 선형 회귀: 경사 하강법을 참고하세요.

그래프

#TensorFlow

TensorFlow에서는 계산 사양을 의미합니다. 그래프의 노드는 연산을 의미합니다. 가장자리는 방향성을 가지며, 연산의 결과 (Tensor)를 다른 연산의 피연산자로 전달함을 의미합니다. TensorBoard를 사용하여 그래프를 시각화할 수 있습니다.

그래프 실행

#TensorFlow

프로그램에서 먼저 그래프를 구성한 다음 그래프의 전체 또는 일부를 실행하는 TensorFlow 프로그래밍 환경입니다. 지연 실행은 TensorFlow 1.x의 기본 실행 모드입니다.

즉시 실행과 대비되는 개념입니다.

그리디 정책

강화 학습에서 항상 예상 수익이 가장 높은 작업을 선택하는 정책입니다.

그라운딩

출력이 특정 소스 자료를 기반으로 하는 모델의 속성입니다. 예를 들어 대규모 언어 모델에 전체 물리학 교과서를 입력 ('컨텍스트')으로 제공한다고 가정해 보겠습니다. 그런 다음 물리학 질문으로 대규모 언어 모델에 프롬프트를 제공합니다. 모델의 대답이 교과서의 정보를 반영하는 경우 해당 모델은 해당 교과서에 그라운딩됩니다.

그라운딩된 모델이 항상 사실에 기반한 모델은 아닙니다. 예를 들어 입력된 물리학 교과서에 오류가 있을 수 있습니다.

그라운딩

하나 이상의 신뢰할 수 있는 소스에서 검색된 정보를 기반으로 LLM의 대답의 전부 또는 일부를 생성하는 프로세스입니다. 예를 들어 사용자가 베를린의 오늘 날씨 예보를 LLM에 요청한다고 가정해 보겠습니다. LLM은 유럽 중기 예보 센터에서 수집한 정보를 기반으로 대답을 그라운딩할 수 있습니다.

검색 증강 생성 (RAG)은 일반적인 그라운딩 기법입니다.

정답

#fundamentals

현실입니다.

실제로 발생한 일

예를 들어 대학교 1학년 학생이 6년 이내에 졸업할지 예측하는 이진 분류 모델을 생각해 보세요. 이 모델의 그라운드 트루스는 해당 학생이 실제로 6년 이내에 졸업했는지 여부입니다.

아이콘을 클릭하여 추가 메모를 확인하세요.

Google에서는 정답을 기준으로 모델 품질을 평가합니다. 하지만 정답이 항상 완전히 사실인 것은 아닙니다. 예를 들어 정답에 잠재적인 불완전성이 있는 다음 예를 살펴보세요.

졸업 예시에서 각 학생의 졸업 기록이 항상 올바른지 확실한가요? 대학의 기록 보관이 완벽한가요?
라벨이 기기(예: 기압계)로 측정된 부동 소수점 값이라고 가정해 보겠습니다. 각 기기가 동일하게 보정되었는지 또는 각 측정값이 동일한 상황에서 측정되었는지 어떻게 확인할 수 있을까요?
라벨이 사람의 의견에 관한 문제라면 각 사람 평가자가 동일한 방식으로 이벤트를 평가하고 있는지 어떻게 확인할 수 있을까요? 일관성을 개선하기 위해 전문가 인간 평가자가 개입하는 경우가 있습니다.

그룹 귀인 편향

#responsible

특정 개인의 진실이 해당 그룹에 속한 모든 사람에게도 진실일 것이라고 가정합니다. 데이터 수집을 위해 편의 샘플링을 사용할 경우 그룹 귀인 편향 효과가 악화될 수 있습니다. 대표성이 없는 샘플에서 현실을 반영하지 않는 귀인이 생성될 수 있습니다.

외부 집단 동질화 편향 및 내집단 편향도 참고하세요. 자세한 내용은 머신러닝 단기집중과정의 공정성: 편향 유형을 참고하세요.

가드레일

인간이나 시스템에 해를 끼치지 않도록 하는 소프트웨어 또는 프로세스 유해성은 데이터 유출 또는 무단 액세스를 방지하거나 LLM의 대답에 불쾌감을 주는 콘텐츠가 포함되지 않도록 하는 등 다양한 형태로 나타날 수 있습니다.

H

할루시네이션

#generativeAI

생성형 AI 모델이 실제 세계에 관한 주장을 하는 것처럼 보이지만 사실상 잘못된 출력을 생성하는 것입니다. 예를 들어 버락 오바마가 1865년에 사망했다고 주장하는 생성형 AI 모델은 환각을 일으키는 것입니다.

해싱

머신러닝에서 범주형 데이터를 버케팅하는 메커니즘으로, 특히 카테고리 수는 많지만 데이터 세트에 실제로 나타나는 카테고리 수는 상대적으로 적은 경우에 사용됩니다.

예를 들어 지구에는 약 73,000가지의 수종이 생식하고 있습니다. 73,000개의 개별 범주형 버킷에서 73,000가지 수종을 각각 나타낼 수 있습니다. 또는 이러한 수종 중 200종만 데이터 세트에 나타나는 경우 해싱을 사용하여 수종을 500개 버킷으로 나눌 수 있습니다.

단일 버킷에 여러 수종이 포함될 수 있습니다. 예를 들어 해싱은 유전적으로 유사한 수종인 바오밥과 홍단풍을 동일한 버킷에 배치할 수 있습니다. 그럼에도 불구하고 해싱은 많은 범주형 세트를 선택한 수의 버킷으로 매핑하는 데 유용한 방식입니다. 해싱은 결정적인 방식으로 값을 그룹화하여 많은 수의 가능한 값을 가진 범주별 특성을 훨씬 적은 수의 값으로 반환합니다.

자세한 내용은 머신러닝 단기집중과정의 범주형 데이터: 어휘 및 원-핫 인코딩을 참고하세요.

휴리스틱

문제에 대한 간단하고 빠르게 구현할 수 있는 해결책입니다. 예를 들어 "당사는 휴리스틱을 통해 86% 의 정확성을 실현했습니다. 심층신경망으로 전환한 후 정확성이 최대 98%로 향상되었습니다."

히든 레이어

#fundamentals

신경망에서 입력 레이어 (특성)와 출력 레이어 (예측) 사이에 있는 레이어입니다. 각 숨겨진 레이어는 하나 이상의 뉴런으로 구성됩니다. 예를 들어 다음 신경망에는 히든 레이어가 두 개 있습니다. 첫 번째 레이어에는 뉴런이 3개 있고 두 번째 레이어에는 뉴런이 2개 있습니다.

4개의 레이어 첫 번째 레이어는 두 가지 특징이 포함된 입력 레이어입니다. 두 번째 레이어는 뉴런 3개를 포함하는 히든 레이어입니다. 세 번째 레이어는 뉴런 두 개가 포함된 히든 레이어입니다. 네 번째 레이어는 출력 레이어입니다. 각 특징에는 3개의 가장자리가 포함되어 있으며 각 가장자리는 두 번째 레이어의 서로 다른 뉴런을 가리킵니다. 두 번째 레이어의 각 뉴런에는 두 개의 에지가 포함되어 있으며 각 에지는 세 번째 레이어의 서로 다른 뉴런을 가리킵니다. 세 번째 레이어의 각 뉴런에는 출력 레이어를 가리키는 에지가 하나씩 포함되어 있습니다.

심층신경망에는 여러 히든 레이어가 포함되어 있습니다. 예를 들어 위의 그림은 모델에 숨겨진 레이어가 두 개 포함되어 있으므로 심층 신경망입니다.

자세한 내용은 머신러닝 단기집중과정의 신경망: 노드 및 숨겨진 레이어를 참고하세요.

계층적 군집화

#clustering

클러스터 트리를 생성하는 군집화 알고리즘의 카테고리입니다. 계층적 군집화는 식물 분류와 같은 계층적 데이터에 적합합니다. 계층적 군집화 알고리즘에는 두 가지 유형이 있습니다.

병합형 군집화는 먼저 모든 예를 자체 클러스터에 할당하고 가장 가까운 클러스터를 반복적으로 병합하여 계층적 트리를 생성합니다.
분리형 군집화는 먼저 모든 예를 하나의 클러스터로 그룹화한 다음 클러스터를 계층적 트리로 반복 분할합니다.

중심 기반 군집화와 대비되는 개념입니다.

자세한 내용은 클러스터링 과정의 클러스터링 알고리즘을 참고하세요.

힐 클라이밍

모델이 개선을 멈출 때까지 ('언덕 꼭대기에 도달') ML 모델을 반복적으로 개선 ('오르막길을 걷기')하는 알고리즘입니다. 알고리즘의 일반적인 형식은 다음과 같습니다.

시작 모델을 빌드합니다.
학습 또는 미세 조정 방식을 약간 조정하여 새로운 후보 모델을 만듭니다. 여기에는 약간 다른 학습 세트 또는 다른 초매개변수를 사용하는 것이 포함될 수 있습니다.
새 후보 모델을 평가하고 다음 중 한 가지 작업을 실행합니다.
- 후보 모델이 시작 모델보다 성능이 우수하면 해당 후보 모델이 새 시작 모델이 됩니다. 이 경우 1, 2, 3단계를 반복합니다.
- 시작 모델보다 성능이 우수한 모델이 없으면 정점에 도달한 것이므로 반복을 중지해야 합니다.

초매개변수 조정에 관한 안내는 딥 러닝 조정 플레이북을 참고하세요. 특성 추출에 관한 안내는 머신러닝 단기집중과정의 데이터 모듈을 참고하세요.

힌지 손실

#Metric

각 학습 예제에서 최대한 멀리 떨어진 결정 경계를 찾아 예제와 경계 사이의 마진을 최대화하도록 설계된 분류용 손실 함수군입니다. KSVM은 힌지 손실을 사용하거나 제곱 힌지 손실 등의 관련 함수를 사용합니다. 이진 분류의 경우 힌지 손실 함수는 다음과 같이 정의됩니다.

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

여기서 y는 -1 또는 +1인 실제 라벨이고 y'는 분류 모델의 원시 출력입니다.

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

따라서 힌지 손실 대 (y * y') 그래프는 다음과 같습니다.

두 개의 연결된 선분으로 구성된 데카르트 도표 첫 번째 선분은 (-3, 4)에서 시작하여 (1, 0)에서 끝납니다. 두 번째 선분은 (1, 0)에서 시작하여 기울기 0으로 무한히 계속됩니다.

이전 편향

#responsible

이미 세상에 존재하며 데이터 세트에 포함된 편향의 한 유형입니다. 이러한 편향은 기존 문화적 고정관념, 인구통계학적 불평등, 특정 사회 집단에 대한 편견을 반영하는 경향이 있습니다.

예를 들어 두 지역 사회의 현지 은행에서 1980년대의 과거 대출 채무 불이행 데이터를 기반으로 학습된 대출 신청자의 대출 채무 불이행 여부를 예측하는 분류 모델을 생각해 보세요. 커뮤니티 A의 과거 신청자가 커뮤니티 B의 신청자보다 대출 채무 불이행 가능성이 6배 더 높았다면 모델은 과거 편향을 학습하여 커뮤니티 A의 대출을 승인할 가능성이 낮아질 수 있습니다. 이는 해당 커뮤니티의 채무 불이행률을 높인 과거 조건이 더 이상 관련이 없더라도 마찬가지입니다.

자세한 내용은 머신러닝 단기집중과정의 공정성: 편향 유형을 참고하세요.

홀드아웃 데이터

학습 중에 의도적으로 사용하지 않은 ('홀드아웃된') 예입니다. 검증 데이터 세트와 테스트 데이터 세트는 홀드아웃 데이터의 예입니다. 홀드아웃 데이터는 학습에 사용하지 않은 데이터를 일반화하는 모델의 능력을 평가하는 데 도움이 됩니다. 홀드아웃 세트의 손실은 학습 세트의 손실보다 이전에 접하지 못한 데이터의 손실을 더 효과적으로 예측합니다.

호스트

#TensorFlow

#GoogleCloud

가속기 칩(GPU 또는 TPU)에서 ML 모델을 학습시킬 때 다음 두 가지를 모두 제어하는 시스템 부분은 다음과 같습니다.

코드의 전체 흐름
입력 파이프라인의 추출 및 변환입니다.

호스트는 일반적으로 액셀러레이터 칩이 아닌 CPU에서 실행됩니다. 기기는 액셀러레이터 칩에서 텐서를 조작합니다.

인적 평가

#generativeAI

사람이 ML 모델의 출력 품질을 판단하는 프로세스입니다. 예를 들어 이중 언어 사용자가 ML 번역 모델의 품질을 판단합니다. 사람 평가는 특히 정답이 없는 모델을 판단하는 데 유용합니다.

자동 평가 및 자동 평가자 평가와 대비됩니다.

인간 참여형 (HITL)

#generativeAI

다음 중 하나를 의미할 수 있는 느슨하게 정의된 관용구입니다.

생성형 AI 출력을 비판적으로 또는 회의적으로 보는 정책
사람들이 모델의 행동을 형성, 평가, 개선하도록 지원하는 전략 또는 시스템입니다. 인간 참여형(Human-In-The-Loop) 접근 방식을 사용하면 AI가 머신 지능과 인간 지능을 모두 활용할 수 있습니다. 예를 들어 AI가 코드를 생성하고 소프트웨어 엔지니어가 이를 검토하는 시스템은 human-in-the-loop 시스템입니다.

하이퍼파라미터

#fundamentals

모델 학습을 연속으로 실행하는 동안 사용자가 또는 초매개변수 조정 서비스(예: Vizier)가 조정하는 변수입니다.예를 들어 학습률은 초매개변수 중 하나입니다. 한 학습 세션 전에 학습률을 0.01로 설정할 수 있습니다. 0.01이 너무 높다고 판단되면 다음 학습 세션의 학습률을 0.003으로 설정할 수 있습니다.

반면 파라미터는 모델이 학습 중에 학습하는 다양한 가중치와 편향입니다.

자세한 내용은 머신러닝 단기집중과정의 선형 회귀: 하이퍼파라미터를 참고하세요.

초평면

스페이스를 두 개의 하위 스페이스로 구분하는 경계입니다. 예를 들어 선은 2차원의 초평면이고 평면은 3차원의 초평면입니다. 머신러닝에서는 일반적으로 초평면이 고차원 공간을 구분하는 경계입니다. 커널 서포트 벡터 머신은 일반적으로 초고차원 공간에서 초평면을 사용하여 포지티브 클래스와 네거티브 클래스를 구분합니다.

I

i.i.d.

Independently and Identically Distributed의 약어입니다.

이미지 인식

이미지에서 객체, 패턴 또는 개념을 분류하는 프로세스입니다. 영상 인식을 이미지 분류라고도 합니다.

불균형 데이터 세트

클래스 불균형 데이터 세트의 동의어입니다.

내재적 편향

#responsible

자신의 마음 모델 및 기억을 바탕으로 자동으로 연관 또는 가정을 합니다. 내재적 편향은 다음에 영향을 줄 수 있습니다.

데이터 수집 및 분류 방법
머신러닝 시스템 설계 및 개발 방법

예를 들어 결혼사진을 식별하기 위해 분류 모델을 만들 때 엔지니어는 사진에 나타나는 흰색 드레스를 특성으로 사용할 수 있습니다. 하지만 흰색 드레스는 특정 시대와 특정 문화에서만 관례적으로 사용됩니다.

확증 편향도 참고하세요.

대치

값 대입의 약식입니다.

공정성 측정항목의 비호환성

#responsible

#Metric

일부 공정성 개념은 서로 호환되지 않으며 동시에 충족할 수 없다는 아이디어입니다. 따라서 모든 ML 문제에 적용할 수 있는 공정성을 정량화하는 단일 범용 측정항목은 없습니다.

이러한 결과가 실망스러울 수 있지만 공정성 측정항목의 비호환성이 공정성을 위한 노력이 헛되다는 의미는 아닙니다. 대신 공정성은 사용 사례에 특정한 피해를 방지한다는 목표를 가지고 주어진 ML 문제에 맞는 맥락 속에서 정의되어야 한다고 제안합니다.

공정성 측정항목의 비호환성에 관한 자세한 내용은 '공정성의 (불)가능성'을 참고하세요.

컨텍스트 학습

#generativeAI

퓨샷 프롬프팅의 동의어입니다.

독립적이고 동일한 분포 (i.i.d, independently and identically distributed)

#fundamentals

변경되지 않는 분포에서 추출된 데이터로, 추출된 각 값은 이전에 추출된 값에 종속되지 않습니다. i.i.d.는 머신러닝의 이상기체로, 유용한 수학적 구조이지만 현실에서는 거의 찾아볼 수 없습니다. 예를 들어 웹페이지의 방문자 분포는 짧은 기간에는 i.i.d.일 수 있습니다. 즉, 짧은 기간에는 분포가 변하지 않으며 각 사용자의 방문은 일반적으로 서로 독립적입니다. 하지만 기간을 늘리면 웹페이지 방문자의 계절별 차이가 나타날 수 있습니다.

비정상성도 참고하세요.

개인 공정성

#responsible

#Metric

유사한 개인이 유사하게 분류되는지 확인하는 공정성 측정항목입니다. 예를 들어 Brobdingnagian Academy는 성적과 표준화된 시험 점수가 동일한 두 학생이 입학할 가능성이 동일하도록 보장하여 개인 공정성을 충족하려고 할 수 있습니다.

개별 공정성은 '유사성'(이 경우 성적 및 시험 점수)을 정의하는 방식에 전적으로 의존하며, 유사성 측정항목에 중요한 정보 (예: 학생의 커리큘럼의 엄격성)가 누락되면 새로운 공정성 문제가 발생할 수 있습니다.

개별 공정성에 관한 자세한 내용은 '인식을 통한 공정성'을 참고하세요.

추론

#fundamentals

#generativeAI

기존 머신러닝에서 학습된 모델을 라벨이 없는 예에 적용하여 예측을 수행하는 과정입니다. 자세한 내용은 ML 소개 과정의 지도 학습을 참고하세요.

대규모 언어 모델에서 추론은 학습된 모델을 사용하여 입력 프롬프트에 대한 응답을 생성하는 프로세스입니다.

통계에서 추론은 약간 다른 의미를 갖습니다. 자세한 내용은 통계적 추론에 대한 위키백과 문서를 참고하세요.

추론 경로

#df

결정 트리에서 추론 중에 특정 예가 루트에서 다른 조건으로 이동하는 경로가 리프로 종료됩니다. 예를 들어 다음 결정 트리에서 더 두꺼운 화살표는 다음 기능 값이 있는 예시의 추론 경로를 보여줍니다.

x = 7
y = 12
z = -3

다음 그림의 추론 경로는 리프 (Zeta)에 도달하기 전에 세 가지 조건을 거칩니다.

4개의 조건과 5개의 리프로 구성된 결정 트리
루트 조건은 (x > 0)입니다. 답변이 '예'이므로 추론 경로는 루트에서 다음 조건 (y > 0)으로 이동합니다.
답변이 '예'이므로 추론 경로는 다음 조건 (z > 0)으로 이동합니다. 답변이 '아니요'이므로 추론 경로는 리프 (Zeta)인 터미널 노드로 이동합니다.

세 개의 굵은 화살표는 추론 경로를 보여줍니다.

자세한 내용은 결정 트리 과정의 결정 트리를 참고하세요.

정보 획득

#df

#Metric

결정 포레스트에서 노드의 엔트로피와 하위 노드의 엔트로피의 가중치 (예 수 기준) 합계 간의 차이입니다. 노드의 엔트로피는 해당 노드의 예시의 엔트로피입니다.

예를 들어 다음 엔트로피 값을 고려해 보세요.

상위 노드의 엔트로피 = 0.6
관련 예가 16개인 한 하위 노드의 엔트로피 = 0.2
관련 예가 24개인 다른 하위 노드의 엔트로피 = 0.1

따라서 예의 40% 는 한 하위 노드에 있고 60% 는 다른 하위 노드에 있습니다. 따라서 날짜는 다음과 같이 계산합니다.

가중 엔트로피 합계 = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

따라서 정보 획득은 다음과 같습니다.

정보 획득 = 상위 노드의 엔트로피 - 하위 노드의 가중 엔트로피 합계
정보 획득 = 0.6 - 0.14 = 0.46

대부분의 분할기는 정보 획득을 극대화하는 조건을 만들려고 합니다.

내집단 편향

#responsible

자신이 속한 그룹이나 자신이 갖고 있는 특성을 편애하는 경향을 나타냅니다. 테스터 또는 평가자가 머신러닝 개발자의 친구, 가족 또는 동료로 구성된다면 내집단 편향으로 인해 제품 테스트 또는 데이터 세트가 무효화될 수 있습니다.

내집단 편향은 그룹 귀인 편향의 일종입니다. 외부 집단 동질화 편향도 참고하세요.

자세한 내용은 머신러닝 단기집중과정의 공정성: 편향 유형을 참고하세요.

입력 생성기

데이터가 신경망에 로드되는 메커니즘입니다.

입력 생성기는 학습, 평가, 추론을 위한 배치를 생성하기 위해 반복되는 텐서로 원시 데이터를 처리하는 역할을 하는 구성요소로 생각할 수 있습니다.

입력 레이어

#fundamentals

특성 벡터를 보유하는 신경망의 레이어입니다. 즉, 입력 레이어는 학습 또는 추론을 위한 예를 제공합니다. 예를 들어 다음 신경망의 입력 레이어는 두 가지 기능으로 구성됩니다.

4개의 레이어: 입력 레이어, 2개의 히든 레이어, 출력 레이어

in-set 조건

#df

결정 트리에서 항목 집합에 항목이 있는지 테스트하는 조건입니다. 예를 들어 다음은 인셋 조건입니다.

  house-style in [tudor, colonial, cape]

추론 중에 주택 스타일 특성의 값이 tudor 또는 colonial 또는 cape이면 이 조건은 '예'로 평가됩니다. 하우스 스타일 기능의 값이 다른 값 (예: ranch)이면 이 조건은 '아니요'로 평가됩니다.

인셋 조건은 일반적으로 원-핫 인코딩 기능을 테스트하는 조건보다 더 효율적인 결정 트리를 생성합니다.

인스턴스

예의 동의어입니다.

지침 조정

#generativeAI

생성형 AI 모델이 안내를 따르는 능력을 개선하는 파인 튜닝의 한 형태입니다. 명령어 조정은 일반적으로 다양한 작업을 포괄하는 일련의 명령어 프롬프트로 모델을 학습시키는 과정입니다. 결과적으로 생성된 명령어를 기반으로 조정된 모델은 다양한 작업에서 제로샷 프롬프트에 유용한 대답을 생성하는 경향이 있습니다.

다음과 비교 및 대조:

매개변수 효율적인 조정
프롬프트 조정

해석 가능성

#fundamentals

사람이 이해할 수 있는 용어로 ML 모델의 추론을 설명하거나 제시할 수 있는 능력입니다.

예를 들어 대부분의 선형 회귀 모델은 해석 가능성이 높습니다. (각 기능의 학습된 가중치만 보면 됩니다.) 결정 포레스트는 해석 가능성도 높습니다. 하지만 일부 모델은 정교한 시각화가 있어야만 해석 가능합니다.

Learning Interpretability Tool (LIT)을 사용하여 ML 모델을 해석할 수 있습니다.

평가자 간 동의

#Metric

작업을 수행할 때 인간 평가자가 동의하는 빈도를 측정한 값입니다. 평가자가 동의하지 않는 경우 작업 안내를 개선해야 할 수 있습니다. 평정자 간 동의 또는 평가자 간 신뢰성이라고도 합니다. 가장 널리 사용되는 평가자 간 동의 측정 방식 중 하나인 Cohen's kappa를 참조하세요.

자세한 내용은 머신러닝 단기집중과정의 범주형 데이터: 일반적인 문제를 참고하세요.

IoU (Intersection over Union)

두 집합의 교집합을 합집합으로 나눈 값입니다. 머신러닝 이미지 감지 작업에서 IoU는 정답 경계 상자와 관련하여 모델의 예측 경계 상자의 정확도를 측정하는 데 사용됩니다. 이 경우 두 상자의 IoU는 겹치는 영역과 전체 영역 간의 비율이며, 값의 범위는 0 (예측 경계 상자와 정답 경계 상자가 겹치지 않음)에서 1 (예측 경계 상자와 정답 경계 상자의 좌표가 정확히 동일함)입니다.

예를 들어 아래 이미지에서

예측된 경계 상자 (모델이 그림에서 야간 테이블이 있는 위치를 예측하는 좌표)는 보라색으로 표시됩니다.
정답 경계 상자 (그림 속 테이블이 실제로 있는 위치를 구분하는 좌표)는 녹색으로 표시됩니다.

침대 옆에 있는 야간 테이블 주위에 서로 다른 두 개의 경계 상자가 있는 반 고흐 그림 '아를의 침실' 정답 경계 상자 (녹색)는 야간 테이블을 완벽하게 둘러싸고 있습니다. 예측된 경계 상자 (보라색)는 실제 경계 상자에서 아래쪽과 오른쪽으로 50% 오프셋되어 있습니다. 이 경계 상자는 야간 테이블의 오른쪽 하단 4분의 1을 둘러싸지만 나머지 테이블은 누락됩니다.

여기서 예측 및 정답의 경계 상자 교차 영역(왼쪽 아래)은 1이고 예측 및 정답의 경계 상자 합집합 (오른쪽 아래)은 7이므로 IoU는 $\frac{1}{7}$입니다.

위와 동일한 이미지이지만 각 경계 상자가 4개의 사분면으로 나뉩니다. 정답 경계 상자의 오른쪽 하단 사분면과 예측 경계 상자의 왼쪽 상단 사분면이 서로 겹치므로 총 7개의 사분면이 있습니다. 이 중복 섹션 (녹색으로 강조 표시됨)은 교차점을 나타내며 면적은 1입니다.

위와 동일한 이미지이지만 각 경계 상자가 4개의 사분면으로 나뉩니다. 정답 경계 상자의 오른쪽 하단 사분면과 예측 경계 상자의 왼쪽 상단 사분면이 서로 겹치므로 총 7개의 사분면이 있습니다.
두 경계 상자로 둘러싸인 전체 내부(녹색으로 강조 표시됨)는 합집합을 나타내며 면적은 7입니다.

IoU

intersection over union의 약어입니다.

항목 매트릭스

추천 시스템에서 각 상품에 관한 잠재적 신호를 보유하는 행렬 분해로 생성된 임베딩 벡터의 행렬입니다. 항목 행렬의 각 행에는 모든 항목에 대한 단일 잠재적 특성 값이 있습니다. 예를 들어 영화 추천 시스템을 살펴보겠습니다. 항목 행렬의 각 열은 단일 영화를 나타냅니다. 잠재 신호는 장르를 나타내거나, 장르, 스타, 영화 시대 등 복잡한 상호작용을 포함하는 해석하기 어려운 신호일 수 있습니다.

항목 행렬은 인수 분해되는 대상 행렬과 동일한 수의 열을 포함합니다. 예를 들어 10,000개의 영화 타이틀을 평가하는 영화 추천 시스템의 경우 항목 행렬은 10,000개의 열을 포함합니다.

항목

추천 시스템에서 시스템이 추천하는 항목입니다. 예를 들어 동영상은 비디오 가게에서 추천하는 항목이고, 책은 서점에서 추천하는 항목입니다.

iteration

#fundamentals

학습 중에 모델 파라미터(모델의 가중치 및 편향)를 한 번 업데이트합니다. 배치 크기는 모델이 단일 반복에서 처리하는 예시 수를 결정합니다. 예를 들어 배치 크기가 20이면 모델은 매개변수를 조정하기 전에 20개의 예시를 처리합니다.

신경망을 학습시킬 때 단일 반복에는 다음 두 패스가 포함됩니다.

단일 배치에서 손실을 평가하는 정방향 패스입니다.
손실과 학습률을 기반으로 모델의 매개변수를 조정하는 역방향 패스 (역전파)

자세한 내용은 머신러닝 단기집중과정의 경사 하강법을 참고하세요.

J

JAX

고성능 수치 컴퓨팅을 위해 XLA (가속 선형 대수학)와 자동 미분을 결합한 배열 컴퓨팅 라이브러리입니다. JAX는 구성 가능한 변환을 사용하여 가속화된 숫자 코드를 작성하기 위한 간단하고 강력한 API를 제공합니다. JAX는 다음과 같은 기능을 제공합니다.

grad (자동 차별화)
jit (JIT 컴파일)
vmap (자동 벡터화 또는 일괄 처리)
pmap (병렬화)

JAX는 Python의 NumPy 라이브러리와 유사하지만 범위가 훨씬 큰 수치 코드의 변환을 표현하고 구성하는 언어입니다. (실제로 JAX의 .numpy 라이브러리는 기능적으로는 동일하지만 Python NumPy 라이브러리를 완전히 다시 작성한 버전입니다.)

JAX는 모델과 데이터를 GPU 및 TPU 가속기 칩 전반에서 병렬 처리에 적합한 형태로 변환하여 많은 머신러닝 작업을 가속화하는 데 특히 적합합니다.

Flax, Optax, Pax 및 기타 여러 라이브러리는 JAX 인프라를 기반으로 빌드됩니다.

K

Keras

널리 사용되는 Python 머신러닝 API입니다. Keras는 TensorFlow를 비롯한 여러 딥 러닝 프레임워크에서 실행되며, TensorFlow에서는 tf.keras로 제공됩니다.

커널 서포트 벡터 머신 (KSVM)

입력 데이터 벡터를 더 높은 차원 공간에 매핑하여 포지티브 클래스와 네거티브 클래스 사이의 간격을 최대화하는 분류 알고리즘입니다. 예를 들어 입력 데이터 세트가 특성 100개로 이루어진 분류 문제를 생각해 보겠습니다. KSVM은 포지티브 클래스와 네거티브 클래스 사이의 간격을 최대화하기 위해 내부적으로 이러한 특성을 백만 차원 공간에 매핑할 수 있습니다. KSVM은 힌지 손실이라는 손실 함수를 사용합니다.

keypoints

이미지의 특정 특징 좌표입니다. 예를 들어 꽃 종을 구분하는 이미지 인식 모델의 경우 키포인트는 각 꽃잎의 중심, 줄기, 수술 등이 될 수 있습니다.

k-fold 교차 검증

새 데이터에 일반화하는 모델의 능력을 예측하는 알고리즘입니다. k-폴드의 k는 데이터 세트의 예시를 나눌 동일한 그룹의 수를 나타냅니다. 즉, 모델을 k번 학습시키고 테스트합니다. 각 학습 및 테스트 라운드에서 다른 그룹이 테스트 세트가 되고 나머지 모든 그룹이 학습 세트가 됩니다. k 라운드의 학습 및 테스트 후 선택한 테스트 측정항목의 평균과 표준편차를 계산합니다.

예를 들어 데이터 세트가 120개의 예시로 구성되어 있다고 가정해 보겠습니다. 또한 k를 4로 설정한다고 가정해 보겠습니다. 따라서 예시를 섞은 후 데이터 세트를 30개 예시로 구성된 4개의 동일한 그룹으로 나누고 4회의 학습 및 테스트 라운드를 진행합니다.

예시가 4개의 동일한 그룹으로 나뉜 데이터 세트입니다. 1라운드에서는 처음 세 그룹이 학습에 사용되고 마지막 그룹이 테스트에 사용됩니다. 2라운드에서는 처음 두 그룹과 마지막 그룹이 학습에 사용되고 세 번째 그룹은 테스트에 사용됩니다. 3라운드에서는 첫 번째 그룹과 마지막 두 그룹이 학습에 사용되고 두 번째 그룹은 테스트에 사용됩니다.
4라운드에서는 첫 번째 그룹이 테스트에 사용되고 마지막 세 그룹이 학습에 사용됩니다.

예를 들어 평균 제곱 오차 (MSE)는 선형 회귀 모델에 가장 의미 있는 측정항목일 수 있습니다. 따라서 네 라운드 전체에서 MSE의 평균과 표준편차를 구합니다.

k-평균

#clustering

비지도 학습의 한 방법으로 데이터를 그룹화하는 데 널리 사용되는 클러스터링 알고리즘입니다. k-평균 알고리즘은 기본적으로 다음과 같은 일을 합니다.

최고의 중심점 (중심이라고 함)들을 반복적으로 결정합니다.
각 예를 가장 가까운 중심에 배정합니다. 같은 중심에 가장 가까운 예는 같은 그룹에 속합니다.

k-평균 알고리즘은 각 예가 가장 가까운 중심과 각 예 사이 거리의 누적 제곱을 최소화할 수 있는 중심의 위치를 선택합니다.

예를 들어 개 높이와 개 너비의 다음 플롯을 살펴보세요.

수십 개의 데이터 포인트가 있는 데카르트 도표

k=3인 경우 k-평균 알고리즘은 3개의 중심을 결정합니다. 각 예는 가장 가까운 중심에 할당되어 다음 세 그룹이 생성됩니다.

이전 그림과 동일한 데카르트 좌표계 그림에 중심점 3개가 추가되었습니다.
이전 데이터 포인트는 세 개의 별도 그룹으로 클러스터링되며 각 그룹은 특정 중심에 가장 가까운 데이터 포인트를 나타냅니다.

한 제조업체가 소형, 중형, 대형 강아지 스웨터에 적합한 사이즈를 결정하려고 한다고 가정해 보겠습니다. 세 개의 중심은 해당 클러스터에 있는 각 개의 평균 높이와 평균 너비를 식별합니다. 따라서 제조업체는 이 세 가지 중심점을 기반으로 스웨터 사이즈를 정해야 합니다. 클러스터의 중심은 일반적으로 클러스터의 예가 아닙니다.

위 그림은 특성이 두 개 (높이와 너비)만 있는 예시의 k-평균을 보여줍니다. k-평균은 여러 특성에 걸쳐 예시를 그룹화할 수 있습니다.

자세한 내용은 클러스터링 과정의 k-평균 클러스터링이란 무엇인가요?를 참고하세요.

k-중앙값

#clustering

k-평균과 밀접한 관련이 있는 클러스터링 알고리즘입니다. 이 두 알고리즘의 실질적인 차이는 다음과 같습니다.

k-평균 알고리즘에서는 중심이 될 수 있는 위치와 각 예의 위치 사이 거리를 제곱한 값의 합계를 최소화하는 방식으로 중심을 결정합니다.
k-중앙값 알고리즘에서는 중심이 될 수 있는 위치와 각 예의 위치 사이의 거리 값의 합계를 최소화하는 방식으로 중심을 결정합니다.

거리의 정의도 다릅니다.

k-평균 알고리즘에서는 중심에서 예까지의 유클리드 거리를 사용합니다. 2차원에서 유클리드 거리는 피타고라스 정리를 사용하여 빗변의 길이를 계산하는 것을 의미합니다. 예를 들어 (2,2)와 (5, -2) 사이의 k-평균 거리는 다음과 같습니다.

$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$

k-중앙값 알고리즘에서는 중심에서 예까지의 맨해튼 거리를 사용합니다. 이 거리는 각 차원 값 차의 절대값의 합입니다. 예를 들어 (2,2)와 (5, -2) 사이의 k-중앙값 거리는 다음과 같습니다.

$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

L₀ 정규화

#fundamentals

모델에서 0이 아닌 가중치의 총 개수에 페널티를 주는 정규화 유형입니다. 예를 들어 0이 아닌 가중치가 11개인 모델은 0이 아닌 가중치가 10개인 유사한 모델보다 더 많은 페널티를 받습니다.

L₀ 정규화를 L0-norm 정규화라고도 합니다.

아이콘을 클릭하여 추가 메모를 확인하세요.

L₀ 정규화는 일반적으로 대규모 모델에서 비실용적입니다. L₀ 정규화는 학습을 볼록 최적화 문제로 전환하기 때문입니다.

L₁ 손실

#fundamentals

#Metric

실제 라벨 값과 모델이 예측한 값 간의 차이의 절대값을 계산하는 손실 함수입니다. 예를 들어 예 5개의 배치에 대한 L₁ 손실 계산은 다음과 같습니다.

예의 실제 값	모델의 예측값	델타의 절댓값
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = L₁ 손실

L₁ 손실은 L₂ 손실보다 이상치에 덜 민감합니다.

평균 절대 오차는 예시당 평균 L₁ 손실입니다.

아이콘을 클릭하여 공식 수학을 확인하세요.

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

각 항목의 의미는 다음과 같습니다.

$n$ 은 예시 수입니다.
$y$ 는 라벨의 실제 값입니다.
$\hat{y}$ 는 모델이 $y$에 대해 예측한 값입니다.

자세한 내용은 머신러닝 단기집중과정의 선형 회귀: 손실을 참고하세요.

L₁ 정규화

#fundamentals

가중치의 절대값 합에 비례하여 가중치에 페널티를 주는 정규화 유형입니다. L₁ 정규화는 관련성이 없거나 매우 낮은 특성의 가중치를 정확히 0으로 유도하는 데 도움이 됩니다. 가중치가 0인 기능은 모델에서 효과적으로 삭제됩니다.

L₂ 정규화와 대비되는 개념입니다.

L₂ 손실

#fundamentals

#Metric

실제 라벨 값과 모델이 예측한 값 간의 차이 제곱을 계산하는 손실 함수입니다. 예를 들어 예 5개의 배치에 대한 L₂ 손실 계산은 다음과 같습니다.

예의 실제 값	모델의 예측값	델타의 제곱
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		16 = L₂ 손실

제곱으로 인해 L₂ 손실은 이상치의 영향을 증폭합니다. 즉, L₂ 손실은 L₁ 손실보다 잘못된 예측에 더 강하게 반응합니다. 예를 들어 이전 배치에 대한 L₁ 손실은 16이 아닌 8이 됩니다. 단일 이상치가 16개 중 9개를 차지합니다.

회귀 모델은 일반적으로 L₂ 손실을 손실 함수로 사용합니다.

평균 제곱 오차는 예시당 평균 L₂ 손실입니다. 제곱 손실은 L₂ 손실의 또 다른 이름입니다.

아이콘을 클릭하여 공식 수학을 확인하세요.

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

각 항목의 의미는 다음과 같습니다.

$n$ 은 예시 수입니다.
$y$ 는 라벨의 실제 값입니다.
$\hat{y}$ 는 모델이 $y$에 대해 예측한 값입니다.

자세한 내용은 머신러닝 단기집중과정의 로지스틱 회귀: 손실 및 정규화를 참고하세요.

L₂ 정규화

#fundamentals

가중치의 제곱 합에 비례하여 가중치에 페널티를 주는 정규화 유형입니다. L₂ 정규화는 이상치 가중치 (높은 양수 값 또는 낮은 음수 값을 갖는 가중치)를 0에 가깝게 유도하지만 0은 아닙니다. 값이 0에 매우 가까운 특성은 모델에 남아 있지만 모델의 예측에 큰 영향을 미치지 않습니다.

L₂ 정규화는 항상 선형 모델의 일반화를 개선합니다.

L₁ 정규화와 대비되는 개념입니다.

자세한 내용은 머신러닝 단기집중과정의 과적합: L2 정규화를 참고하세요.

라벨

#fundamentals

지도 머신러닝에서 예의 '답' 또는 '결과' 부분을 의미합니다.

각 라벨이 지정된 예는 하나 이상의 특성과 라벨로 구성됩니다. 예를 들어 스팸 감지 데이터 세트의 경우 라벨은 '스팸' 또는 '스팸 아님'일 가능성이 높습니다. 강우량 데이터 세트에서 라벨은 특정 기간 동안 내린 비의 양일 수 있습니다.

자세한 내용은 머신러닝 소개의 지도 학습을 참고하세요.

라벨이 있는 예

#fundamentals

하나 이상의 특성과 라벨이 포함된 예입니다. 예를 들어 다음 표에는 주택 평가 모델의 라벨이 지정된 세 가지 예가 나와 있습니다. 각 예에는 세 가지 특성과 하나의 라벨이 있습니다.

침실 수	욕실 수	주택 연령	주택 가격 (라벨)
3	2	15	345,000달러
2	1	72	$179,000
4	2	34	$392,000

지도 머신러닝에서 모델은 라벨이 지정된 예로 학습하고 라벨이 지정되지 않은 예에 대한 예측을 수행합니다.

라벨이 지정된 예와 라벨이 지정되지 않은 예를 비교합니다.

자세한 내용은 머신러닝 소개의 지도 학습을 참고하세요.

라벨 유출

특성이 라벨의 프록시인 모델 설계 결함입니다. 예를 들어 잠재 고객이 특정 제품을 구매할지 여부를 예측하는 이진 분류 모델을 생각해 보세요. 모델의 기능 중 하나가 SpokeToCustomerAgent라는 불리언이라고 가정해 보겠습니다. 또한 잠재 고객이 실제로 제품을 구매한 후에만 고객 상담사가 할당된다고 가정해 보겠습니다. 학습 중에 모델은 SpokeToCustomerAgent와 라벨 간의 연관성을 빠르게 학습합니다.

자세한 내용은 머신러닝 단기집중과정의 파이프라인 모니터링을 참고하세요.

람다

#fundamentals

정규화율의 동의어입니다.

람다는 과부하된 용어입니다. 여기에서는 정규화 맥락의 용어 정의에 집중합니다.

LaMDA (대화형 애플리케이션을 위한 언어 모델)

Google에서 개발한 트랜스포머 기반 대규모 언어 모델로, 사실적인 대화 응답을 생성할 수 있는 대규모 대화 데이터 세트로 학습되었습니다.

LaMDA: Google의 혁신적인 대화 기술에서 개요를 확인할 수 있습니다.

landmarks

키포인트의 동의어입니다.

언어 모델

더 긴 토큰 시퀀스에서 토큰 또는 토큰 시퀀스가 발생할 확률을 추정하는 모델입니다.

아이콘을 클릭하여 추가 메모를 확인하세요.

직관적이지는 않지만 텍스트를 평가하는 많은 모델이 언어 모델이 아닙니다. 예를 들어 텍스트 분류 모델과 감정 분석 모델은 언어 모델이 아닙니다.

자세한 내용은 머신러닝 단기집중과정의 언어 모델이란 무엇인가요?를 참고하세요.

대규모 언어 모델

#generativeAI

최소한 파라미터 수가 매우 많은 언어 모델 비공식적으로는 Gemini 또는 GPT와 같은 Transformer 기반 언어 모델입니다.

자세한 내용은 머신러닝 단기집중과정의 대규모 언어 모델 (LLM)을 참고하세요.

지연 시간

#generativeAI

모델이 입력을 처리하고 응답을 생성하는 데 걸리는 시간입니다. 지연 시간이 높은 응답은 지연 시간이 낮은 응답보다 생성하는 데 시간이 더 오래 걸립니다.

대규모 언어 모델의 지연 시간에 영향을 미치는 요인은 다음과 같습니다.

입력 및 출력 토큰 길이
모델의 복잡도
모델이 실행되는 인프라

지연 시간을 최적화하는 것은 반응성이 뛰어나고 사용자 친화적인 애플리케이션을 만드는 데 매우 중요합니다.

잠재 공간

임베딩 공간의 동의어입니다.

레이어

#fundamentals

신경망의 뉴런 집합입니다. 일반적인 세 가지 레이어 유형은 다음과 같습니다.

입력 레이어: 모든 특성의 값을 제공합니다.
특성과 라벨 간의 비선형 관계를 찾는 하나 이상의 숨겨진 레이어
예측을 제공하는 출력 레이어

예를 들어 다음 그림은 입력 레이어 1개, 히든 레이어 2개, 출력 레이어 1개가 있는 신경망을 보여줍니다.

입력 레이어 1개, 히든 레이어 2개, 출력 레이어 1개가 있는 신경망 입력 레이어는 두 가지 기능으로 구성됩니다. 첫 번째 히든 레이어는 뉴런 3개로 구성되고 두 번째 히든 레이어는 뉴런 2개로 구성됩니다. 출력 레이어는 단일 노드로 구성됩니다.

TensorFlow에서 레이어는 텐서 및 구성 옵션을 입력으로 취하고 다른 텐서를 출력하는 Python 함수이기도 합니다.

레이어 API (tf.layers)

#TensorFlow

여러 레이어를 조합하여 심층신경망을 구축하는 TensorFlow API입니다. 레이어 API를 사용하면 다음과 같은 다양한 유형의 레이어를 만들 수 있습니다.

tf.layers.Dense - 완전 연결 레이어
컨볼루셔널 레이어의 경우 tf.layers.Conv2D

레이어 API는 Keras 레이어 API 규약을 따릅니다. 즉, 접두사가 다른 것을 제외하고 Layers API의 모든 함수는 Keras 레이어 API의 해당 함수와 이름과 서명이 동일합니다.

잎

#df

결정 트리의 모든 엔드포인트 조건과 달리 리프는 테스트를 실행하지 않습니다. 리프는 가능한 예측입니다. 리프는 추론 경로의 터미널 노드이기도 합니다.

예를 들어 다음 결정 트리에는 리프가 3개 포함되어 있습니다.

3개의 리프로 이어지는 2개의 조건이 있는 결정 트리

자세한 내용은 결정 트리 과정의 결정 트리를 참고하세요.

LIT(Learning Interpretability Tool)

시각적이고 대화형 모델 이해 및 데이터 시각화 도구입니다.

오픈소스 LIT를 사용하여 모델을 해석하거나 텍스트, 이미지, 표 형식 데이터를 시각화할 수 있습니다.

학습률

#fundamentals

경사하강법 알고리즘에 각 반복에서 가중치와 편향을 조정하는 정도를 알려주는 부동 소수점 숫자입니다. 예를 들어 학습률이 0.3이면 학습률이 0.1일 때보다 가중치와 편향이 3배 더 강력하게 조정됩니다.

학습률은 핵심적인 초매개변수입니다. 학습률을 너무 낮게 설정하면 학습에 시간이 너무 오래 걸립니다. 학습률을 너무 높게 설정하면 경사 하강법이 수렴에 도달하는 데 문제가 있는 경우가 많습니다.

아이콘을 클릭하여 수학적 설명을 확인하세요.

각 반복에서 경사하강법 알고리즘은 학습률을 경사에 곱합니다. 결과 제품을 그라데이션 단계라고 합니다.

자세한 내용은 머신러닝 단기집중과정의 선형 회귀: 하이퍼파라미터를 참고하세요.

최소 제곱 회귀

L₂ 손실을 최소화하면서 학습시킨 선형 회귀 모델입니다.

가장 적은 것부터 가장 많은 것까지 프롬프팅

복잡한 문제를 순서가 지정된 더 간단한 문제 세트로 나누는 프롬프트 체이닝의 한 형태입니다. 예를 들어 특정 문제에 대한 최소에서 최대로의 프롬프트 전략은 다음과 같습니다.

복잡한 문제를 더 간단한 하위 문제의 순서가 지정된 목록으로 나눕니다. 이 예에서는 세 가지 하위 문제라고 가정합니다.
프롬프트 1: LLM에 첫 번째 하위 문제를 해결해 달라고 요청합니다. LLM이 대답 1을 반환합니다.
프롬프트 2: 프롬프트에 대답 1의 전부 또는 일부를 통합하여 두 번째 하위 문제를 해결합니다. LLM이 대답 2를 반환합니다.
프롬프트 3: 프롬프트에 대답 2의 전체 또는 일부를 통합하여 세 번째 하위 문제를 해결합니다. 프롬프트 3에 대한 LLM의 대답은 초기 복잡한 문제에 대한 '최종' 답변입니다.

각 단계는 이전 단계의 해결 방법에 따라 달라집니다.

사고의 나무 프롬프트와 대비되는 개념입니다.

Levenshtein 거리

#metric

한 단어를 다른 단어로 변경하는 데 필요한 최소 삭제, 삽입, 대체 작업을 계산하는 편집 거리 측정항목 예를 들어 'heart'와 'darts' 사이의 레벤슈타인 거리는 3입니다. 다음 세 가지 수정사항이 한 단어를 다른 단어로 바꾸는 데 필요한 최소한의 변경사항이기 때문입니다.

heart → deart('h'를 'd'로 대체)
deart → dart('e' 삭제)
dart → darts('s' 삽입)

위의 순서가 3개의 수정사항을 적용하는 유일한 방법은 아닙니다.

선형

#fundamentals

덧셈과 곱셈만으로 표현할 수 있는 두 개 이상의 변수 간의 관계입니다.

선형 관계의 플롯은 선입니다.

비선형과 대비되는 개념입니다.

선형 모델

#fundamentals

특성당 하나의 가중치를 할당하여 예측을 수행하는 모델 (선형 모델에는 편향도 포함됩니다.) 반면 심층 모델에서 특징과 예측의 관계는 일반적으로 비선형입니다.

선형 모델은 일반적으로 심층 모델보다 학습하기 쉽고 해석 가능성이 높습니다. 하지만 딥 모델은 특성 간의 복잡한 관계를 학습할 수 있습니다.

선형 회귀와 로지스틱 회귀는 두 가지 유형의 선형 모델입니다.

아이콘을 클릭하여 계산을 확인합니다.

선형 모델은 다음 공식을 따릅니다.

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

각 항목의 의미는 다음과 같습니다.

y'은 원시 예측입니다. (특정 종류의 선형 모델에서는 이 원시 예측이 추가로 수정됩니다. 예를 들어 로지스틱 회귀를 참고하세요.)
b는 편향입니다.
w는 가중치이므로 w₁은 첫 번째 기능의 가중치이고 w₂는 두 번째 기능의 가중치입니다.
x는 특성이므로 x₁은 첫 번째 특성의 값이고 x₂은 두 번째 특성의 값입니다.

예를 들어 세 가지 특성의 선형 모델이 다음과 같은 편향과 가중치를 학습한다고 가정해 보겠습니다.

b = 7
w₁ = -2.5
w₂ = -1.2
w₃ = 1.4

따라서 세 가지 특징 (x₁, x₂, x₃)이 주어지면 선형 모델은 다음 방정식을 사용하여 각 예측을 생성합니다.

y' = 7 + (-2.5)(x₁) + (-1.2)(x₂) + (1.4)(x₃)

특정 예에 다음 값이 포함되어 있다고 가정해 보겠습니다.

x₁ = 4
x₂ = -10
x₃ = 5

이 값을 공식에 대입하면 이 예시의 예측값이 나옵니다.

y' = 7 + (-2.5)(4) + (-1.2)(-10) + (1.4)(5)
y' = 16

선형 모델에는 선형 방정식만 사용하여 예측하는 모델뿐만 아니라 선형 방정식을 예측을 만드는 공식의 한 구성요소로만 사용하는 더 광범위한 모델도 포함됩니다. 예를 들어 로지스틱 회귀는 원시 예측(y')을 후처리하여 0과 1 사이의 최종 예측 값을 생성합니다(0과 1은 제외).

선형 회귀

#fundamentals

다음 두 가지가 모두 참인 머신러닝 모델의 유형입니다.

모델은 선형 모델입니다.
예측은 부동 소수점 값입니다. (이는 선형 회귀의 회귀 부분입니다.)

선형 회귀와 로지스틱 회귀를 비교합니다. 또한 회귀와 분류를 비교해 보세요.

자세한 내용은 머신러닝 단기집중과정의 선형 회귀를 참고하세요.

LIT

이전에는 언어 해석 도구로 알려진 학습 해석 도구 (LIT)의 약어입니다.

LLM

#generativeAI

대규모 언어 모델의 약어입니다.

LLM 평가

#generativeAI

#Metric

대규모 언어 모델 (LLM)의 성능을 평가하기 위한 측정항목 및 벤치마크 세트입니다. 개략적으로 LLM 평가는 다음과 같습니다.

연구자가 LLM을 개선해야 하는 영역을 파악할 수 있도록 지원합니다.
다양한 LLM을 비교하고 특정 작업에 가장 적합한 LLM을 식별하는 데 유용합니다.
LLM이 안전하고 윤리적으로 사용되도록 지원합니다.

자세한 내용은 머신러닝 단기집중과정의 대규모 언어 모델 (LLM)을 참고하세요.

로지스틱 회귀

#fundamentals

확률을 예측하는 회귀 모델의 한 유형입니다. 로지스틱 회귀 모델에는 다음과 같은 특징이 있습니다.

라벨은 범주형입니다. 로지스틱 회귀라는 용어는 일반적으로 이진 로지스틱 회귀, 즉 가능한 값이 두 개인 라벨의 확률을 계산하는 모델을 의미합니다. 덜 일반적인 변형인 다항 로지스틱 회귀는 가능한 값이 3개 이상인 라벨의 확률을 계산합니다.
학습 중 손실 함수는 로그 손실입니다. (가능한 값이 3개 이상인 라벨의 경우 여러 로그 손실 단위를 병렬로 배치할 수 있습니다.)
모델은 심층 신경망이 아닌 선형 아키텍처를 사용합니다. 하지만 이 정의의 나머지 부분은 범주형 라벨의 확률을 예측하는 심층 모델에도 적용됩니다.

예를 들어 입력 이메일이 스팸인지 스팸이 아닌지 확률을 계산하는 로지스틱 회귀 모델을 생각해 보겠습니다. 추론 중에 모델이 0.72를 예측한다고 가정해 보겠습니다. 따라서 모델은 다음을 추정합니다.

이메일이 스팸일 가능성이 72% 입니다.
이메일이 스팸이 아닐 가능성이 28% 입니다.

로지스틱 회귀 모델은 다음 2단계 아키텍처를 사용합니다.

모델은 입력 기능의 선형 함수를 적용하여 원시 예측 (y')을 생성합니다.
모델은 이 원시 예측을 시그모이드 함수의 입력으로 사용합니다. 이 함수는 원시 예측을 0과 1 사이의 값(0과 1은 제외)으로 변환합니다.

모든 회귀 모델과 마찬가지로 로지스틱 회귀 모델은 숫자를 예측합니다. 하지만 이 숫자는 일반적으로 다음과 같이 이진 분류 모델의 일부가 됩니다.

예측된 숫자가 분류 임곗값보다 큰 경우 이진 분류 모델은 포지티브 클래스를 예측합니다.
예측된 수가 분류 기준점보다 작으면 이진 분류 모델은 음성 클래스를 예측합니다.

자세한 내용은 머신러닝 단기집중과정의 로지스틱 회귀를 참고하세요.

로짓

분류 모델이 생성하는 원시 (정규화되지 않은) 예측 벡터로, 일반적으로 정규화 함수에 전달됩니다. 모델이 다중 클래스 분류 문제를 해결하는 경우 로짓은 일반적으로 소프트맥스 함수의 입력이 됩니다. 그러면 소프트맥스 함수가 가능한 각 클래스에 대해 하나의 값이 있는 (정규화된) 확률 벡터를 생성합니다.

로그 손실

#fundamentals

이진 로지스틱 회귀에 사용되는 손실 함수입니다.

아이콘을 클릭하여 계산을 확인합니다.

다음 공식은 로그 손실을 계산합니다.

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

각 항목의 의미는 다음과 같습니다.

$(x,y)\in D$ : $(x,y)$ 쌍인 라벨이 있는 예가 많이 포함된 데이터 세트입니다.
$y$ : 라벨이 있는 예의 라벨입니다. 이는 로지스틱 회귀이므로 $y$ 의 모든 값은 0이나 1이어야 합니다.
$y'$ 은 $x$의 특성 세트에 대한 예측값 (0~1 사이 값, 0과 1은 제외)입니다.

자세한 내용은 머신러닝 단기집중과정의 로지스틱 회귀: 손실 및 정규화를 참고하세요.

로그 오즈

#fundamentals

일부 이벤트의 오즈의 로그입니다.

아이콘을 클릭하여 계산을 확인합니다.

이벤트가 이진 확률인 경우 odds는 성공 확률 (p)과 실패 확률 (1-p)의 비율을 나타냅니다. 예를 들어 특정 이벤트의 성공 확률이 90%이고 실패 확률이 10% 라고 가정해 보겠습니다. 이 경우 확률은 다음과 같이 계산됩니다.

$$ {\text{odds}} = \frac{\text{p}} {\text{(1-p)}} = \frac{.9} {.1} = {\text{9}} $$

로그 오즈는 단순히 오즈의 로그입니다. 관례에 따라 '로그'는 자연 로그를 의미하지만, 로그는 실제로 1보다 큰 밑을 가질 수 있습니다. 관례에 따라 예시의 로그 오즈는 다음과 같습니다.

$$ {\text{log-odds}} = ln(9) ~= 2.2 $$

로그 오즈 함수는 시그모이드 함수의 역입니다.

장단기 메모리 (LSTM)

필기 인식, 기계 번역, 이미지 캡션과 같은 애플리케이션에서 데이터 시퀀스를 처리하는 데 사용되는 순환 신경망의 한 유형입니다. LSTM은 RNN의 이전 셀에서 가져온 새로운 입력과 컨텍스트를 기반으로 내부 메모리 상태에 기록을 유지하여 긴 데이터 시퀀스로 인해 RNN을 학습할 때 발생하는 기울기 소실 문제를 해결합니다.

LoRA

#generativeAI

Low-Rank Adaptability의 약어입니다.

손실

#fundamentals

#Metric

지도 모델의 학습 중에 모델의 예측이 라벨에서 얼마나 벗어났는지 나타내는 척도입니다.

손실 함수는 손실을 계산합니다.

자세한 내용은 머신러닝 단기집중과정의 선형 회귀: 손실을 참고하세요.

손실 애그리게이터

여러 모델의 예측을 결합하고 이러한 예측을 사용하여 단일 예측을 수행함으로써 모델의 성능을 개선하는 머신러닝 알고리즘의 한 유형입니다. 따라서 손실 애그리게이터는 예측의 분산을 줄이고 예측의 정확도를 개선할 수 있습니다.

손실 곡선

#fundamentals

학습 반복 수의 함수로 손실을 나타낸 그래프 다음 플롯은 일반적인 손실 곡선을 보여줍니다.

손실과 학습 반복을 비교하여 보여주는 데카르트 그래프로서, 초기 반복에서는 손실이 급격히 감소하고, 그 후에는 점진적으로 감소하며, 마지막 반복에서는 경사가 평탄합니다.

손실 곡선을 사용하면 모델이 수렴하는지 과적합되는지 확인할 수 있습니다.

손실 곡선은 다음 유형의 손실을 모두 표시할 수 있습니다.

학습 손실
검증 손실
테스트 손실

일반화 곡선도 참고하세요.

자세한 내용은 머신러닝 단기집중과정의 과적합: 손실 곡선 해석을 참고하세요.

손실 함수

#fundamentals

#Metric

학습 또는 테스트 중에 예시 배치의 손실을 계산하는 수학 함수입니다. 손실 함수는 부정확한 예측을 하는 모델보다 정확한 예측을 하는 모델에 더 낮은 손실을 반환합니다.

학습의 목표는 일반적으로 손실 함수가 반환하는 손실을 최소화하는 것입니다.

다양한 종류의 손실 함수가 있습니다. 빌드 중인 모델의 종류에 적합한 손실 함수를 선택합니다. 예를 들면 다음과 같습니다.

L₂ 손실 (또는 평균 제곱 오차)는 선형 회귀의 손실 함수입니다.
로그 손실은 로지스틱 회귀의 손실 함수입니다.

손실 곡면

가중치와 손실을 비교하는 그래프입니다. 경사하강법의 목표는 손실 곡면이 국소 최소점에 위치하는 가중치를 찾는 데 있습니다.

lost-in-the-middle 효과

LLM이 긴 컨텍스트 윈도우의 중간에 있는 정보보다 시작과 끝에 있는 정보를 더 효과적으로 사용하는 경향 즉, 긴 컨텍스트가 주어지면 중간에서 길을 잃는 효과로 인해 정확도가 다음과 같이 됩니다.

대답을 구성하는 데 필요한 관련 정보가 컨텍스트의 시작 또는 끝에 가까운 경우 비교적 높음
상대적으로 낮음: 대답을 구성하는 데 필요한 관련 정보가 컨텍스트의 중간에 있는 경우

이 용어는 Lost in the Middle: How Language Models Use Long Contexts에서 유래했습니다.

LoRA (Low-Rank Adaptability)

#generativeAI

모델의 사전 학습된 가중치를 '고정'하여 더 이상 수정할 수 없도록 한 다음 학습 가능한 가중치 집합을 모델에 삽입하는 파인 튜닝을 위한 파라미터 효율적 기법입니다. 이 학습 가능한 가중치 세트('업데이트 행렬'이라고도 함)는 기본 모델보다 훨씬 작으므로 학습 속도가 훨씬 빠릅니다.

LoRA는 다음과 같은 이점을 제공합니다.

미세 조정이 적용된 도메인에 대한 모델의 예측 품질을 개선합니다.
모델의 모든 파라미터를 미세 조정해야 하는 기법보다 빠르게 미세 조정됩니다.
동일한 기본 모델을 공유하는 여러 전문 모델의 동시 서빙을 지원하여 추론의 계산 비용을 줄입니다.

아이콘을 클릭하여 LoRA의 업데이트 매트릭스에 대해 자세히 알아보세요.

LoRA에 사용되는 업데이트 행렬은 순위 분해 행렬로 구성됩니다. 이는 기본 모델에서 파생되어 노이즈를 필터링하고 모델의 가장 중요한 기능에 학습을 집중하는 데 도움이 됩니다.

LSTM

Long Short-Term Memory의 약어입니다.

M

머신러닝

#fundamentals

입력 데이터로 모델을 학습시키는 프로그램 또는 시스템입니다. 학습된 모델은 모델 학습에 사용된 것과 동일한 분포에서 가져온 새로운 (이전에 본 적 없는) 데이터로부터 유용한 예측을 할 수 있습니다.

머신러닝은 이러한 프로그램 또는 시스템과 관련된 학문 분야를 가리키는 용어이기도 합니다.

자세한 내용은 머신러닝 소개 과정을 참고하세요.

기계 번역

#generativeAI

소프트웨어(일반적으로 머신러닝 모델)를 사용하여 텍스트를 한 인간 언어에서 다른 인간 언어로 변환합니다(예: 영어에서 일본어로).

다수 클래스

#fundamentals

클래스 불균형 데이터 세트에서 더 일반적으로 사용되는 라벨입니다. 예를 들어 부정 라벨 99% 와 긍정 라벨 1% 가 포함되어 있는 데이터 세트의 경우 부정 라벨이 다수 범주입니다.

소수 클래스와 대비되는 개념입니다.

자세한 내용은 머신러닝 단기집중과정의 데이터 세트: 불균형 데이터 세트를 참고하세요.

관리자 에이전트

#agent

하나 이상의 하위 에이전트를 제어하는 에이전트

마르코프 결정 프로세스 (MDP)

마르코프 속성이 유지된다는 가정하에 일련의 상태를 탐색하기 위해 결정을 내리는(또는 작업) 의사결정 모델을 나타내는 그래프입니다. 강화 학습에서 상태 간의 이러한 전환은 숫자 보상을 반환합니다.

마르코프 속성

상태 전환이 현재 상태와 에이전트의 작업에 내포된 정보에 의해 완전히 결정되는 특정 환경의 속성입니다.

마스크 언어 모델

후보 토큰이 시퀀스의 빈칸을 채울 확률을 예측하는 언어 모델입니다. 예를 들어 마스크 처리된 언어 모델은 다음 문장에서 밑줄을 대체할 후보 단어의 확률을 계산할 수 있습니다.

모자 속의 ____가 돌아왔습니다.

문헌에서는 일반적으로 밑줄 대신 'MASK' 문자열을 사용합니다. 예를 들면 다음과 같습니다.

모자의 'MASK'가 다시 돌아왔습니다.

대부분의 최신 마스크 언어 모델은 양방향입니다.

math-pass@k

K번의 시도 내에 수학 문제를 해결하는 LLM의 정확도를 판단하는 측정항목입니다. 예를 들어 math-pass@2는 LLM이 두 번의 시도 내에 수학 문제를 해결하는 능력을 측정합니다. math-pass@2의 정확도가 0.85라는 것은 LLM이 두 번의 시도 내에 수학 문제를 85% 의 시간 동안 풀 수 있었다는 것을 나타냅니다.

math-pass@k는 pass@k 측정항목과 동일하지만 math-pass@k라는 용어는 수학 평가에만 사용됩니다.

matplotlib

오픈소스 Python 2D 플로팅 라이브러리입니다. matplotlib은 머신러닝의 다른 측면을 시각화하는 데 도움이 됩니다.

행렬 분해

수학에서 내적이 대상 행렬에 근접한 행렬을 찾는 메커니즘입니다.

추천 시스템에서 타겟 행렬은 항목에 대한 사용자의 평점을 보유하는 경우가 많습니다. 예를 들어 영화 추천 시스템의 대상 행렬이 다음과 같이 표시될 수 있습니다. 여기서 양의 정수는 사용자 평점이고 0은 사용자가 해당 영화에 대해 평가하지 않은 것을 의미합니다.

	카사블랑카	필라델피아 이야기	블랙 팬서	원더 우먼	펄프 픽션
사용자 1	5.0	3.0	0.0	2.0	0.0
사용자 2	4.0	0.0	0.0	1.0	5.0
사용자 3	3.0	1.0	4.0	5.0	0.0

영화 추천 시스템은 평가되지 않은 영화에 대한 사용자 평점을 예측하는 것을 목표로 합니다. 예를 들어 사용자 1은 블랙 팬서를 좋아할까요?

추천 시스템에 대한 한 가지 접근법은 행렬 분해를 사용하여 다음 두 행렬을 생성하는 것입니다.

사용자 행렬은 사용자 수 X 임베딩 차원 수로 구성됩니다.
항목 행렬은 임베딩 차원 수 X 항목 수로 구성됩니다.

예를 들어 3명의 사용자와 5개 항목에 대한 행렬 분해를 사용하여 다음과 같은 사용자 행렬과 항목 행렬을 얻을 수 있습니다.

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

사용자 행렬과 항목 행렬의 내적은 원래 사용자 평점과 각 사용자가 보지 않은 영화에 대한 예측을 포함하는 추천 행렬을 생성합니다. 예를 들어 카사블랑카에 대한 사용자 1의 평점(5.0)을 고려합니다. 추천 행렬에서 해당 셀에 해당하는 내적은 약 5.0이어야 하며 다음과 같습니다.

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

그렇다면 사용자 1은 블랙 팬서를 좋아할까요? 첫 번째 행과 세 번째 열에 해당하는 내적을 사용하여 예측 평점 4.3을 산출합니다.

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

행렬 분해는 일반적으로 대상 행렬보다 훨씬 간결한 사용자 행렬 및 항목 행렬을 생성합니다.

MBPP

#Metric

Mostly Basic Python Problems의 약어입니다.

평균 절대 오차 (MAE)

#Metric

L₁ 손실이 사용될 때 예시당 평균 손실입니다. 다음과 같이 평균 절대 오차를 계산합니다.

배치의 L₁ 손실을 계산합니다.
L₁ 손실을 배치에 있는 예시 수로 나눕니다.

아이콘을 클릭하여 공식 수학을 확인하세요.

$$\text{Mean Absolute Error} = \frac{1}{n}\sum_{i=0}^n | y_i - \hat{y}_i |$$

각 항목의 의미는 다음과 같습니다.

$n$ 은 예시 수입니다.
$y$ 는 라벨의 실제 값입니다.
$\hat{y}$ 는 모델이 $y$에 대해 예측한 값입니다.

예를 들어 다음 5개 예시 배치에서 L₁ 손실을 계산하는 경우를 생각해 보겠습니다.

예의 실제 값	모델의 예측값	손실 (실제와 예측 간의 차이)
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = L₁ 손실

따라서 L₁ 손실은 8이고 예시 수는 5입니다. 따라서 평균 절대 오차는 다음과 같습니다.

Mean Absolute Error = L₁ loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

평균 제곱 오차 및 평균 제곱근 오차와 평균 절대 오차를 비교합니다.

k에서의 평균 정밀도 (mAP@k)

#generativeAI

#Metric

검증 데이터 세트에서 모든 k에서의 평균 정밀도 점수의 통계적 평균입니다. k에서의 평균 정밀도의 한 가지 용도는 추천 시스템에서 생성된 추천의 품질을 판단하는 것입니다.

'평균 평균'이라는 문구가 중복되는 것처럼 들리지만 측정항목의 이름은 적절합니다. 결국 이 측정항목은 여러 k에서의 평균 정밀도 값의 평균을 구합니다.

아이콘을 클릭하여 예를 확인하세요.

각 사용자에 대해 맞춤형 추천 소설 목록을 생성하는 추천 시스템을 빌드한다고 가정해 보겠습니다. 선택된 사용자의 의견을 바탕으로 다음 5개의 평균 정밀도@k 점수를 계산합니다 (사용자당 점수 1개).

0.73
0.77
0.67
0.82
0.76

따라서 K에서의 평균 정밀도는 다음과 같습니다.

$$\text{mean } = \frac{\text{0.73 + 0.77 + 0.67 + 0.82 + 0.76}} {\text{5}} = \text{0.75}$$

평균 제곱 오차 (MSE)

#Metric

L₂ 손실이 사용될 때 예시당 평균 손실입니다. 다음과 같이 평균 제곱 오차를 계산합니다.

배치의 L₂ 손실을 계산합니다.
L₂ 손실을 배치에 있는 예시 수로 나눕니다.

아이콘을 클릭하여 공식 수학을 확인하세요.

$$\text{Mean Squared Error} = \frac{1}{n}\sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$ 여기서:

$n$ 은 예시 수입니다.
$y$ 는 라벨의 실제 값입니다.
$\hat{y}$ 는 $y$에 대한 모델의 예측입니다.

예를 들어 다음 5개 예시 배치에서 손실을 고려해 보겠습니다.

실제 금액	모델의 예측	손실	제곱 손실
7	6	1	1
5	4	1	1
8	11	3	9
4	6	2	4
9	8	1	1
			16 = L₂ 손실

따라서 평균 제곱 오차는 다음과 같습니다.

Mean Squared Error = L₂ loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

평균 제곱 오차는 특히 선형 회귀에서 널리 사용되는 학습 최적화 프로그램입니다.

평균 절대 오차 및 평균 제곱근 오차와 평균 제곱 오차를 비교합니다.

TensorFlow Playground에서는 평균 제곱 오차를 사용하여 손실 값을 계산합니다.

아이콘을 클릭하면 이상치에 대한 자세한 내용을 확인할 수 있습니다.

이상치는 평균 제곱 오차에 큰 영향을 미칩니다. 예를 들어 손실이 1이면 제곱 손실은 1이지만 손실이 3이면 제곱 손실은 9입니다. 위 표에서 손실이 3인 예는 평균 제곱 오차의 약 56% 를 차지하는 반면 손실이 1인 각 예는 평균 제곱 오차의 6% 만 차지합니다.

이상치는 평균 제곱 오차만큼 평균 절대 오차에 큰 영향을 미치지 않습니다. 예를 들어 계정 3개가 손실되면 평균 절대 오차가 약 38% 에 불과합니다.

경사 제한은 극단적인 이상점이 모델의 예측 능력을 손상하지 않도록 방지하는 한 가지 방법입니다.

메시

#TensorFlow

#GoogleCloud

ML 병렬 프로그래밍에서 데이터와 모델을 TPU 칩에 할당하고 이러한 값이 샤딩되거나 복제되는 방식을 정의하는 것과 관련된 용어입니다.

메시는 중복으로 정의된 용어로서 다음 중 하나를 의미할 수 있습니다.

TPU 칩의 물리적 레이아웃입니다.
데이터와 모델을 TPU 칩에 매핑하기 위한 추상 논리적 구조입니다.

어떤 경우든 메시는 모양으로 지정됩니다.

메타 학습

학습 알고리즘을 발견하거나 개선하는 머신러닝의 하위 집합입니다. 메타 학습 시스템은 소량의 데이터 또는 이전 작업에서 얻은 경험을 통해 새로운 작업을 빠르게 학습하는 모델을 학습하는 것을 목표로 할 수도 있습니다. 메타 학습 알고리즘은 일반적으로 다음을 달성하려고 합니다.

손으로 설계된 기능 (예: 이니셜라이저 또는 옵티마이저)을 개선하거나 학습합니다.
데이터 효율성과 컴퓨팅 효율성을 높입니다.
일반화 개선

메타 학습은 퓨샷 학습과 관련이 있습니다.

측정항목

#TensorFlow

#Metric

관심 있는 통계입니다.

목표는 머신러닝 시스템이 최적화하려고 하는 측정항목입니다.

측정항목 API (tf.metrics)

#Metric

모델 평가를 위한 TensorFlow API입니다. 예를 들어 tf.metrics.accuracy는 모델의 예측이 라벨과 일치하는 빈도를 결정합니다.

미니 배치

#fundamentals

하나의 반복에서 처리되는 배치의 무작위로 선택된 소규모 부분집합입니다. 미니 배치의 배치 크기는 일반적으로 10~1,000개입니다.

예를 들어 전체 학습 세트 (전체 배치)가 1,000개의 예로 구성되어 있다고 가정해 보겠습니다. 각 미니 배치의 배치 크기를 20으로 설정한다고 가정해 보겠습니다. 따라서 각 반복에서는 1,000개 예 중 무작위로 20개의 손실을 확인한 다음 이에 따라 가중치와 편향을 조정합니다.

전체 배치에 있는 모든 예의 손실보다 미니배치의 손실을 계산하는 것이 훨씬 효율적입니다.

자세한 내용은 머신러닝 단기집중과정의 선형 회귀: 하이퍼파라미터를 참고하세요.

미니 배치 확률적 경사하강법

미니 배치를 사용하는 경사하강법 알고리즘입니다. 즉, 미니 배치 확률적 경사하강법은 학습 데이터 중 작은 부분집합을 기반으로 경사를 예측합니다. 일반적인 확률적 경사하강법은 크기가 1인 미니 배치를 사용합니다.

minimax loss

#Metric

생성된 데이터와 실제 데이터의 분포 간 교차 엔트로피를 기반으로 하는 생성적 적대 신경망의 손실 함수입니다.

미니맥스 손실은 첫 번째 논문에서 생성적 적대 네트워크를 설명하는 데 사용됩니다.

자세한 내용은 생성적 적대 네트워크 과정의 손실 함수를 참고하세요.

소수 범주

#fundamentals

클래스 불균형 데이터 세트의 덜 일반적인 라벨입니다. 예를 들어 부정 라벨 99% 와 긍정 라벨 1% 가 포함되어 있는 데이터 세트의 경우 긍정 라벨이 소수 범주입니다.

다수 클래스와 대비되는 개념입니다.

아이콘을 클릭하여 추가 메모를 확인하세요.

예시가 백만 개 있는 학습 세트는 인상적입니다. 하지만 소수 클래스가 제대로 표현되지 않으면 매우 큰 학습 세트도 충분하지 않을 수 있습니다. 데이터 세트의 총 예시 수보다는 소수 클래스의 예시 수에 더 집중하세요.

데이터 세트에 소수 클래스 예가 충분하지 않은 경우 다운샘플링 (두 번째 글머리 기호의 정의)을 사용하여 소수 클래스를 보완하는 것이 좋습니다.

자세한 내용은 머신러닝 단기집중과정의 데이터 세트: 불균형 데이터 세트를 참고하세요.

mixture of experts

#generativeAI

토큰 또는 예시를 처리하기 위해 매개변수의 하위 집합 (전문가라고 함)만 사용하여 신경망 효율성을 높이는 방식입니다. 게이팅 네트워크는 각 입력 토큰 또는 예시를 적절한 전문가에게 라우팅합니다.

자세한 내용은 다음 논문을 참고하세요.

ML

머신러닝의 약어입니다.

MMIT

#generativeAI

멀티모달 인스트럭션 튜닝의 약어입니다.

MNIST

LeCun, Cortes, Burges 등이 컴파일한 공개 도메인 데이터 세트이며,60, 000개의 이미지가 포함됩니다. 각 이미지는 사람들이 0~9 사이의 특정 숫자를 쓰는 방법을 보여줍니다. 각 이미지는 28x28 정수 배열로 저장되며, 각 정수는 0과 255 사이의 그레이 스케일 값입니다.

MNIST는 머신러닝을 위한 표준 데이터 세트이며, 주로 새 머신러닝 접근법을 테스트하는 데 사용됩니다. 자세한 내용은 필기 입력된 숫자의 MNIST 데이터베이스를 참고하세요.

modality

상위 수준 데이터 카테고리입니다. 예를 들어 숫자, 텍스트, 이미지, 동영상, 오디오는 서로 다른 5가지 모달리티입니다.

모델

#fundamentals

일반적으로 입력 데이터를 처리하고 출력을 반환하는 모든 수학적 구성입니다. 달리 말해 모델은 시스템이 예측을 수행하는 데 필요한 파라미터 및 구조의 집합입니다. 지도 머신러닝에서는 모델이 예를 입력으로 사용하고 예측을 출력으로 추론합니다. 지도 머신러닝 내에서 모델은 약간 다릅니다. 예를 들면 다음과 같습니다.

선형 회귀 모델은 가중치 집합과 편향으로 구성됩니다.
신경망 모델은 다음으로 구성됩니다.
- 히든 레이어 집합으로, 각 레이어에는 하나 이상의 뉴런이 포함됩니다.
- 각 뉴런과 연결된 가중치와 편향입니다.
결정 트리 모델은 다음으로 구성됩니다.
- 트리의 모양입니다. 즉, 조건과 리프가 연결되는 패턴입니다.
- 조건과 휴가

모델을 저장, 복원 또는 복사할 수 있습니다.

비지도 머신러닝은 모델도 생성합니다. 일반적으로 입력 예시를 가장 적절한 클러스터에 매핑할 수 있는 함수입니다.

아이콘을 클릭하여 대수 함수 및 프로그래밍 함수를 ML 모델과 비교합니다.

다음과 같은 대수 함수는 모델입니다.

  f(x, y) = 3x -5xy + y² + 17

위 함수는 입력 값 (x 및 y)을 출력에 매핑합니다.

마찬가지로 다음과 같은 프로그래밍 함수도 모델입니다.

def half_of_greater(x, y):
  if (x > y):
    return(x / 2)
  else
    return(y / 2)

호출자가 앞의 Python 함수에 인수를 전달하고 Python 함수는 return 문을 통해 출력을 생성합니다.

심층 신경망은 대수 함수나 프로그래밍 함수와는 매우 다른 수학적 구조를 가지고 있지만, 심층 신경망은 여전히 입력 (예)을 받아 출력 (예측)을 반환합니다.

인간 프로그래머가 프로그래밍 기능을 수동으로 코딩합니다. 반면 머신러닝 모델은 자동화된 학습 중에 최적의 매개변수를 점진적으로 학습합니다.

모델 용량

#Metric

모델이 학습할 수 있는 문제의 복잡성입니다. 모델이 학습할 수 있는 문제가 복잡할수록 모델 용량은 더 큽니다. 일반적으로 모델의 매개변수 수가 많을수록 모델 용량은 더 커집니다. 분류 모델 용량의 공식 정의는 VC 차원을 참고하세요.

모델 캐스케이딩

#generativeAI

특정 추론 쿼리에 적합한 모델을 선택하는 시스템입니다.

매우 큰 모델 (매개변수가 많음)부터 훨씬 작은 모델 (매개변수가 훨씬 적음)까지 다양한 모델 그룹을 상상해 보세요. 매우 큰 모델은 추론 시에 작은 모델보다 더 많은 컴퓨팅 리소스를 사용합니다. 하지만 매우 큰 모델은 일반적으로 작은 모델보다 더 복잡한 요청을 추론할 수 있습니다. 모델 캐스케이딩은 추론 쿼리의 복잡성을 결정한 다음 추론을 실행할 적절한 모델을 선택합니다. 모델 캐스케이딩의 주요 동기는 일반적으로 더 작은 모델을 선택하고 더 복잡한 쿼리에만 더 큰 모델을 선택하여 추론 비용을 줄이는 것입니다.

소형 모델은 휴대전화에서 실행되고 해당 모델의 대형 버전은 원격 서버에서 실행된다고 가정해 보겠습니다. 모델 캐스케이드를 잘 사용하면 소규모 모델이 간단한 요청을 처리하고 복잡한 요청을 처리하기 위해 원격 모델만 호출하도록 하여 비용과 지연 시간을 줄일 수 있습니다.

모델 라우터도 참고하세요.

모델 병렬 처리

하나의 모델의 여러 부분을 서로 다른 기기에 배치하여 학습 또는 추론을 확장하는 방법입니다. 모델 병렬 처리를 사용하면 단일 기기에 맞지 않는 모델을 사용할 수 있습니다.

모델 병렬 처리를 구현하기 위해 시스템은 일반적으로 다음을 실행합니다.

모델을 더 작은 부분으로 샤딩 (분할)합니다.
여러 프로세서에 이러한 작은 부분의 학습을 분산합니다. 각 프로세서는 모델의 자체 부분을 학습시킵니다.
결과를 결합하여 단일 모델을 만듭니다.

모델 병렬 처리는 학습 속도를 늦춥니다.

데이터 병렬 처리도 참고하세요.

모델 라우터

#generativeAI

모델 캐스케이딩에서 추론에 적합한 모델을 결정하는 알고리즘입니다. 모델 라우터는 일반적으로 주어진 입력에 가장 적합한 모델을 선택하는 방법을 점진적으로 학습하는 머신러닝 모델입니다. 하지만 모델 라우터는 때때로 더 간단한 비머신러닝 알고리즘일 수 있습니다.

모델 학습

최상의 모델을 결정하는 과정입니다.

MOE

#generativeAI

mixture of experts의 약어입니다.

모멘텀

학습 단계가 현재 단계의 도함수뿐만 아니라 바로 이전 단계의 도함수에도 의존하는 정교한 경사하강법 알고리즘입니다. 모멘텀은 물리학의 모멘텀과 유사하게 시간에 따른 그라데이션의 지수 가중 이동 평균을 계산하는 것을 포함합니다. 모멘텀은 학습이 국소 최솟값에 갇히는 것을 방지하는 데 도움이 됩니다.

Mostly Basic Python Problems (MBPP)

#Metric

LLM의 Python 코드 생성 능력을 평가하기 위한 데이터 세트입니다. Mostly Basic Python Problems에서는 크라우드소싱된 프로그래밍 문제 약 1,000개를 제공합니다. 데이터 세트의 각 문제에는 다음이 포함됩니다.

작업 설명
솔루션 코드
3개의 자동 테스트 사례

MT

#generativeAI

기계 번역의 약어입니다.

멀티 에이전트 공동작업

#agent

여러 전문 AI 에이전트가 상호작용하거나, 토론하거나, 복잡한 문제를 해결하기 위해 서로에게 작업을 전달하는 프레임워크입니다.

다중 클래스 분류

#fundamentals

지도 학습에서 데이터 세트에 라벨의 두 개 이상 클래스가 포함된 분류 문제입니다. 예를 들어 Iris 데이터 세트의 라벨은 다음 세 가지 클래스 중 하나여야 합니다.

Iris setosa
Iris virginica
Iris versicolor

새로운 예시에서 아이리스 유형을 예측하는 아이리스 데이터 세트에서 학습된 모델은 다중 클래스 분류를 실행합니다.

반면 정확히 두 클래스를 구분하는 분류 문제는 이진 분류 모델입니다. 예를 들어 스팸 또는 스팸 아님을 예측하는 이메일 모델은 이진 분류 모델입니다.

클러스터링 문제에서 다중 클래스 분류는 두 개 이상의 클러스터를 의미합니다.

자세한 내용은 머신러닝 단기집중과정의 신경망: 다중 클래스 분류를 참고하세요.

다중 클래스 로지스틱 회귀

다중 클래스 분류 문제에서 로지스틱 회귀 사용

멀티 헤드 셀프 어텐션

입력 시퀀스의 각 위치에 자체 어텐션 메커니즘을 여러 번 적용하는 자체 어텐션의 확장입니다.

트랜스포머는 멀티 헤드 자체 주목을 도입했습니다.

멀티모달 명령 조정됨

이미지, 동영상, 오디오와 같은 텍스트 이상의 입력을 처리할 수 있는 명령어 튜닝 모델입니다.

멀티모달 모델

입력, 출력 또는 둘 다에 두 개 이상의 형식이 포함된 모델입니다. 예를 들어 이미지와 텍스트 캡션 (두 가지 모달리티)을 특성으로 사용하고 이미지에 대한 텍스트 캡션의 적절성을 나타내는 점수를 출력하는 모델을 생각해 보세요. 따라서 이 모델의 입력은 멀티모달이고 출력은 유니모달입니다.

다항 분류

다중 클래스 분류의 동의어입니다.

다항 회귀

다중 클래스 로지스틱 회귀의 동의어입니다.

Multi-sentence Reading Comprehension (MultiRC)

객관식 연습에 답하는 LLM의 능력을 평가하는 데이터 세트입니다. 데이터 세트의 각 예에는 다음이 포함됩니다.

컨텍스트 단락
해당 단락에 관한 질문
질문에 대한 답변이 여러 개입니다. 각 답변에는 참 또는 거짓이라는 라벨이 지정됩니다. 여러 답변이 참일 수 있습니다.

예를 들면 다음과 같습니다.

컨텍스트 단락:

수잔은 생일 파티를 하고 싶어 했습니다. 그녀는 모든 친구에게 전화를 걸었습니다. 그녀에게는 친구가 5명 있습니다. 엄마는 수잔이 파티에 모두 초대해도 된다고 말했습니다. 첫 번째 친구는 아파서 파티에 갈 수 없었습니다. 두 번째 친구는 타지로 떠났습니다. 세 번째 친구는 부모님이 허락해 주실지 잘 모르겠다고 말했습니다. 네 번째 친구는 미정이라고 했습니다. 다섯 번째 친구는 파티에 갈 수 있습니다. 수잔은 약간 슬펐습니다. 파티 당일, 다섯 명의 친구가 모두 참석했습니다. 각 친구는 수잔에게 줄 선물을 가지고 있었습니다. 수잔은 기뻐서 다음 주에 친구들에게 감사 카드를 보냈습니다.
질문: 수잔의 아픈 친구는 회복했어?
복수 답변:
- 네, 회복했습니다. (True)
- 아니요(False).
- 예. (True)
- 아니요, 회복하지 못했습니다. (False)
- 네, 수잔의 파티에 갔어요. (True)

MultiRC는 SuperGLUE 앙상블의 구성요소입니다.

자세한 내용은 Looking Beyond the Surface: A Challenge Set for Reading Comprehension over Multiple Sentences를 참고하세요.

멀티태스킹

단일 모델이 여러 작업을 실행하도록 학습되는 머신러닝 기법입니다.

멀티태스크 모델은 각기 다른 작업에 적합한 데이터로 학습하여 생성됩니다. 이를 통해 모델은 작업 전반에서 정보를 공유하는 방법을 학습할 수 있으며, 이는 모델이 더 효과적으로 학습하는 데 도움이 됩니다.

여러 작업을 위해 학습된 모델은 일반화 능력이 향상되는 경우가 많으며 다양한 유형의 데이터를 처리하는 데 더 강력할 수 있습니다.

N

Nano

#generativeAI

온디바이스 사용을 위해 설계된 비교적 작은 Gemini 모델입니다. 자세한 내용은 Gemini Nano를 참고하세요.

Pro 및 Ultra도 참고하세요.

NaN 트랩

모델의 숫자 중 하나가 학습 중에 NaN이 됨으로 인해 모델의 다른 여러 숫자 또는 모든 숫자가 결국 NaN이 되는 상황입니다.

NaN은 Not a Number의 약어입니다.

자연어 처리

언어 규칙을 사용하여 사용자가 말하거나 입력한 내용을 처리하도록 컴퓨터를 가르치는 분야입니다. 거의 모든 최신 자연어 처리는 머신러닝에 의존합니다.

자연어 이해

말하거나 입력한 내용의 의도를 파악하는 자연어 처리의 하위 집합입니다. 자연어 이해는 자연어 처리를 넘어 맥락, 비꼬는 표현, 감정과 같은 언어의 복잡한 측면을 고려할 수 있습니다.

음성 클래스

#fundamentals

#Metric

이진 분류에서는 클래스 중 하나는 포지티브로, 다른 하나는 네거티브로 규정됩니다. 포지티브 클래스는 모델에서 테스트하는 대상 또는 이벤트이고, 네거티브 클래스는 그와 다른 가능성입니다. 예를 들면 다음과 같습니다.

의료 검사의 네거티브 클래스는 '종양 아님'일 수 있습니다.
이메일 분류 모델의 네거티브 클래스는 '스팸 아님'일 수 있습니다.

포지티브 클래스와 대비되는 개념입니다.

부정적 샘플링

후보 샘플링의 동의어입니다.

신경망 아키텍처 검색 (NAS)

신경망의 아키텍처를 자동으로 설계하는 기술입니다. NAS 알고리즘은 신경망을 학습하는 데 필요한 시간과 리소스를 줄일 수 있습니다.

NAS는 일반적으로 다음을 사용합니다.

가능한 아키텍처의 집합인 검색 공간
피트니스 함수는 특정 아키텍처가 주어진 작업을 얼마나 잘 수행하는지 측정하는 것입니다.

NAS 알고리즘은 가능한 아키텍처의 작은 집합으로 시작하여 알고리즘이 효과적인 아키텍처에 대해 더 많이 학습함에 따라 검색 공간을 점진적으로 확장하는 경우가 많습니다. 적합도 함수는 일반적으로 학습 세트에서 아키텍처의 성능을 기반으로 하며, 알고리즘은 일반적으로 강화 학습 기법을 사용하여 학습됩니다.

NAS 알고리즘은 이미지 분류, 텍스트 분류, 기계 번역 등 다양한 작업에서 고성능 아키텍처를 찾는 데 효과적인 것으로 입증되었습니다.

출력은

#fundamentals

숨겨진 레이어가 하나 이상 포함된 모델 심층신경망은 여러 히든 레이어를 포함하는 신경망의 한 유형입니다. 예를 들어 다음 다이어그램은 두 개의 숨겨진 레이어가 포함된 심층 신경망을 보여줍니다.

입력 레이어, 히든 레이어 2개, 출력 레이어가 있는 신경망

신경망의 각 뉴런은 다음 레이어의 모든 노드에 연결됩니다. 예를 들어 위의 다이어그램에서 첫 번째 히든 레이어의 세 뉴런 각각이 두 번째 히든 레이어의 두 뉴런 모두에 별도로 연결되어 있습니다.

컴퓨터에 구현된 신경망은 뇌 및 기타 신경계에서 발견되는 신경망과 구분하기 위해 인공 신경망이라고도 합니다.

일부 신경망은 다양한 기능과 라벨 간의 매우 복잡한 비선형 관계를 모방할 수 있습니다.

컨볼루셔널 신경망 및 순환 신경망도 참고하세요.

자세한 내용은 머신러닝 단기집중과정의 신경망을 참고하세요.

뉴런

#fundamentals

머신러닝에서 신경망의 히든 레이어 내에 있는 개별 단위입니다. 각 뉴런은 다음 두 단계 작업을 실행합니다.

입력 값에 해당 가중치를 곱한 값의 가중 합계를 계산합니다.
가중 합을 활성화 함수에 입력으로 전달합니다.

첫 번째 숨겨진 레이어의 뉴런은 입력 레이어의 특성 값에서 입력을 수락합니다. 첫 번째 히든 레이어를 넘어선 히든 레이어의 뉴런은 이전 히든 레이어의 뉴런으로부터 입력을 받습니다. 예를 들어 두 번째 히든 레이어의 뉴런은 첫 번째 히든 레이어의 뉴런에서 입력을 받습니다.

다음 그림은 두 뉴런과 그 입력을 강조 표시합니다.

입력 레이어, 히든 레이어 2개, 출력 레이어가 있는 신경망 두 개의 뉴런이 강조 표시되어 있습니다. 하나는 첫 번째 히든 레이어에 있고 다른 하나는 두 번째 히든 레이어에 있습니다. 첫 번째 히든 레이어에서 강조 표시된 뉴런은 입력 레이어의 두 기능 모두에서 입력을 받습니다. 두 번째 히든 레이어의 강조 표시된 뉴런은 첫 번째 히든 레이어의 세 뉴런 각각에서 입력을 받습니다.

신경망의 뉴런은 뇌와 신경계의 다른 부분에 있는 뉴런의 동작을 모방합니다.

N-그램

순서가 있는 N개 단어의 시퀀스입니다. 예를 들어 truly madly는 2-그램입니다. 순서는 의미가 있으므로 madly truly는 truly madly와 다른 2-그램입니다.

N	이 종류의 N-그램에 대한 이름	예
2	바이그램 또는 2-그램	to go, go to, eat lunch, eat dinner
3	트라이그램 또는 3-그램	ate too much, happily ever after, the bell tolls
4	4-그램	walk in the park, dust in the wind, the boy ate lentils

많은 자연어 이해 모델이 N-그램을 사용하여 사용자가 다음에 입력하거나 말할 가능성이 있는 단어를 예측합니다. 예를 들어 사용자가 happily ever를 입력했다고 가정합니다. 트라이그램을 기반으로 하는 NLU 모델은 사용자가 다음에 after라는 단어를 입력할 것으로 예측할 수 있습니다.

N-그램을 순서가 지정되지 않은 단어 세트인 단어 집합과 비교해 보시기 바랍니다.

자세한 내용은 머신러닝 단기집중과정의 대규모 언어 모델을 참고하세요.

NLP

자연어 처리의 약어입니다.

NLU

자연어 이해의 약어입니다.

노드 (결정 트리)

#df

결정 트리에서 조건 또는 리프

조건이 2개이고 리프가 3개인 결정 트리

자세한 내용은 결정 트리 과정의 결정 트리를 참고하세요.

노드 (신경망)

#fundamentals

히든 레이어의 뉴런

자세한 내용은 머신러닝 단기집중과정의 신경망을 참고하세요.

노드 (TensorFlow 그래프)

#TensorFlow

TensorFlow 그래프의 연산

소음

대체적으로 데이터 세트에서 신호를 확인하기 어렵게 하는 모든 것을 말합니다. 노이즈가 데이터에 다양한 방식으로 적용될 수 있습니다. 예를 들면 다음과 같습니다.

사용자 평가자가 라벨을 잘못 지정합니다.
사용자 및 기기에서 특성 값을 잘못 기록하거나 누락합니다.

논바이너리 조건

#df

가능한 결과가 3개 이상인 조건 예를 들어 다음 비이진 조건에는 세 가지 가능한 결과가 포함되어 있습니다.

가능한 결과가 3개인 조건 (number_of_legs = ?) 한 결과 (number_of_legs = 8)는 spider라는 리프로 이어집니다. 두 번째 결과 (number_of_legs = 4)는 dog라는 리드로 이어집니다. 세 번째 결과 (number_of_legs = 2)는 penguin이라는 리프로 이어집니다.

자세한 내용은 결정 트리 과정의 조건 유형을 참고하세요.

비결정적

주어진 입력에 대해 동일한 출력을 반환하지 않는 시스템입니다. LLM은 일반적으로 비결정적입니다. 즉, LLM은 일반적으로 동일한 프롬프트에 대해 서로 다른 대답을 생성합니다.

비결정적 시스템은 일반적으로 결정적 시스템보다 테스트하기가 훨씬 어렵습니다.

확률적도 참고하세요.

비선형

#fundamentals

덧셈과 곱셈만으로는 나타낼 수 없는 두 개 이상의 변수 간의 관계입니다. 선형 관계는 선으로 나타낼 수 있지만 비선형 관계는 선으로 나타낼 수 없습니다. 예를 들어 단일 특성을 단일 라벨과 각각 연결하는 두 모델을 생각해 보세요. 왼쪽 모델은 선형이고 오른쪽 모델은 비선형입니다.

두 개의 플롯 한 플롯은 선이므로 선형 관계입니다.
다른 그림은 곡선이므로 비선형 관계입니다.

머신러닝 단기집중과정의 신경망: 노드 및 숨겨진 레이어에서 다양한 종류의 비선형 함수를 실험해 보세요.

무응답 편향

#responsible

표본 선택 편향을 참고하세요.

비정상성

#fundamentals

하나 이상의 측정기준(일반적으로 시간)에 따라 값이 변경되는 특성입니다. 예를 들어 다음과 같은 비정상성 사례를 생각해 볼 수 있습니다.

특정 매장에서 판매되는 수영복의 수는 계절에 따라 다릅니다.
특정 지역에서 수확되는 특정 과일의 양은 연중 대부분 0이지만 짧은 기간 동안은 많습니다.
기후 변화로 인해 연간 평균 기온이 변화하고 있습니다.

정상성과 대비되는 개념입니다.

정답 없음 (NORA)

#generativeAI

정답이 여러 개인 대답이 있는 프롬프트 예를 들어 다음 프롬프트에는 정답이 없습니다.

코끼리에 관한 재미있는 농담해 줘.

정답이 없는 질문에 대한 대답을 평가하는 것은 일반적으로 정답이 하나인 질문을 평가하는 것보다 훨씬 주관적입니다. 예를 들어 코끼리 농담을 평가하려면 농담이 얼마나 재미있는지 판단하는 체계적인 방법이 필요합니다.

NORA

#generativeAI

정답이 없음의 약어입니다.

정규화

#fundamentals

변수의 실제 값 범위를 다음과 같은 표준 값 범위로 변환하는 프로세스를 광범위하게 설명합니다.

-1~+1
0~1
Z 점수 (대략 -3~+3)

예를 들어 특정 특성의 실제 값 범위가 800~2,400이라고 가정해 보겠습니다. 특성 엔지니어링의 일환으로 실제 값을 -1~+1과 같은 표준 범위로 정규화할 수 있습니다.

정규화는 특성 엔지니어링에서 일반적인 작업입니다. 특성 벡터의 모든 숫자 특성의 범위가 대략 동일하면 모델이 더 빠르게 학습되고 예측도 더 잘 생성됩니다.

Z 점수 정규화도 참고하세요.

자세한 내용은 머신러닝 단기집중과정의 숫자 데이터: 정규화를 참고하세요.

NotebookLM

#generativeAI

사용자가 문서를 업로드한 다음 프롬프트를 사용하여 해당 문서에 관해 질문하거나, 요약하거나, 정리할 수 있는 Gemini 기반 도구입니다. 예를 들어 작가는 여러 단편 소설을 업로드하고 NotebookLM에 공통 주제를 찾아 달라고 요청하거나 어떤 소설이 영화로 만들기에 가장 적합한지 식별해 달라고 요청할 수 있습니다.

특이점 감지

새로운 예가 학습 세트와 동일한 분포에서 비롯되었는지 확인하는 프로세스입니다. 즉, 학습 세트에서 학습한 후 이상치 감지는 추론 중 또는 추가 학습 중에 새 예시가 이상치인지 확인합니다.

이상치 감지와 대비되는 개념입니다.

수치 데이터

#fundamentals

정수 또는 실수로 나타낸 특성입니다. 예를 들어 주택 평가 모델은 주택의 크기 (제곱피트 또는 제곱미터)를 숫자 데이터로 나타낼 것입니다. 특성을 숫자 데이터로 나타내는 것은 특성의 값이 라벨과 수학적 관계가 있음을 나타냅니다. 즉, 집의 평수는 집의 가치와 수학적 관계가 있을 수 있습니다.

모든 정수 데이터가 숫자 데이터로 표현되는 것은 아닙니다. 예를 들어 일부 지역의 우편번호는 정수입니다. 하지만 정수 우편번호는 모델에서 숫자 데이터로 표현하면 안 됩니다. 20000 우편번호가 10000 우편번호보다 두 배 (또는 절반) 더 강력하지 않기 때문입니다. 또한 우편번호가 다르면 부동산 가치가 다를 수 있지만 우편번호 20000의 부동산 가치가 우편번호 10000의 부동산 가치의 두 배라고 가정할 수는 없습니다. 따라서 우편번호는 범주형 데이터로 표현되어야 합니다.

수치 특성을 연속 특성이라고도 합니다.

자세한 내용은 머신러닝 단기집중과정의 숫자 데이터 작업을 참고하세요.

NumPy

Python에서 효율적인 배열 작업을 제공하는 오픈소스 수학 라이브러리입니다. pandas는 NumPy를 기반으로 빌드됩니다.

O

목표

#Metric

알고리즘에서 최적화하려는 측정항목입니다.

목표 함수

#Metric

모델이 최적화하고자 하는 수학 공식 또는 측정항목입니다. 예를 들어 선형 회귀의 목적 함수는 일반적으로 평균 제곱 손실입니다. 따라서 선형 회귀 모델을 학습시킬 때 학습의 목표는 평균 제곱 손실을 최소화하는 것입니다.

목표 함수를 최대화하는 것이 목표인 경우도 있습니다. 예를 들어 목표 함수가 정확도인 경우 목표는 정확도를 최대화하는 것입니다.

손실도 참고하세요.

사선 조건

#df

결정 트리에서 두 개 이상의 기능이 포함된 조건입니다. 예를 들어 높이와 너비가 모두 특징인 경우 다음은 사선 조건입니다.

  height > width

축 정렬 조건과 대비되는 개념입니다.

자세한 내용은 결정 트리 과정의 조건 유형을 참고하세요.

관찰

#agent

에이전트가 에이전트 진행 상황의 일부 측면을 검토하거나 평가하는 에이전트 루프의 단계입니다. 예를 들어 act 단계에서 코드를 생성한다고 가정해 보겠습니다. 따라서 관찰 단계에서 생성된 코드를 테스트할 수 있습니다.

오프라인

#fundamentals

static의 동의어입니다.

오프라인 추론

#fundamentals

모델이 예측을 일괄적으로 생성한 다음 이러한 예측을 캐싱 (저장)하는 프로세스입니다. 그러면 앱이 모델을 다시 실행하는 대신 캐시에서 추론된 예측에 액세스할 수 있습니다.

예를 들어 4시간마다 지역 날씨 예보(예측)를 생성하는 모델을 생각해 보세요. 각 모델 실행 후 시스템은 모든 지역 일기예보를 캐시합니다. 날씨 앱은 캐시에서 일기예보를 가져옵니다.

오프라인 추론을 정적 추론이라고도 합니다.

온라인 추론과 대비되는 개념입니다. 자세한 내용은 머신러닝 단기집중과정의 프로덕션 ML 시스템: 정적 추론과 동적 추론 비교을 참고하세요.

원-핫 인코딩

#fundamentals

다음과 같은 벡터로 범주형 데이터를 표현합니다.

한 요소가 1로 설정됩니다.
다른 모든 요소는 0으로 설정됩니다.

원-핫 인코딩은 가능한 값의 유한 집합을 갖는 문자열 또는 식별자를 표현하는 데 널리 사용됩니다. 예를 들어 Scandinavia라는 특정 범주형 특성에 다음과 같은 5가지 가능한 값이 있다고 가정해 보겠습니다.

'덴마크'
'스웨덴'
'노르웨이'
'핀란드'
'아이슬란드'

원-핫 인코딩은 5개의 값을 다음과 같이 나타낼 수 있습니다.

국가	벡터
'덴마크'	1	0	0	0	0
'스웨덴'	0	1	0	0	0
'노르웨이'	0	0	1	0	0
'핀란드'	0	0	0	1	0
'아이슬란드'	0	0	0	0	1

원-핫 인코딩 덕분에 모델은 5개 국가 각각에 따라 다른 연결을 학습할 수 있습니다.

특성을 숫자 데이터로 표현하는 것은 원-핫 인코딩의 대안입니다. 안타깝게도 스칸디나비아 국가를 숫자로 표현하는 것은 적절하지 않습니다. 예를 들어 다음 숫자 표현을 살펴보세요.

'덴마크'는 0입니다.
'스웨덴'은 1
'노르웨이'는 2
'핀란드'는 3
'아이슬란드'는 4

숫자 인코딩을 사용하면 모델이 원시 숫자를 수학적으로 해석하고 이러한 숫자를 기반으로 학습하려고 합니다. 하지만 아이슬란드는 실제로 노르웨이의 두 배 (또는 절반)가 아니므로 모델이 이상한 결론을 내릴 수 있습니다.

자세한 내용은 머신러닝 단기집중과정의 범주형 데이터: 어휘 및 원-핫 인코딩을 참고하세요.

정답 하나 (ORA)

#generativeAI

하나의 정답 대답이 있는 프롬프트 예를 들어 다음 프롬프트를 살펴보세요.

참 또는 거짓: 토성은 화성보다 크다.

유일한 정답은 true입니다.

정답이 없는 질문과 대조됩니다.

원샷 학습

객체 분류에 자주 사용되는 머신러닝 접근 방식으로, 단일 학습 예시에서 효과적인 분류 모델을 학습하도록 설계되었습니다.

퓨샷 학습 및 제로샷 학습도 참고하세요.

원샷 프롬프팅

#generativeAI

대규모 언어 모델이 어떻게 대답해야 하는지 보여주는 예시 하나가 포함된 프롬프트 예를 들어 다음 프롬프트에는 대규모 언어 모델이 질문에 어떻게 대답해야 하는지 보여주는 예시가 하나 포함되어 있습니다.

하나의 프롬프트의 일부	참고
`지정된 국가의 공식 통화는 무엇인가요?`	LLM이 답변해야 하는 질문입니다.
`프랑스: EUR`	예를 들어 보겠습니다.
`인도:`	실제 쿼리입니다.

원샷 프롬프트를 다음 용어와 비교 및 대조하세요.

제로샷 프롬프팅
퓨샷 프롬프팅

일대다

#fundamentals

클래스가 N개인 분류 문제에서, 가능한 각 결과에 하나씩 서로 다른 N개의 이진 분류 모델로 구성된 솔루션입니다. 예를 들어 예시를 동물, 식물 또는 광물로 분류하는 모델이 있다고 가정해 보겠습니다. 일대다 솔루션은 다음 세 가지 별도의 이진 분류 모델을 제공합니다.

동물 대 비동물
채소와 비채소
미네랄과 비미네랄의 차이

online

#fundamentals

동적의 동의어입니다.

온라인 추론

#fundamentals

요청에 따라 예측을 생성합니다. 예를 들어 앱이 모델에 입력을 전달하고 예측을 요청한다고 가정해 보겠습니다. 온라인 추론을 사용하는 시스템은 모델을 실행하여 요청에 응답합니다 (예측을 앱에 반환).

오프라인 추론과 대비되는 개념입니다.

자세한 내용은 머신러닝 단기집중과정의 프로덕션 ML 시스템: 정적 추론과 동적 추론 비교을 참고하세요.

작업 (op)

#TensorFlow

TensorFlow에서는 Tensor를 만들거나 조작하거나 삭제하는 모든 절차를 작업으로 간주합니다. 예를 들어 행렬 곱셈은 두 텐서를 입력으로 사용하고 하나의 텐서를 출력으로 생성하는 연산입니다.

Optax

JAX용 경사 처리 및 최적화 라이브러리입니다. Optax는 딥 신경망과 같은 파라메트릭 모델을 최적화하기 위해 맞춤 방식으로 재조합할 수 있는 빌딩 블록을 제공하여 연구를 지원합니다. 기타 목표는 다음과 같습니다.

핵심 구성요소의 읽기 쉽고, 잘 테스트되고, 효율적인 구현을 제공합니다.
하위 수준 재료를 맞춤 최적화기 (또는 기타 그라데이션 처리 구성요소)로 결합할 수 있도록 하여 생산성 향상
누구나 쉽게 참여할 수 있도록 하여 새로운 아이디어의 도입을 가속화합니다.

옵티마이저

경사하강법 알고리즘의 구체적인 구현입니다. 인기 있는 최적화 도구는 다음과 같습니다.

AdaGrad: ADAptive GRADient descent의 약자입니다.
Adam(ADAptive with Momentum)

ORA

#generativeAI

하나의 정답의 약어입니다.

외부 집단 동질화 편향

#responsible

태도, 가치, 성격 특성 및 기타 특성을 비교할 때 외부 집단 구성원을 내집단 구성원과 유사한 것으로 간주하는 경향입니다. 내집단은 정기적으로 상호작용하는 사람을 말하고, 외부 집단은 정기적으로 상호작용하지 않는 사람을 말합니다. 외부 집단에 대한 속성을 제공하도록 사람들에게 요청하여 데이터 세트를 생성하는 경우 이러한 속성은 참여자가 내집단에 해당하는 사람들에 대해 나열하는 속성보다 덜 미묘하고 더 진부할 수 있습니다.

예를 들어 난쟁이가 건축 스타일, 창, 문, 크기 등 작은 차이를 인용하면서 다른 난쟁이의 주택을 자세히 설명할 수 있습니다. 하지만 동일한 난쟁이가 거인들은 모두 같은 집에 산다고 단언할 수도 있습니다.

외부 집단 동질화 편향은 그룹 귀인 편향의 일종입니다.

내집단 편향도 참고하세요.

이상치 감지

학습 세트에서 이상치를 식별하는 프로세스입니다.

특이점 감지와 대비되는 개념입니다.

연구

대부분의 다른 값과 거리가 먼 값입니다. 머신러닝에서 다음 중 하나가 이상치입니다.

입력 데이터의 값이 평균에서 대략 표준편차 3만큼 떨어진 경우
가중치의 절대값이 높은 경우
예측된 값이 실제 값과 비교적 멀리 떨어진 경우

예를 들어 widget-price이 특정 모델의 기능이라고 가정해 보겠습니다. 평균 widget-price가 7유로이고 표준 편차가 1유로라고 가정합니다. 따라서 12유로 또는 2유로가 포함된 예는 각 가격이 평균에서 표준 편차 5개만큼 떨어져 있으므로 이상치로 간주됩니다.widget-price

이상치는 오타 또는 기타 입력 실수로 인해 발생하는 경우가 많습니다. 다른 경우에는 이상치가 실수가 아닙니다. 평균에서 5표준편차 떨어진 값은 드물지만 불가능한 것은 아닙니다.

이상점은 모델 학습에서 문제를 일으키는 경우가 많습니다. 경사 제한은 이상점을 관리하는 방법의 하나입니다.

자세한 내용은 머신러닝 단기집중과정의 숫자 데이터 작업을 참고하세요.

out-of-bag 평가 (OOB 평가)

#df

각 결정 트리를 해당 결정 트리의 학습 중에 사용되지 않은 예에 대해 테스트하여 결정 포레스트의 품질을 평가하는 메커니즘입니다. 예를 들어 다음 다이어그램에서 시스템은 예의 약 2/3에 대해 각 결정 트리를 학습한 다음 나머지 1/3에 대해 평가합니다.

결정 트리 3개로 구성된 결정 포레스트
한 결정 트리는 예의 2/3를 학습한 다음 나머지 1/3을 OOB 평가에 사용합니다.
두 번째 결정 트리는 이전 결정 트리와 다른 2/3의 예시를 학습한 후 이전 결정 트리와 다른 1/3을 OOB 평가에 사용합니다.

OOB 평가는 교차 검증 메커니즘의 계산상 효율적이고 보수적인 근사치입니다. 교차 검증에서는 각 교차 검증 라운드에 대해 하나의 모델이 학습됩니다(예: 10겹 교차 검증에서는 10개의 모델이 학습됨). OOB 평가에서는 단일 모델이 학습됩니다. 배깅은 학습 중에 각 트리에서 일부 데이터를 보류하므로 OOB 평가에서 해당 데이터를 사용하여 교차 검증을 근사할 수 있습니다.

자세한 내용은 결정 트리 과정의 OOB 평가를 참고하세요.

출력 레이어

#fundamentals

신경망의 '최종' 레이어입니다. 출력 레이어에는 예측이 포함됩니다.

다음 그림은 입력 레이어, 히든 레이어 2개, 출력 레이어가 있는 작은 심층 신경망을 보여줍니다.

과적합

#fundamentals

생성된 모델이 학습 데이터와 지나치게 일치하여 새 데이터를 올바르게 예측하지 못하는 경우입니다.

정규화는 과적합을 줄일 수 있습니다. 크고 다양한 학습 세트로 학습하면 과적합을 줄일 수도 있습니다.

아이콘을 클릭하여 추가 메모를 확인하세요.

과적합은 좋아하는 선생님의 조언만 엄격하게 따르는 것과 같습니다. 이 교사의 수업에서는 성공할 수 있지만 교사의 아이디어에 '과적합'되어 다른 수업에서는 성공하지 못할 수도 있습니다. 다양한 교사의 조언을 따르면 새로운 상황에 더 잘 적응할 수 있습니다.

자세한 내용은 머신러닝 단기집중과정의 과적합을 참고하세요.

오버샘플링

클래스 불균형 데이터 세트에서 소수 클래스의 예를 재사용하여 더 균형 잡힌 학습 세트를 만듭니다.

예를 들어 다수 클래스와 소수 클래스의 비율이 5,000:1인 이진 분류 문제를 생각해 보겠습니다. 데이터 세트에 백만 개의 예가 포함된 경우 데이터 세트에는 소수 클래스의 예가 약 200개만 포함되므로 효과적인 학습을 위한 예가 너무 적을 수 있습니다. 이러한 부족함을 극복하기 위해 200개의 예시를 여러 번 오버샘플링 (재사용)하여 유용한 학습에 충분한 예시를 얻을 수 있습니다.

오버샘플링할 때는 과적합에 주의해야 합니다.

언더샘플링과 대비되는 개념입니다.

P

패킹된 데이터

데이터를 더 효율적으로 저장하는 방법입니다.

패킹된 데이터는 압축된 형식을 사용하거나 더 효율적으로 액세스할 수 있는 다른 방식으로 데이터를 저장합니다. 패킹된 데이터는 데이터에 액세스하는 데 필요한 메모리와 컴퓨팅 양을 최소화하여 학습 속도를 높이고 모델 추론을 더 효율적으로 만듭니다.

패킹된 데이터는 데이터 증강, 정규화와 같은 다른 기법과 함께 사용되어 모델의 성능을 더욱 향상시키는 경우가 많습니다.

PaLM

Pathways Language Model의 약어입니다.

pandas

#fundamentals

numpy를 기반으로 빌드된 열 지향 데이터 분석 API입니다. TensorFlow를 비롯한 다양한 머신러닝 프레임워크에서 pandas 데이터 구조를 입력으로 지원합니다. 자세한 내용은 Pandas 문서를 참고하세요.

파라미터

#fundamentals

모델이 학습 중에 학습하는 가중치와 편향입니다. 예를 들어 선형 회귀 모델에서 매개변수는 다음 수식의 편향 (b)과 모든 가중치 (w₁, w₂ 등)로 구성됩니다.

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

반면 초매개변수는 사용자 (또는 초매개변수 조정 서비스)가 모델에 제공하는 값입니다. 예를 들어 학습률은 초매개변수 중 하나입니다.

파라미터 효율적인 튜닝

#generativeAI

전체 파인 튜닝보다 효율적으로 대규모 사전 학습 언어 모델 (PLM)을 파인 튜닝하는 일련의 기법입니다. 파라미터 효율적 조정은 일반적으로 전체 미세 조정보다 훨씬 적은 파라미터를 미세 조정하지만, 전체 미세 조정으로 빌드된 대규모 언어 모델만큼 (또는 거의 그만큼) 성능이 우수한 대규모 언어 모델을 생성합니다.

파라미터 효율적인 조정과 다음을 비교 및 대조합니다.

지시문 조정
프롬프트 조정

파라미터 효율적 조정은 파라미터 효율적 미세 조정이라고도 합니다.

매개변수 서버 (PS)

#TensorFlow

분산형 환경에서 모델의 매개변수를 추적하는 작업입니다.

파라미터 업데이트

학습 중에 모델의 매개변수를 조정하는 작업으로, 일반적으로 경사 하강법의 단일 반복 내에서 이루어집니다.

편미분

변수 하나를 제외한 모든 변수가 상수로 간주되는 도함수입니다. 예를 들어 x에 대한 f(x, y)의 편미분은 y를 상수로 두고 f를 x만의 함수로 간주한 도함수입니다. x에 대한 f의 편미분은 방정식의 다른 변수를 모두 무시하고 x의 변화에만 집중합니다.

참여 편향

#responsible

무응답 편향의 동의어입니다. 표본 선택 편향을 참고하세요.

파티셔닝 전략

매개변수 서버 전반에서 여러 변수를 분할하는 알고리즘입니다.

k에서의 통과 (pass@k)

#Metric

대규모 언어 모델이 생성하는 코드 (예: Python)의 품질을 판단하는 측정항목입니다. 구체적으로 k에서 통과한다는 것은 생성된 k개의 코드 블록 중 하나 이상이 모든 단위 테스트를 통과할 가능성을 나타냅니다.

대규모 언어 모델은 복잡한 프로그래밍 문제에 적합한 코드를 생성하는 데 어려움을 겪는 경우가 많습니다. 소프트웨어 엔지니어는 대규모 언어 모델에 동일한 문제에 대한 여러 (k) 솔루션을 생성하도록 프롬프트를 표시하여 이 문제에 적응합니다. 그런 다음 소프트웨어 엔지니어가 단위 테스트를 기반으로 각 솔루션을 테스트합니다. k에서의 합격 계산은 단위 테스트 결과에 따라 달라집니다.

이러한 해결 방법 중 하나 이상이 단위 테스트를 통과하면 LLM이 해당 코드 생성 챌린지를 통과합니다.
솔루션 중 단위 테스트를 통과하는 솔루션이 없으면 LLM이 해당 코드 생성 챌린지에 실패합니다.

k에서의 통과 비율 공식은 다음과 같습니다.

\[\text{pass at k} = \frac{\text{total number of passes}} {\text{total number of challenges}}\]

일반적으로 k 값이 높을수록 k에서 통과 점수가 높아집니다. 하지만 k 값이 높을수록 더 많은 대규모 언어 모델 및 단위 테스트 리소스가 필요합니다.

아이콘을 클릭하여 예시를 확인하세요.

소프트웨어 엔지니어가 대규모 언어 모델에 n=50개의 어려운 코딩 문제에 대한 k=10개의 솔루션을 생성해 달라고 요청한다고 가정해 보겠습니다. 결과는 다음과 같습니다.

30패스
20개 실패

따라서 10점에서의 통과 점수는 다음과 같습니다.

$$\text{pass at 10} = \frac{\text{30}} {\text{50}} = 0.6$$

PaLM(Pathways Language Model)

Gemini 모델의 이전 모델이자 전신입니다.

Pax

#generativeAI

여러 TPU 액셀러레이터 칩 슬라이스 또는 포드에 걸쳐 있을 정도로 큰 신경망 모델을 학습하도록 설계된 프로그래밍 프레임워크입니다.

Pax는 JAX를 기반으로 빌드된 Flax를 기반으로 빌드됩니다.

소프트웨어 스택에서 Pax의 위치를 나타내는 다이어그램
Pax는 JAX를 기반으로 빌드됩니다. Pax 자체는 세 개의 레이어로 구성됩니다. 하단 레이어에는 TensorStore와 Flax가 포함되어 있습니다.
중간 레이어에는 Optax와 Flaxformer가 포함됩니다. 최상위 레이어에는 Praxis Modeling Library가 포함되어 있습니다. Fiddle은 Pax를 기반으로 빌드됩니다.

퍼셉트론

하나 이상의 입력 값을 취하고, 입력 가중 합계로 함수를 실행하고, 단일 출력 값을 계산하는 시스템 (하드웨어 또는 소프트웨어)입니다. 머신러닝에서 이 함수는 일반적으로 ReLU, sigmoid, tanh와 같은 비선형입니다. 예를 들어 다음 퍼셉트론은 시그모이드 함수를 사용하여 세 입력 값을 처리합니다.

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

다음 그림에서 퍼셉트론은 세 입력을 취합니다. 각 입력은 퍼셉트론에 입력되기 전에 가중치를 적용하여 수정됩니다.

3개의 입력을 취하고 각 입력을 개별 가중치로 곱하는 퍼셉트론입니다. 퍼셉트론은 단일 값을 출력합니다.

퍼셉트론은 신경망의 뉴런입니다.

performance

#Metric

다음과 같은 의미로 중복 정의된 용어입니다.

소프트웨어 공학에서 보편적으로 사용되는 의미입니다. 즉, 특정 소프트웨어가 얼마나 빠르게 또는 효율적으로 실행되는지를 의미합니다.
머신러닝에서의 의미 여기서 성능은 모델이 얼마나 정확한지라는 질문에 대한 답입니다. 즉, 모델의 예측이 얼마나 효과적인지를 나타냅니다.

순열 변수 중요도

#df

#Metric

특성의 값을 순열한 후 모델의 예측 오류 증가를 평가하는 변수 중요도의 한 유형입니다. 순열 변수 중요도는 모델에 종속되지 않는 측정항목입니다.

퍼플렉시티

#Metric

모델의 작업 수행 능력을 나타내는 척도입니다. 예를 들어 사용자가 휴대전화 키보드에 입력하는 단어의 처음 몇 글자를 읽고 가능한 완성 단어 목록을 제공하는 것이 작업이라고 가정해 보겠습니다. 이 작업의 혼란도 P는 사용자가 입력하려고 하는 실제 단어가 목록에 포함되도록 제공해야 하는 추측 수와 대략적으로 같습니다.

퍼플렉시티와 교차 엔트로피의 관계는 다음과 같습니다.

$$P= 2^{-\text{cross entropy}}$$

파이프라인

머신러닝 알고리즘을 둘러싼 인프라입니다. 파이프라인에는 데이터 수집, 데이터를 학습 데이터 파일에 넣기, 하나 이상의 모델 학습, 모델을 프로덕션으로 내보내기가 포함됩니다.

자세한 내용은 'ML 프로젝트 관리' 과정의 ML 파이프라인을 참고하세요.

파이프라인

모델의 처리가 연속된 단계로 나뉘고 각 단계가 서로 다른 기기에서 실행되는 모델 병렬 처리의 한 형태입니다. 한 단계에서 한 배치 처리하는 동안 이전 단계에서 다음 배치를 처리할 수 있습니다.

단계별 학습도 참고하세요.

pjit

여러 액셀러레이터 칩에서 실행되도록 코드를 분할하는 JAX 함수 사용자는 pjit에 함수를 전달합니다. 그러면 pjit는 동일한 시맨틱을 갖지만 여러 기기(예: GPU 또는 TPU 코어)에서 실행되는 XLA 연산으로 컴파일된 함수를 반환합니다.

pjit을 사용하면 사용자가 SPMD 파티셔너를 사용하여 다시 작성하지 않고도 계산을 샤딩할 수 있습니다.

2023년 3월 현재 pjit이 jit과 병합되었습니다. 자세한 내용은 분산 배열 및 자동 병렬화를 참고하세요.

계획 및 해결

#agent

모델이 작업을 실행하기 전에 먼저 명시적인 다단계 계획을 초안으로 작성하는 에이전트 전략입니다.

PLM

#generativeAI

사전 학습된 언어 모델의 약어입니다.

플러그인

#agent

기능을 확장하기 위해 에이전트에 쉽게 연결할 수 있는 표준화된 모듈식 도구입니다. 예를 들어 GitHub 플러그인을 사용하면 상담사가 GitHub 문제를 읽고 pull 요청을 만드는 등의 작업을 실행할 수 있습니다.

pmap

여러 기본 하드웨어 기기(CPU, GPU 또는 TPU)에서 서로 다른 입력 값으로 입력 함수의 사본을 실행하는 JAX 함수입니다. pmap은 SPMD를 사용합니다.

정책

강화 학습에서 상태에서 행동으로의 에이전트 확률적 매핑입니다.

풀링

이전의 컨볼루셔널 레이어에서 생성된 행렬을 작은 행렬로 줄이는 과정입니다. 풀링은 일반적으로 풀링된 영역에서 최대값 또는 평균값을 취하는 것을 포함합니다. 예를 들어 다음과 같은 3x3 행렬이 있다고 가정해 보겠습니다.

3x3 행렬 [[5,3,1], [8,2,5], [9,4,3]]

풀링 연산에서는 컨볼루셔널 연산에서와 마찬가지로 행렬을 슬라이스로 나눈 다음 스트라이드 보폭으로 슬라이드하면서 컨볼루셔널 연산을 수행합니다. 예를 들어 풀링 연산에서 컨볼루셔널 행렬을 1x1 스트라이드로 2x2 슬라이스로 나눈다고 가정해 보겠습니다. 다음 다이어그램에 나와 있는 것처럼 네 개의 풀링 작업이 실행됩니다. 각 풀링 작업이 해당 슬라이스의 네 값 중 최댓값을 선택한다고 가정해 보겠습니다.

입력 행렬은 값이 [[5,3,1], [8,2,5], [9,4,3]]인 3x3입니다.
입력 행렬의 왼쪽 상단 2x2 하위 행렬은 [[5,3], [8,2]]이므로 왼쪽 상단 풀링 작업은 값 8을 생성합니다 (5, 3, 8, 2의 최댓값). 입력 행렬의 오른쪽 상단 2x2 하위 행렬은 [[3,1], [2,5]]이므로 오른쪽 상단 풀링 작업의 결과는 5입니다. 입력 행렬의 왼쪽 하단 2x2 하위 행렬은 [[8,2], [9,4]]이므로 왼쪽 하단 풀링 작업은 값 9를 생성합니다. 입력 행렬의 오른쪽 하단 2x2 하위 행렬은 [[2,5], [4,3]]이므로 오른쪽 하단 풀링 작업의 결과는 5입니다. 요약하면 풀링 작업으로 [[8,5], [9,5]] 2x2 행렬이 생성됩니다.

풀링을 사용하면 입력 행렬에서 병진 불변을 사용할 수 있습니다.

비전 애플리케이션의 풀링은 공식적으로 공간 풀링이라고 합니다. 시계열 애플리케이션은 일반적으로 풀링을 시간 풀링이라고 합니다. 덜 공식적으로 풀링은 서브샘플링 또는 다운샘플링이라고도 합니다.

위치 인코딩

토큰의 위치에 관한 정보를 시퀀스에서 토큰의 삽입에 추가하는 기법입니다. 트랜스포머 모델은 위치 인코딩을 사용하여 시퀀스의 여러 부분 간의 관계를 더 잘 이해합니다.

위치 인코딩의 일반적인 구현에서는 사인 함수를 사용합니다. (특히, 사인 함수의 주파수와 진폭은 시퀀스에서 토큰의 위치에 따라 결정됩니다.) 이 기법을 사용하면 트랜스포머 모델이 위치에 따라 시퀀스의 여러 부분에 집중하도록 학습할 수 있습니다.

양성 클래스

#fundamentals

#Metric

테스트할 클래스입니다.

예를 들어 암 모델의 포지티브 클래스는 '종양'일 수 있습니다. 이메일 분류 모델의 포지티브 클래스는 '스팸'일 수 있습니다.

네거티브 클래스와 대비되는 개념입니다.

아이콘을 클릭하여 추가 메모를 확인하세요.

많은 테스트의 '양성' 결과가 바람직하지 않은 결과인 경우가 많기 때문에 양성 클래스라는 용어가 혼동을 야기할 수 있습니다. 예를 들어 많은 의료 검사의 포지티브 클래스는 종양이나 질병에 해당합니다. 일반적으로 의사가 '축하합니다! 검사 결과가 음성입니다.' 어떤 경우든 포지티브 클래스는 테스트에서 찾으려는 이벤트입니다.

긍정 클래스와 부정 클래스를 동시에 테스트하고 있습니다.

후처리

#responsible

#fundamentals

모델이 실행된 후에 모델의 출력을 조정합니다. 후처리를 사용하면 모델 자체를 수정하지 않고도 공정성 제약 조건을 적용할 수 있습니다.

예를 들어 진양성률이 해당 속성의 모든 값에 대해 동일한지 확인하여 일부 속성에 대해 기회 균등이 유지되도록 분류 기준을 설정하여 이진 분류 모델에 후처리를 적용할 수 있습니다.

후 학습 모델

#generativeAI

일반적으로 다음과 같은 사후 처리를 거친 사전 학습된 모델을 지칭하는 느슨하게 정의된 용어입니다.

증류
미세 조정
지시문 조정

PR AUC (PR 곡선 아래 영역)

#Metric

다양한 분류 임계값에 대해 (재현율, 정밀도) 점을 표시하여 얻은 보간된 정밀도-재현율 곡선 아래의 면적입니다.

Praxis

Pax의 핵심 고성능 ML 라이브러리입니다. Praxis는 '레이어 라이브러리'라고도 합니다.

Praxis에는 레이어 클래스의 정의뿐만 아니라 다음을 비롯한 대부분의 지원 구성요소도 포함됩니다.

데이터 입력
구성 라이브러리 (HParam 및 Fiddle)
optimizers

Praxis는 Model 클래스의 정의를 제공합니다.

precision

#fundamentals

#Metric

분류 모델과 관련해 다음과 같은 의문에 답하는 측정항목입니다.

모델이 포지티브 클래스를 예측한 경우 예측의 몇 퍼센트가 올바른가요?

공식은 다음과 같습니다.

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

각 항목의 의미는 다음과 같습니다.

참양성은 모델이 포지티브 클래스를 정확하게 예측했음을 의미합니다.
거짓양성은 모델이 포지티브 클래스를 잘못 예측했음을 의미합니다.

예를 들어 모델에서 200개의 포지티브 예측을 했다고 가정해 보겠습니다. 이 200개의 긍정적 예측 중

150개가 참양성이었습니다.
50건은 오탐이었습니다.

이 경우에는 다음과 같습니다.

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

정확도 및 재현율과 대비됩니다.

자세한 내용은 머신러닝 단기집중과정의 분류: 정확도, 재현율, 정밀도 및 관련 측정항목을 참고하세요.

k에서의 정밀도 (precision@k)

#Metric

순위가 지정된 (정렬된) 항목 목록을 평가하는 측정항목입니다. k에서의 정밀도는 목록의 처음 k개 항목 중 '관련성'이 있는 항목의 비율을 나타냅니다. 이는 다음과 같은 의미입니다.

\[\text{precision at k} = \frac{\text{relevant items in first k items of the list}} {\text{k}}\]

k 값은 반환된 목록의 길이보다 작거나 같아야 합니다. 반환된 목록의 길이는 계산에 포함되지 않습니다.

관련성은 주관적인 경우가 많습니다. 전문가 인간 평가자조차 어떤 항목이 관련성이 있는지에 대해 의견이 일치하지 않는 경우가 많습니다.

비교 대상:

k에서의 평균 정밀도
k에서의 평균 정밀도

아이콘을 클릭하여 예를 확인하세요.

대규모 언어 모델에 다음 질문이 주어졌다고 가정해 보겠습니다.

List the 6 funniest movies of all time in order.

대규모 언어 모델은 다음 표의 처음 두 열에 표시된 목록을 반환합니다.

위치	영화	관련성
1	일반	예
2	Mean Girls	예
3	Platoon	아니요
4	내 여자친구의 결혼식	예
5	Citizen Kane	아니요
6	스파이널 탭입니다.	예

처음 세 영화 중 두 개가 관련성이 있으므로 3에서의 정밀도는 다음과 같습니다.

$$\text{precision at 3} = \frac{\text{2}} {\text{3}} = 0.67$$

처음 5개 영화 중 3개가 매우 재미있으므로 5에서의 정밀도는 다음과 같습니다.

$$\text{precision at 5} = \frac{\text{3}} {\text{5}} = 0.6$$

정밀도-재현율 곡선

#Metric

다양한 분류 임곗값에서 정밀도와 재현율을 비교한 곡선입니다.

예측

#fundamentals

모델의 출력입니다. 예를 들면 다음과 같습니다.

이진 분류 모델의 예측은 포지티브 클래스 또는 네거티브 클래스입니다.
다중 클래스 분류 모델의 예측은 하나의 클래스입니다.
선형 회귀 모델의 예측은 숫자입니다.

예측 편향

#Metric

예측의 평균이 데이터 세트의 라벨 평균과 얼마나 떨어져 있는지를 나타내는 값입니다.

머신러닝 모델의 바이어스 항 또는 윤리학 및 공정성의 편향과 혼동하지 마시기 바랍니다.

예측 ML

표준 ('클래식') 머신러닝 시스템

예측 ML이라는 용어에는 공식적인 정의가 없습니다. 이 용어는 생성형 AI를 기반으로 하지 않는 ML 시스템의 카테고리를 구분합니다.

예측 패리티

#responsible

#Metric

특정 분류 모델의 경우 고려 중인 하위 그룹의 정밀도 비율이 동일한지 확인하는 공정성 측정항목입니다.

예를 들어 대학 합격을 예측하는 모델의 정밀도 비율이 릴리풋인과 브로브딩나그인에 대해 동일한 경우 국적에 대한 예측 패리티가 충족됩니다.

예측 패리티를 예측 비율 패리티라고도 합니다.

예측 패리티에 관한 자세한 내용은 '공정성 정의 설명' (섹션 3.2.1)을 참고하세요.

예측 요금 동등성

#responsible

#Metric

예측 패리티의 또 다른 이름입니다.

전처리

#responsible

모델 학습에 사용되기 전에 데이터를 처리합니다. 전처리는 영어 텍스트 말뭉치에서 영어 사전에 없는 단어를 삭제하는 것만큼 간단할 수도 있고, 민감한 속성과 상관관계가 있는 속성을 최대한 많이 제거하는 방식으로 데이터 포인트를 다시 표현하는 것만큼 복잡할 수도 있습니다. 전처리는 공정성 제약 조건을 충족하는 데 도움이 될 수 있습니다.

선행 학습된 모델

#generativeAI

이 용어는 학습된 모델 또는 학습된 임베딩 벡터를 모두 지칭할 수 있지만, 사전 학습된 모델은 이제 일반적으로 학습된 대규모 언어 모델 또는 기타 형태의 학습된 생성형 AI 모델을 지칭합니다.

기본 모델 및 기반 모델도 참고하세요.

사전 학습

#generativeAI

대규모 데이터 세트에서 모델의 초기 학습 일부 사전 학습 모델은 서툴러서 일반적으로 추가 학습을 통해 개선해야 합니다. 예를 들어 ML 전문가는 Wikipedia의 모든 영어 페이지와 같은 방대한 텍스트 데이터 세트에서 대규모 언어 모델을 사전 학습할 수 있습니다. 사전 학습 후 결과 모델은 다음 기법 중 하나를 통해 추가로 개선될 수 있습니다.

증류
미세 조정
지시문 조정
매개변수 효율적인 조정
프롬프트 튜닝

사전 믿음

학습을 시작하기 전에 데이터에 대해 갖는 견해입니다. 예를 들어 L₂ 정규화는 가중치가 작으며 보통 0 근처에 분포한다는 사전 믿음에 의존합니다.

Pro

#generativeAI

Ultra보다 파라미터가 적지만 Nano보다는 많은 Gemini 모델입니다. 자세한 내용은 Gemini Pro를 참고하세요.

확률

일반적으로 가능성이나 확률에 따라 결정이 내려지는 상황을 말합니다. LLM은 확률 시스템으로, 확률에 따라 대답에서 다음 단어나 문장을 생성합니다.

온도가 비교적 낮으면 LLM은 가능성이 높은 단어나 문장을 선택합니다. 온도가 비교적 높으면 LLM이 더 '창의적'이 되어 가능성이 낮은 단어나 문장을 선택하기도 합니다.

확률적 회귀 모델

각 특성의 가중치뿐만 아니라 이러한 가중치의 불확실성도 사용하는 회귀 모델 확률적 회귀 모델은 예측과 해당 예측의 불확실성을 생성합니다. 예를 들어 확률적 회귀 모델은 표준편차가 12인 325라는 예측을 산출할 수 있습니다. 확률적 회귀 모델에 관한 자세한 내용은 이 tensorflow.org의 Colab을 참고하세요.

확률 밀도 함수

#Metric

정확히 특정 값을 갖는 데이터 샘플의 빈도를 식별하는 함수입니다. 데이터 세트의 값이 연속 부동 소수점 숫자인 경우 정확한 일치가 거의 발생하지 않습니다. 하지만 값 x에서 값 y까지 확률 밀도 함수를 통합하면 x와 y 사이의 데이터 샘플의 예상 빈도가 산출됩니다.

예를 들어 평균이 200이고 표준 편차가 30인 정규 분포를 생각해 보세요. 211.4~218.7 범위에 속하는 데이터 샘플의 예상 빈도를 확인하려면 211.4~218.7 범위의 정규 분포에 대한 확률 밀도 함수를 통합하면 됩니다.

절차적 기억

#agent

에이전트에서 어떤 작업을 수행하는 방법에 관한 지식입니다. 예를 들어 에이전트는 웹을 검색하고 상위 3개 사이트를 표시하는 방법에 관한 절차적 기억을 개발할 수 있습니다.

프롬프트

#generativeAI

모델이 특정 방식으로 작동하도록 조건을 지정하기 위해 대규모 언어 모델에 입력되는 텍스트입니다. 프롬프트는 구문만큼 짧을 수도 있고 소설 전체 텍스트와 같이 임의로 길 수도 있습니다. 프롬프트는 다음 표에 표시된 것을 비롯한 여러 카테고리로 분류됩니다.

프롬프트 카테고리	예	참고
질문	`비둘기는 얼마나 빨리 날 수 있나요?`
안내	`차익 거래에 관한 재미있는 시를 써 줘.`	대규모 언어 모델에 작업을 수행하도록 요청하는 프롬프트
예	`마크다운 코드를 HTML로 변환해 줘. 예: 마크다운: * 목록 항목 HTML: <ul> <li>목록 항목</li> </ul>`	이 예시 프롬프트의 첫 번째 문장은 명령어입니다. 프롬프트의 나머지 부분은 예시입니다.
역할	`물리학 박사에게 머신러닝 학습에 경사하강법이 사용되는 이유를 설명해 줘.`	문장의 첫 번째 부분은 명령어이고 '물리학 박사'라는 문구는 역할 부분입니다.
모델이 완료할 부분 입력	`영국 총리는`	부분 입력 프롬프트는 이 예와 같이 갑자기 끝나거나 밑줄로 끝날 수 있습니다.

생성형 AI 모델은 텍스트, 코드, 이미지, 임베딩, 동영상 등 거의 모든 것으로 프롬프트에 응답할 수 있습니다.

프롬프트 기반 학습

#generativeAI

특정 모델이 임의의 텍스트 입력 (프롬프트)에 대한 응답으로 동작을 조정할 수 있도록 지원하는 기능입니다. 일반적인 프롬프트 기반 학습 패러다임에서 대규모 언어 모델은 텍스트를 생성하여 프롬프트에 응답합니다. 예를 들어 사용자가 다음 프롬프트를 입력한다고 가정해 보겠습니다.

뉴턴의 운동 제3법칙을 요약해 줘.

프롬프트 기반 학습이 가능한 모델은 이전 프롬프트에 대답하도록 특별히 학습되지 않습니다. 오히려 모델은 물리학에 관한 많은 사실, 일반적인 언어 규칙에 관한 많은 내용, 일반적으로 유용한 답변을 구성하는 요소에 관한 많은 내용을 '알고' 있습니다. 이 지식은 유용한 답변을 제공하기에 충분합니다. 추가적인 인간 피드백 ('답변이 너무 복잡합니다.' 또는 '리액션이 뭐지?')을 통해 일부 프롬프트 기반 학습 시스템은 답변의 유용성을 점진적으로 개선할 수 있습니다.

프롬프트 체이닝

한 프롬프트의 출력을 다른 프롬프트의 입력으로 사용합니다. 가장 적은 것부터 가장 많은 것까지 프롬프트는 널리 사용되는 프롬프트 체이닝 형식입니다.

프롬프트 설계

#generativeAI

프롬프트 엔지니어링의 동의어입니다.

프롬프트 엔지니어링

#generativeAI

대규모 언어 모델에서 원하는 응답을 유도하는 프롬프트를 만드는 기술입니다. 사람이 프롬프트 엔지니어링을 수행합니다. 잘 구조화된 프롬프트를 작성하는 것은 대규모 언어 모델에서 유용한 대답을 보장하는 데 필수적입니다. 프롬프트 엔지니어링은 다음을 비롯한 여러 요인에 따라 달라집니다.

대규모 언어 모델을 사전 학습하고 필요에 따라 미세 조정하는 데 사용되는 데이터 세트입니다.
모델이 대답을 생성하는 데 사용하는 온도 및 기타 디코딩 파라미터입니다.

프롬프트 설계는 프롬프트 엔지니어링의 동의어입니다.

유용한 프롬프트를 작성하는 방법에 관한 자세한 내용은 프롬프트 설계 소개를 참고하세요.

프롬프트 세트

#generativeAI

대규모 언어 모델을 평가하기 위한 프롬프트 그룹입니다. 예를 들어 다음 그림은 세 개의 프롬프트로 구성된 프롬프트 세트를 보여줍니다.

LLM에 대한 세 개의 프롬프트는 세 개의 대답을 생성합니다. 세 개의 프롬프트가 프롬프트 세트입니다. 세 가지 응답이 응답 세트입니다.

좋은 프롬프트 세트는 대규모 언어 모델의 안전성과 유용성을 철저히 평가할 수 있을 만큼 충분히 '광범위한' 프롬프트 모음으로 구성됩니다.

응답 세트도 참고하세요.

프롬프트 조정

#generativeAI

시스템이 실제 프롬프트 앞에 추가하는 '프리픽스'를 학습하는 파라미터 효율적 조정 메커니즘

프롬프트 조정의 한 변형(프리픽스 조정이라고도 함)은 모든 레이어에 프리픽스를 추가하는 것입니다. 반면 대부분의 프롬프트 조정은 입력 레이어에 접두사만 추가합니다.

아이콘을 클릭하여 접두사에 대해 자세히 알아보세요.

프롬프트 조정의 경우 '프리픽스'('소프트 프롬프트'라고도 함)는 실제 프롬프트의 텍스트 토큰 삽입 앞에 추가되는 학습된 태스크별 벡터입니다. 시스템은 다른 모든 모델 파라미터를 고정하고 특정 작업에 대해 미세 조정하여 소프트 프롬프트를 학습합니다.

provenance

#responsible

디지털 미디어 콘텐츠가 생성되거나 변경된 방식을 자세히 설명하는 데이터입니다.

프록시 (민감한 속성)

#responsible

민감한 속성의 대용으로 사용되는 속성입니다. 예를 들어 개인의 우편번호가 소득, 인종 또는 민족의 프록시로 사용될 수 있습니다.

유추 라벨

#fundamentals

데이터 세트에서 직접 사용할 수 없는 라벨을 대략적으로 지정하는 데 사용되는 데이터입니다.

예를 들어 직원 스트레스 수준을 예측하는 모델을 학습시켜야 한다고 가정해 보겠습니다. 데이터 세트에 예측 기능이 많이 포함되어 있지만 스트레스 수준이라는 라벨은 포함되어 있지 않습니다. 이에 굴하지 않고 스트레스 수준의 프록시 라벨로 '직장 내 사고'를 선택합니다. 결국 스트레스를 많이 받는 직원은 침착한 직원보다 사고를 더 많이 일으킵니다. 아니면 그럴까요? 직장 내 사고는 여러 가지 이유로 실제로 증가했다가 감소할 수 있습니다.

두 번째 예로, 비가 오나요?를 데이터 세트의 불리언 라벨로 지정하려고 하지만 데이터 세트에 비 데이터가 없다고 가정합니다. 사진을 사용할 수 있는 경우 우산을 들고 있는 사람의 사진을 is it raining?에 대한 유추 라벨로 지정할 수 있습니다. 이것이 좋은 프록시 라벨인가요? 그럴 수도 있지만 일부 문화권에서는 비보다 햇빛을 가리기 위해 우산을 들고 다니는 것이 더 일반적일 수 있습니다.

프록시 라벨은 완전하지 않은 경우가 많습니다. 가능한 경우 프록시 라벨보다 실제 라벨을 선택하세요. 하지만 실제 라벨이 없는 경우 가장 끔찍하지 않은 프록시 라벨 후보를 선택하여 프록시 라벨을 매우 신중하게 선택하세요.

자세한 내용은 머신러닝 단기집중과정의 데이터 세트: 라벨을 참고하세요.

순수 함수

출력이 입력에만 기반하고 부작용이 없는 함수입니다. 특히 순수 함수는 파일의 콘텐츠나 함수 외부의 변수 값과 같은 전역 상태를 사용하거나 변경하지 않습니다.

순수 함수를 사용하여 스레드로부터 안전한 코드를 만들 수 있으며, 이는 여러 액셀러레이터 칩에 모델 코드를 샤딩할 때 유용합니다.

JAX 함수 변환 메서드를 사용하려면 입력 함수가 순수 함수여야 합니다.

Q

Q 함수

강화 학습에서 상태에서 행동을 취한 후 지정된 정책을 따를 때 예상되는 수익을 예측하는 함수입니다.

Q 함수는 상태-행동 값 함수라고도 합니다.

Q 학습

강화 학습에서 에이전트가 벨만 방정식을 적용하여 마르코프 결정 프로세스의 최적 Q 함수를 학습할 수 있는 알고리즘입니다. 마르코프 결정 프로세스는 환경을 모델링합니다.

분위수

분위수 버케팅의 각 버킷입니다.

분위수 버킷팅

각 버킷에 동일하거나 거의 동일한 수의 예제가 포함되도록 특성 값을 버킷에 배포합니다. 예를 들어 다음 그림에서는 44개의 점을 4개의 버킷으로 분할하여 각 버킷에 11개의 점이 포함되도록 합니다. 그림의 각 버킷에 동일한 수의 점이 포함되도록 하기 위해 일부 버킷은 다른 너비의 x값에 걸쳐 있습니다.

44개의 데이터 포인트를 각각 11개 포인트를 포함하는 4개의 버킷으로 나눕니다.
각 버킷에는 동일한 수의 데이터 포인트가 포함되어 있지만 일부 버킷에는 다른 버킷보다 더 넓은 범위의 특성 값이 포함되어 있습니다.

자세한 내용은 머신러닝 단기집중과정의 숫자 데이터: 구간화를 참고하세요.

양자화

다음과 같은 방식으로 사용할 수 있는 중복 정의된 용어입니다.

특정 특성에 분위수 버킷팅을 구현합니다.
더 빠른 저장, 학습, 추론을 위해 데이터를 0과 1로 변환합니다. 불리언 데이터는 다른 형식보다 노이즈와 오류에 더 강하므로 양자화는 모델 정확성을 향상할 수 있습니다. 양자화 기법에는 반올림, 자르기, 구간화가 있습니다.
모델의 매개변수를 저장하는 데 사용되는 비트 수를 줄입니다. 예를 들어 모델의 파라미터가 32비트 부동 소수점 숫자로 저장된다고 가정해 보겠습니다. 양자화는 이러한 파라미터를 32비트에서 4, 8 또는 16비트로 변환합니다. 양자화는 다음을 줄입니다.
- 컴퓨팅, 메모리, 디스크, 네트워크 사용량
- 예측 추론 시간
- 전력 소모량
하지만 양자화는 모델 예측의 정확성을 떨어뜨리기도 합니다.

큐

#TensorFlow

대기열 데이터 구조를 구현하는 TensorFlow 작업입니다. 일반적으로 I/O에서 사용됩니다.

R

RAG

#fundamentals

검색 증강 생성의 약어입니다.

랜덤 포레스트

#df

각 결정 트리가 배깅과 같은 특정 무작위 노이즈로 학습되는 결정 트리의 앙상블입니다.

랜덤 포레스트는 결정 포레스트의 한 유형입니다.

자세한 내용은 결정 트리 과정의 랜덤 포레스트를 참고하세요.

무작위 정책

강화 학습에서 무작위로 행동을 선택하는 정책입니다.

순위 (순위, 순서수)

클래스를 오름차순으로 분류하는 머신러닝 문제에서 클래스의 서수 위치입니다. 예를 들어 행동 순위 시스템은 강아지의 보상에 가장 높은 순위 (스테이크)부터 가장 낮은 순위 (시든 양배추)까지 매길 수 있습니다.

순위 (rank, 텐서)

#TensorFlow

Tensor의 차원 수입니다. 예를 들어 스칼라의 순위는 0이고, 벡터의 순위는 1이고, 행렬의 순위는 2입니다.

순위 (순서수)와 혼동하지 마시기 바랍니다.

순위

목표가 항목 목록을 정렬하는 지도 학습의 한 유형입니다.

평가자

#fundamentals

예시에 라벨을 제공하는 사람입니다. '주석 작성자'는 평가자의 또 다른 이름입니다.

자세한 내용은 머신러닝 단기집중과정의 범주형 데이터: 일반적인 문제를 참고하세요.

상식적 추론 데이터 세트 (ReCoRD)를 사용한 독해

#Metric

상식적 추론을 수행하는 LLM의 능력을 평가하는 데이터 세트입니다. 데이터 세트의 각 예시에는 세 가지 구성요소가 포함됩니다.

뉴스 기사의 단락 1~2개
본문에서 명시적 또는 암시적으로 식별된 항목 중 하나가 마스킹된 질문입니다.
답변 (마스크에 속하는 항목의 이름)

다양한 예는 ReCoRD를 참고하세요.

ReCoRD는 SuperGLUE 앙상블의 구성요소입니다.

RealToxicityPrompts

#Metric

유해한 콘텐츠가 포함될 수 있는 문장 시작 부분의 집합이 포함된 데이터 세트입니다. 이 데이터 세트를 사용하여 문장을 완성하는 유해하지 않은 텍스트를 생성하는 LLM의 능력을 평가하세요. 일반적으로 Perspective API를 사용하여 LLM이 이 작업을 얼마나 잘 수행했는지 확인합니다.

자세한 내용은 RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models를 참고하세요.

reason

#agent

에이전트가 무엇을 해야 할지 결정하는 에이전트 루프의 단계입니다. 예를 들어 에이전트는 특정 API 요청을 전송해야 한다고 결정할 수 있습니다.

recall

#fundamentals

#Metric

분류 모델과 관련해 다음과 같은 의문에 답하는 측정항목입니다.

그라운드 트루스가 포지티브 클래스인 경우 모델이 포지티브 클래스로 올바르게 식별한 예측의 비율은 얼마인가요?

공식은 다음과 같습니다.

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

각 항목의 의미는 다음과 같습니다.

참양성은 모델이 포지티브 클래스를 정확하게 예측했음을 의미합니다.
거짓음성은 모델이 네거티브 클래스를 잘못 예측했음을 의미합니다.

예를 들어 모델이 정답이 포지티브 클래스인 예시에 대해 200개의 예측을 했다고 가정해 보겠습니다. 이 200개의 예측 중

180개가 참양성이었습니다.
20건은 거짓음성이었습니다.

이 경우에는 다음과 같습니다.

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

클래스 불균형 데이터 세트에 관한 메모 아이콘을 클릭합니다.

재현율은 특히 양성 클래스가 드문 분류 모델의 예측력을 판단하는 데 유용합니다. 예를 들어 특정 질병의 양성 클래스가 백만 명 중 10명에게만 발생하는 클래스 불균형 데이터 세트를 생각해 보겠습니다. 모델에서 5백만 개의 예측을 수행하여 다음과 같은 결과가 나왔다고 가정해 보겠습니다.

참양성 30개
20 거짓음성
4,999,000개의 참음성
950 거짓양성

따라서 이 모델의 재현율은 다음과 같습니다.

recall = TP / (TP + FN)
recall = 30 / (30 + 20) = 0.6 = 60%

반면 이 모델의 정확도는 다음과 같습니다.

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

정확도가 높으면 인상적이지만 본질적으로 의미가 없습니다. 재현율은 클래스 불균형 데이터 세트에서 정확도보다 훨씬 유용한 측정항목입니다.

자세한 내용은 분류: 정확도, 재현율, 정밀도 및 관련 측정항목을 참고하세요.

k에서의 재현율 (recall@k)

#Metric

순위가 지정된 (정렬된) 항목 목록을 출력하는 시스템을 평가하는 측정항목입니다. k에서의 재현율은 반환된 관련 항목의 총수 중에서 목록의 처음 k개 항목에 있는 관련 항목의 비율을 나타냅니다.

\[\text{recall at k} = \frac{\text{relevant items in first k items of the list}} {\text{total number of relevant items in the list}}\]

k에서의 정밀도와 대비되는 개념입니다.

아이콘을 클릭하여 예를 확인하세요.

대규모 언어 모델에 다음 질문이 주어졌다고 가정해 보겠습니다.

List the 10 funniest movies of all time in order.

대규모 언어 모델은 처음 두 열에 표시된 목록을 반환합니다.

위치	영화	관련성
1	일반	예
2	Mean Girls	예
3	Platoon	아니요
4	내 여자친구의 결혼식	예
5	스파이널 탭입니다.	예
6	에어플레인!	예
7	Groundhog Day	예
8	몬티 파이튼의 성배	예
9	오펜하이머	아니요
10	Clueless	예

위 목록에 있는 영화 중 8편은 매우 재미있으므로 '목록의 관련 항목'입니다. 따라서 k에서의 재현율 계산에서 8이 분모가 됩니다. 분자는 어떤가요? 처음 4개 항목 중 3개가 관련성이 있으므로 4에서의 재현율은 다음과 같습니다.

$$\text{recall at 4} = \frac{\text{3}} {\text{8}} = 0.375$$

처음 8개 영화 중 7개가 매우 재미있으므로 8에서의 리콜은 다음과 같습니다.

$$\text{recall at 8} = \frac{\text{7}} {\text{8}} = 0.875$$

텍스트 내포 관계 인식 (RTE)

#Metric

텍스트 문장에서 가설을 수반 (논리적으로 도출)할 수 있는지 여부를 판단하는 LLM의 능력을 평가하기 위한 데이터 세트입니다. RTE 평가의 각 예시는 다음 세 부분으로 구성됩니다.

일반적으로 뉴스 또는 Wikipedia 문서에서 가져온 구절
가설
정답은 다음 중 하나입니다.
- 참입니다. 즉, 가설이 지문에서 수반될 수 있습니다.
- 거짓입니다. 즉, 가설이 지문에서 수반될 수 없습니다.

예를 들면 다음과 같습니다.

지문: 유로는 유럽 연합의 통화입니다.
가설: 프랑스에서는 유로를 통화로 사용합니다.
함의: 프랑스는 유럽 연합에 속하므로 참입니다.

RTE는 SuperGLUE 앙상블의 구성요소입니다.

ReCoRD

#Metric

상식적 추론 데이터 세트를 사용한 독해의 약어입니다.

정류 선형 유닛 (ReLU)

#fundamentals

다음 동작을 따르는 활성화 함수입니다.

입력이 음수 또는 0이면 출력은 0입니다.
입력이 양수이면 출력은 입력과 같습니다.

예를 들면 다음과 같습니다.

입력이 -3이면 출력은 0입니다.
입력이 +3이면 출력은 3.0입니다.

다음은 ReLU의 그래프입니다.

ReLU는 매우 인기 있는 활성화 함수입니다. ReLU는 동작이 단순하지만 신경망이 특성과 라벨 간의 비선형 관계를 학습할 수 있도록 지원합니다.

순환 신경망

의도적으로 여러 번 실행되는 신경망으로 각 실행의 일부가 다음 실행으로 유입됩니다. 특히 이전 실행의 히든 레이어가 다음 실행의 동일한 히든 레이어에 입력의 일부를 제공합니다. 순환 신경망(RNN)은 시퀀스를 평가할 때 특히 유용하며, 히든 레이어가 시퀀스의 이전 부분에 대한 신경망의 이전 실행으로부터 학습할 수 있습니다.

예를 들어 다음 그림은 네 번 실행되는 순환 신경망(RNN)을 보여줍니다. 첫 번째 실행에서 히든 레이어에 학습된 값이 두 번째 실행에서 동일한 히든 레이어에 입력의 일부로 제공됩니다. 마찬가지로 두 번째 실행에서 히든 레이어에 학습된 값이 세 번째 실행에서 동일한 히든 레이어에 입력의 일부로 제공됩니다. 이러한 방식으로 순환 신경망(RNN)은 개별 단어를 측정하지 않고 점진적으로 학습하여 전체 시퀀스의 의미를 예측합니다.

4회 실행되어 네 개의 입력 단어를 처리하는 RNN입니다.

참조 텍스트

#generativeAI

프롬프트에 대한 전문가의 대답입니다. 예를 들어 다음 프롬프트가 있다고 가정해 보겠습니다.

'What is your name?'이라는 질문을 영어에서 프랑스어로 번역해 줘.

전문가의 대답은 다음과 같을 수 있습니다.

Comment vous appelez-vous?

다양한 측정항목 (예: ROUGE)은 참조 텍스트가 ML 모델의 생성된 텍스트와 얼마나 일치하는지 측정합니다.

사색

#generativeAI

#agent

출력을 다음 단계로 전달하기 전에 단계의 출력을 검토 (반성)하여 에이전트 워크플로의 품질을 개선하는 전략입니다.

검사자는 응답을 생성한 LLM인 경우가 많습니다(다른 LLM일 수도 있음). 대답을 생성한 동일한 LLM이 자체 대답을 공정하게 판단할 수 있나요? '트릭'은 LLM을 비판적 (반성적) 사고방식으로 만드는 것입니다. 이 과정은 창의적인 사고방식으로 초안을 작성한 후 비판적인 사고방식으로 전환하여 수정하는 작가와 유사합니다.

예를 들어 첫 번째 단계가 커피 머그잔용 텍스트를 만드는 에이전트형 워크플로를 생각해 보세요. 이 단계의 프롬프트는 다음과 같을 수 있습니다.

크리에이터입니다. 커피 머그잔에 적합한 50자(영문 기준) 미만의 재미있는 텍스트를 생성해 줘.

이제 다음과 같은 회고 프롬프트를 상상해 보세요.

커피를 마시는 사람이라고 가정해 줘. 위의 대답이 재미있다고 생각하시나요?

그런 다음 워크플로에서 반영 점수가 높은 텍스트만 다음 단계로 전달할 수 있습니다.

회귀 모델

#fundamentals

비공식적으로 숫자 예측을 생성하는 모델입니다. (반대로 분류 모델은 클래스 예측을 생성합니다.) 예를 들어 다음은 모두 회귀 모델입니다.

특정 주택의 가치를 유로로 예측하는 모델(예: 423,000)
특정 나무의 수명을 연수로 예측하는 모델입니다(예: 23.2).
다음 6시간 동안 특정 도시에 내릴 비의 양을 인치 단위로 예측하는 모델입니다(예: 0.18).

일반적인 두 가지 유형의 회귀 모델은 다음과 같습니다.

선형 회귀: 라벨 값을 특성에 가장 잘 맞추는 선을 찾습니다.
로지스틱 회귀: 시스템이 일반적으로 클래스 예측에 매핑하는 0.0~1.0 사이의 확률을 생성합니다.

숫자 예측을 출력하는 모든 모델이 회귀 모델은 아닙니다. 숫자 예측이 숫자 클래스 이름을 갖는 분류 모델인 경우도 있습니다. 예를 들어 숫자 우편번호를 예측하는 모델은 회귀 모델이 아닌 분류 모델입니다.

정규화

#fundamentals

과적합을 줄이는 메커니즘 일반적인 정규화 유형은 다음과 같습니다.

L₁ 정규화
L₂ 정규화
드롭아웃 정규화
조기 중단 (정식으로 인정되는 정규화 방식은 아니지만 과적합을 효과적으로 제한할 수 있음)

정규화는 모델의 복잡성에 대한 페널티로 정의할 수도 있습니다.

아이콘을 클릭하여 추가 메모를 확인하세요.

정규화는 직관적이지 않습니다. 정규화를 늘리면 일반적으로 학습 손실이 증가합니다. 학습 손실을 최소화하는 것이 목표가 아니냐고 생각할 수 있습니다.

아니요. 목표는 학습 손실을 최소화하는 것이 아닙니다. 목표는 실제 사례에 대해 우수한 예측을 하는 것입니다. 정규화를 늘리면 학습 손실이 증가하지만, 일반적으로 모델이 실제 예에서 더 나은 예측을 할 수 있습니다.

자세한 내용은 머신러닝 단기집중과정의 과적합: 모델 복잡성을 참고하세요.

정규화율

#fundamentals

학습 중 정규화의 상대적 중요도를 지정하는 숫자입니다. 정규화 비율을 높이면 과적합이 줄어들지만 모델의 예측력이 감소할 수 있습니다. 반대로 정규화 비율을 줄이거나 생략하면 과적합이 증가합니다.

아이콘을 클릭하여 계산을 확인합니다.

일반적으로 규제 비율은 그리스 문자 람다로 표시됩니다. 다음은 람다의 영향을 보여주는 단순화된 손실 방정식입니다.

$$\text{minimize(loss function + }\lambda\text{(regularization))}$$

여기서 정규화는 다음을 포함한 모든 정규화 메커니즘입니다.

L₁ 정규화
L₂ 정규화

자세한 내용은 머신러닝 단기집중과정의 과적합: L2 정규화를 참고하세요.

강화 학습 (RL)

환경과 상호작용할 때 수익을 극대화하는 것을 목표로 하는 최적의 정책을 학습하는 알고리즘 계열입니다. 예를 들어 게임 대부분의 궁극적 보상은 승리입니다. 강화 학습 시스템은 이전 게임 동작에서 승리로 이어진 시퀀스와 패배로 이어진 시퀀스를 평가하여 복잡한 게임을 할 때 전문가가 될 수 있습니다.

인간 피드백 기반 강화 학습(RLHF)

#generativeAI

인적 평가자의 의견을 사용하여 모델의 대답 품질을 개선합니다. 예를 들어 RLHF 메커니즘은 사용자에게 모델의 응답 품질을 👍 또는 👎 그림 이모티콘으로 평가하도록 요청할 수 있습니다. 그러면 시스템이 이 피드백을 기반으로 향후 대답을 조정할 수 있습니다.

ReLU

#fundamentals

Rectified Linear Unit의 약어입니다.

리플레이 버퍼

DQN과 같은 알고리즘에서 에이전트가 경험 리플레이에 사용할 상태 전환을 저장하는 데 사용하는 메모리입니다.

복제본

학습 세트 또는 모델의 사본 (또는 일부)으로, 일반적으로 다른 머신에 저장됩니다. 예를 들어 시스템은 데이터 병렬 처리를 구현하기 위해 다음 전략을 사용할 수 있습니다.

기존 모델의 복제본을 여러 머신에 배치합니다.
각 복제본에 학습 세트의 서로 다른 하위 집합을 전송합니다.
매개변수 업데이트를 집계합니다.

복제본은 추론 서버의 다른 복사본을 참조할 수도 있습니다. 복제본 수를 늘리면 시스템에서 동시에 처리할 수 있는 요청 수가 늘어나지만 서빙 비용도 증가합니다.

보고 편향

#responsible

사용자가 작업, 결과 또는 속성에 관해 쓰는 빈도가 실제 빈도나 속성이 개인 클래스의 특징이 되는 정도를 반영하지 않는다는 사실입니다. 보고 편향은 머신러닝 시스템이 학습하는 데이터의 구성에 영향을 줄 수 있습니다.

예를 들어 책에서 웃음이라는 단어가 호흡보다 더 많이 나옵니다. 책 코퍼스에서 웃음과 호흡의 상대적 빈도를 예측하는 머신러닝 모델은 웃음이 호흡보다 더 일반적이라고 판단할 수 있습니다.

자세한 내용은 머신러닝 단기집중과정의 공정성: 편향 유형을 참고하세요.

벡터 표현이

데이터를 유용한 특성에 매핑하는 과정입니다.

재정렬

추천 시스템의 최종 단계이며 이 단계 중에 다른(비 ML) 알고리즘에 따라 채점된 항목을 다시 평가할 수 있습니다. 재정렬에서는 다음과 같이 조치하여 스코어링 단계에서 생성되는 항목 목록을 평가합니다.

사용자가 이미 구매한 항목 제거
새로운 항목의 점수 상향

자세한 내용은 추천 시스템 과정의 재순위 지정을 참고하세요.

응답

#generativeAI

생성형 AI 모델이 추론하는 텍스트, 이미지, 오디오 또는 동영상 즉, 프롬프트는 생성형 AI 모델의 입력이고 대답은 출력입니다.

응답 세트

#generativeAI

대규모 언어 모델이 입력 프롬프트 세트에 대해 반환하는 대답의 모음입니다.

검색 증강 생성(RAG)

#fundamentals

모델이 학습된 후에 검색된 지식 소스로 그라운딩하여 대규모 언어 모델 (LLM) 출력의 품질을 개선하는 기법입니다. RAG는 학습된 LLM에 신뢰할 수 있는 기술 자료나 문서에서 검색된 정보에 대한 액세스 권한을 제공하여 LLM 대답의 정확성을 개선합니다.

검색 증강 생성을 사용하는 일반적인 동기는 다음과 같습니다.

모델이 생성한 대답의 사실 정확성을 높입니다.
모델이 학습되지 않은 지식에 액세스하도록 허용
모델이 사용하는 지식을 변경합니다.
모델이 출처를 인용할 수 있도록 지원합니다.

예를 들어 화학 앱이 PaLM API를 사용하여 사용자 질문과 관련된 요약을 생성한다고 가정해 보겠습니다. 앱의 백엔드가 쿼리를 수신하면 백엔드는 다음을 실행합니다.

사용자의 질문과 관련된 데이터를 검색합니다.
사용자의 질문에 관련 화학 데이터를 추가 ('보강')합니다.
추가된 데이터를 기반으로 요약을 만들도록 LLM에 지시합니다.

리턴

강화 학습에서 특정 정책과 특정 상태가 주어졌을 때 수익은 에이전트가 상태에서 에피소드가 끝날 때까지 정책을 따를 때 받을 것으로 예상되는 모든 보상의 합계입니다. 에이전트는 리워드를 획득하는 데 필요한 상태 전환에 따라 리워드를 할인하여 예상 리워드의 지연된 특성을 고려합니다.

따라서 할인 계수가 $\gamma$이고 $r_0, \ldots, r_{N}$이 에피소드 종료까지의 보상을 나타내는 경우 반환 계산은 다음과 같습니다.

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

리워드가

강화 학습에서 환경에 의해 정의된 상태에서 행동을 취한 결과로 나오는 숫자입니다.

능형 정규화

L₂ 정규화의 동의어입니다. 능형 정규화라는 용어는 순수 통계 환경에서 더 자주 사용되고, L₂ 정규화는 머신러닝에서 더 자주 사용됩니다.

RNN

recurrent neural networks의 약어입니다.

수신자 조작 특성 곡선 (ROC curve, Receiver Operating Characteristic curve)

#fundamentals

#Metric

이진 분류에서 다양한 분류 임곗값에 대한 참양성률과 거짓양성률의 그래프입니다.

ROC 곡선의 모양은 이진 분류 모델이 포지티브 클래스와 네거티브 클래스를 구분하는 능력을 나타냅니다. 예를 들어 이진 분류 모델이 모든 음성 클래스를 모든 양성 클래스와 완벽하게 구분한다고 가정해 보겠습니다.

오른쪽에 8개의 긍정적 예시가 있고 왼쪽에 7개의 부정적 예시가 있는 수직선

위 모델의 ROC 곡선은 다음과 같습니다.

ROC 곡선입니다. x축은 거짓양성률이고 y축은 참양성률입니다. 곡선이 역 L자 모양입니다. 곡선은 (0.0,0.0)에서 시작하여 (0.0,1.0)까지 직선으로 올라갑니다. 그런 다음 곡선이 (0.0,1.0)에서 (1.0,1.0)으로 이동합니다.

반대로 다음 그림은 음수 클래스를 양수 클래스와 전혀 구분할 수 없는 형편없는 모델의 원시 로지스틱 회귀 값을 그래프로 나타냅니다.

양수 예와 음수 클래스가 완전히 혼합된 수직선

이 모델의 ROC 곡선은 다음과 같습니다.

ROC 곡선으로, 실제로 (0.0,0.0)에서 (1.0,1.0)까지의 직선입니다.

한편 실제 세계에서는 대부분의 이진 분류 모델이 긍정 클래스와 부정 클래스를 어느 정도 구분하지만 완벽하지는 않습니다. 따라서 일반적인 ROC 곡선은 두 극단 사이에 있습니다.

ROC 곡선입니다. x축은 거짓양성률이고 y축은 참양성률입니다. ROC 곡선은 서쪽에서 북쪽으로 나침반 포인트를 가로지르는 흔들리는 호에 근사합니다.

이론적으로 ROC 곡선에서 (0.0,1.0)에 가장 가까운 점은 이상적인 분류 임곗값을 나타냅니다. 하지만 이상적인 분류 기준점을 선택하는 데 영향을 미치는 다른 실제 문제가 몇 가지 있습니다. 예를 들어 거짓음성이 거짓양성보다 훨씬 더 큰 고통을 유발할 수 있습니다.

AUC라는 수치 측정항목은 ROC 곡선을 단일 부동 소수점 값으로 요약합니다.

역할 프롬프팅

#generativeAI

프롬프트: 일반적으로 너라는 대명사로 시작하며 생성형 AI 모델에 대답을 생성할 때 특정 인물이나 특정 역할을 하는 척하라고 지시합니다. 역할 프롬프트를 사용하면 생성형 AI 모델이 더 유용한 대답을 생성하기 위한 올바른 '마인드셋'을 갖출 수 있습니다. 예를 들어 원하는 대답의 종류에 따라 다음 역할 프롬프트 중 하나가 적합할 수 있습니다.

컴퓨터 공학 박사 학위가 있습니다.

신규 프로그래밍 학생에게 Python에 관해 인내심을 가지고 설명하는 것을 좋아하는 소프트웨어 엔지니어입니다.

당신은 매우 특별한 프로그래밍 기술을 가진 액션 영웅입니다. Python 목록에서 특정 항목을 찾을 수 있다고 확신시켜 줘.

root

#df

결정 트리의 시작 노드 (첫 번째 조건)입니다. 관례에 따라 다이어그램은 결정 트리의 루트를 상단에 배치합니다. 예를 들면 다음과 같습니다.

조건이 2개이고 리프가 3개인 결정 트리 시작 조건 (x > 2)이 루트입니다.

루트 디렉터리

#TensorFlow

여러 모델의 TensorFlow 체크포인트 및 이벤트 파일의 하위 디렉토리를 호스팅하도록 지정된 디렉토리입니다.

평균 제곱근 오차(RMSE)

#fundamentals

#Metric

평균 제곱 오차의 제곱근입니다.

회전 불변

이미지 분류 문제에서 이미지의 방향이 바뀌어도 이미지를 성공적으로 분류하는 알고리즘의 능력입니다. 예를 들어 알고리즘은 테니스 라켓이 위쪽을 향하든, 옆쪽을 향하든, 아래쪽을 향하든 테니스 라켓을 식별할 수 있습니다. 회전 불변이 항상 바람직한 것은 아닙니다. 예를 들어 거꾸로 된 9는 9로 분류되어서는 안 됩니다.

이동 불변성 및 크기 불변성도 참고하세요.

ROUGE(Recall-Oriented Understudy for Gisting Evaluation)

#Metric

자동 요약 및 기계 번역 모델을 평가하는 측정항목 계열입니다. ROUGE 측정항목은 참조 텍스트가 ML 모델의 생성된 텍스트와 얼마나 중복되는지 결정합니다. ROUGE 패밀리의 각 구성원은 서로 다른 방식으로 중복을 측정합니다. ROUGE 점수가 높을수록 참조 텍스트와 생성된 텍스트 간의 유사성이 낮을수록 높습니다.

각 ROUGE 계열 구성원은 일반적으로 다음 측정항목을 생성합니다.

정밀도
재현율
F₁

자세한 내용과 예는 다음을 참고하세요.

ROUGE-L
ROUGE-N
ROUGE-S

ROUGE-L

#Metric

참조 텍스트와 생성된 텍스트의 최장 공통 부분 수열 길이에 중점을 둔 ROUGE 계열의 구성원입니다. 다음 공식은 ROUGE-L의 재현율과 정밀도를 계산합니다.

$$\text{ROUGE-L recall} = \frac{\text{longest common sequence}} {\text{number of words in the reference text} }$$

$$\text{ROUGE-L precision} = \frac{\text{longest common sequence}} {\text{number of words in the generated text} }$$

그런 다음 F₁을 사용하여 ROUGE-L 재현율과 ROUGE-L 정밀도를 단일 측정항목으로 롤업할 수 있습니다.

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{ROUGE-L recall} * \text{ROUGE-L precision}} {\text{ROUGE-L recall} + \text{ROUGE-L precision} }$$

ROUGE-L 계산 예시 아이콘을 클릭합니다.

다음 참조 텍스트와 생성된 텍스트를 살펴보세요.

카테고리	제작자	텍스트
참조 텍스트	번역사	다양한 것을 알고 싶어.
생성된 텍스트	ML 모델	다양한 것을 배우고 싶어.

따라서 다음이 적용됩니다.

최장 공통 부분 수열은 5 (I want to of things)입니다.
참조 텍스트의 단어 수는 9개입니다.
생성된 텍스트의 단어 수는 7개입니다.

따라서 다음을 실행해야 합니다.

$$\text{ROUGE-L recall} = \frac{\text{5}} {\text{9} } = 0.56$$

$$\text{ROUGE-L precision} = \frac{\text{5}} {\text{7} } = 0.71$$

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{0.56} * \text{0.71}} {\text{0.56} + \text{0.71} } = 0.63$$

ROUGE-L은 참조 텍스트와 생성된 텍스트의 줄바꿈을 무시하므로 최장 공통 부분 수열이 여러 문장을 교차할 수 있습니다. 참조 텍스트와 생성된 텍스트에 여러 문장이 포함된 경우 일반적으로 ROUGE-Lsum이라는 ROUGE-L 변형이 더 나은 측정항목입니다. ROUGE-Lsum은 지문의 각 문장의 최장 공통 부분 수열을 결정한 다음 이러한 최장 공통 부분 수열의 평균을 계산합니다.

ROUGE-Lsum의 예시 계산을 보려면 아이콘을 클릭하세요.

다음 참조 텍스트와 생성된 텍스트를 살펴보세요.

카테고리	제작자	텍스트
참조 텍스트	번역사	화성 표면은 건조합니다. 거의 모든 물이 지하 깊은 곳에 있습니다.
생성된 텍스트	ML 모델	화성의 표면은 건조합니다. 하지만 대부분의 물은 지하에 있습니다.

따라서 날짜는 다음과 같이 계산합니다.

	첫 번째 문장	두 번째 문장
가장 긴 공통 시퀀스	2 (화성 건조)	3 (물이 지하에 있음)
참조 텍스트의 문장 길이	6	7
생성된 텍스트의 문장 길이	5	8

따라서 다음을 실행해야 합니다.

$$\text{recall of first sentence} = \frac{\text{2}} {\text{6}} = 0.33 $$

$$\text{recall of second sentence} = \frac{\text{3}} {\text{7}} = 0.43 $$

$$\text{ROUGE-Lsum recall} = \frac{\text{0.33} + \text{0.43}} {\text{2}} = 0.38 $$

$$\text{precision of first sentence} = \frac{\text{2}} {\text{5}} = 0.4 $$

$$\text{precision of second sentence} = \frac{\text{3}} {\text{8}} = 0.38 $$

$$\text{ROUGE-Lsum precision} = \frac{\text{0.4} + \text{0.38}} {\text{2}} = 0.39 $$

$$\text{ROUGE-Lsum F}{_1} = \frac{\text{2} * \text{0.38} * \text{0.39}} {\text{0.38} + \text{0.39}} = 0.38 $$

ROUGE-N

#Metric

참조 텍스트와 생성된 텍스트의 특정 크기로 공유된 N-그램을 비교하는 ROUGE 패밀리 내의 측정항목 집합입니다. 예를 들면 다음과 같습니다.

ROUGE-1은 참조 텍스트와 생성된 텍스트에서 공유된 토큰 수를 측정합니다.
ROUGE-2는 참조 텍스트와 생성된 텍스트에서 공유된 바이그램 (2그램)의 수를 측정합니다.
ROUGE-3은 참조 텍스트와 생성된 텍스트에서 공유된 트라이그램 (3그램)의 수를 측정합니다.

다음 수식을 사용하여 ROUGE-N 계열의 모든 구성원에 대한 ROUGE-N 재현율과 ROUGE-N 정밀도를 계산할 수 있습니다.

$$\text{ROUGE-N recall} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the reference text} }$$

$$\text{ROUGE-N precision} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the generated text} }$$

그런 다음 F₁을 사용하여 ROUGE-N 재현율과 ROUGE-N 정밀도를 단일 측정항목으로 집계할 수 있습니다.

$$\text{ROUGE-N F}{_1} = \frac{\text{2} * \text{ROUGE-N recall} * \text{ROUGE-N precision}} {\text{ROUGE-N recall} + \text{ROUGE-N precision} }$$

아이콘을 클릭하여 예시를 확인하세요.

사람 번역사와 비교하여 ML 모델의 번역 효과를 측정하기 위해 ROUGE-2를 사용하기로 결정했다고 가정해 보겠습니다.

카테고리	제작자	텍스트	바이그램
참조 텍스트	번역사	다양한 것을 알고 싶어.	다양한 것을 이해하고 싶어
생성된 텍스트	ML 모델	다양한 것을 배우고 싶어.	I want, want to, to learn, learn plenty, plenty of, of things

따라서 다음이 적용됩니다.

일치하는 2-gram 수는 3개 (I want, want to, of things)입니다.
참조 텍스트의 2-그램 수는 8개입니다.
생성된 텍스트의 2-그램 수는 6입니다.

따라서 다음을 실행해야 합니다.

$$\text{ROUGE-2 recall} = \frac{\text{3}} {\text{8} } = 0.375$$

$$\text{ROUGE-2 precision} = \frac{\text{3}} {\text{6} } = 0.5$$

$$\text{ROUGE-2 F}{_1} = \frac{\text{2} * \text{0.375} * \text{0.5}} {\text{0.375} + \text{0.5} } = 0.43$$

ROUGE-S

#Metric

skip-gram 일치를 지원하는 ROUGE-N의 관대한 형태입니다. 즉, ROUGE-N은 정확하게 일치하는 N-그램만 계산하지만 ROUGE-S는 하나 이상의 단어로 구분된 N-그램도 계산합니다. 예를 들어 다음 사항을 고려해 보세요.

참조 텍스트: 흰 구름
생성된 텍스트: 하얀 뭉게구름

ROUGE-N을 계산할 때 2-그램인 흰 구름은 흰 뭉게구름과 일치하지 않습니다. 하지만 ROUGE-S를 계산할 때는 흰 구름이 흰 뭉게구름과 일치합니다.

라우터 에이전트

#agent

사용자 쿼리를 분류한 다음 이를 처리하기에 가장 적합한 에이전트를 호출하는 에이전트입니다.

R 제곱

#Metric

라벨의 변동이 개별 특성 또는 특성 세트로 인해 발생하는 정도를 나타내는 회귀 측정항목입니다. R 제곱은 0과 1 사이의 값으로, 다음과 같이 해석할 수 있습니다.

R 제곱이 0이면 라벨의 변동이 기능 세트로 인한 것이 아님을 의미합니다.
R 제곱이 1이면 라벨의 모든 변동이 기능 세트 때문임을 의미합니다.
0~1 사이의 R 제곱은 특정 특성 또는 특성 세트에서 라벨의 변동을 예측할 수 있는 정도를 나타냅니다. 예를 들어 R 제곱이 0.10이면 라벨의 분산 중 10%가 특성 세트로 인한 것이고, R 제곱이 0.20이면 20%가 특성 세트로 인한 것입니다.

R 제곱은 모델이 예측한 값과 그라운드 트루스 간의 피어슨 상관 계수의 제곱입니다.

RTE

#Metric

Recognizing Textual Entailment의 약어입니다.

S

표본 추출 편향

#responsible

표본 선택 편향을 참고하세요.

복원 추출

#df

동일한 항목을 여러 번 선택할 수 있는 후보 항목 집합에서 항목을 선택하는 방법입니다. '대체 포함'이라는 문구는 각 선택 후 선택된 항목이 후보 항목 풀로 반환된다는 의미입니다. 역방향 방법인 대체 없이 샘플링은 후보 항목을 한 번만 선택할 수 있음을 의미합니다.

예를 들어 다음과 같은 과일 세트를 생각해 보겠습니다.

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

시스템에서 fig를 첫 번째 항목으로 무작위로 선택한다고 가정해 보겠습니다. 복원 샘플링을 사용하는 경우 시스템은 다음 집합에서 두 번째 항목을 선택합니다.

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

예, 이전과 동일한 세트이므로 시스템에서 fig를 다시 선택할 수 있습니다.

교체 없이 샘플링을 사용하는 경우 선택된 샘플은 다시 선택할 수 없습니다. 예를 들어 시스템에서 fig를 첫 번째 샘플로 무작위로 선택하면 fig를 다시 선택할 수 없습니다. 따라서 시스템은 다음 (축소된) 세트에서 두 번째 샘플을 선택합니다.

fruit = {kiwi, apple, pear, cherry, lime, mango}

아이콘을 클릭하여 추가 메모를 확인하세요.

복원 추출의 복원이라는 단어는 많은 사람들을 혼란스럽게 합니다. 영어로 replacement는 'substitution'을 의미합니다. 하지만 복원 샘플링은 실제로 복원에 프랑스어 정의를 사용합니다. 이는 '무언가를 다시 넣는 것'을 의미합니다.

영어 단어 replacement가 프랑스어 단어 remplacement로 번역됩니다.

SavedModel

#TensorFlow

TensorFlow 모델을 저장하고 복구하는 데 권장되는 형식입니다. SavedModel은 언어 중립적이며 복구 가능한 직렬화 형식으로서 상위 수준의 시스템 및 도구에서 TensorFlow 모델을 생성, 사용 및 변환하도록 지원합니다.

자세한 내용은 TensorFlow 프로그래머 가이드의 저장 및 복원 섹션을 참고하세요.

알뜰

#TensorFlow

모델 체크포인트 저장을 담당하는 TensorFlow 객체입니다.

스칼라

순위가 0인 텐서로 나타낼 수 있는 단일 숫자 또는 단일 문자열입니다. 예를 들어 다음 코드 줄은 각각 TensorFlow에서 스칼라 하나를 만듭니다.

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

확장

라벨, 특성 값 또는 둘 다의 범위를 이동하는 수학적 변환 또는 기법입니다. 일부 스케일링은 정규화와 같은 변환에 매우 유용합니다.

머신러닝에서 유용한 일반적인 스케일링 형태는 다음과 같습니다.

선형 스케일링: 일반적으로 빼기 및 나누기를 조합하여 원래 값을 -1~+1 또는 0~1 사이의 숫자로 대체합니다.
로그 스케일링: 원래 값을 로그로 대체합니다.
Z-점수 정규화: 원래 값을 해당 특성의 평균에서 표준 편차 수를 나타내는 부동 소수점 값으로 대체합니다.

scikit-learn

널리 사용되는 오픈소스 머신러닝 플랫폼입니다. scikit-learn.org를 참고하세요.

점수 매기기

#Metric

후보 생성 단계에서 생성된 각 항목에 값을 제공하거나 순위를 지정하는 추천 시스템의 일부입니다.

표본 선택 편향

#responsible

데이터에서 관찰되는 표본과 관찰되지 않는 표본 간에 체계적인 차이를 생성하는 표본 선택 프로세스로 인해 표본 데이터에 기반한 결론에서 발생하는 오류입니다. 다음과 같은 형태의 표본 선택 편향이 존재합니다.

포함 편향: 데이터 세트에 표시되는 모집단이 머신러닝 모델이 예측하는 모집단과 일치하지 않습니다.
표본 추출 편향: 데이터가 대상 그룹에서 무작위로 수집되지 않습니다.
무응답 편향 (응답 참여 편향이라고도 함): 특정 그룹의 사용자가 다른 그룹의 사용자와 다른 비율로 설문조사를 거부합니다.

예를 들어 영화에 대한 사람들의 선호도를 예측하는 머신러닝 모델을 생성한다고 해 봅시다. 학습 데이터를 수집하기 위해 극장의 맨 앞줄에서 영화를 보는 모든 사람에게 설문조사를 나눠줍니다. 언뜻 보기에 이 방법이 데이터 세트를 수집하는 합리적인 방법처럼 보일 수도 있지만, 이러한 형태의 데이터 수집으로 인해 다음과 같은 표본 선택 편향이 발생할 수 있습니다.

포함 편향: 영화를 보도록 선택한 모집단에서 표본을 추출했기 때문에 모델 예측이 영화에 대한 관심도를 표현하지 않은 사람들을 일반화할 수 없습니다.
표본 추출 편향: 의도한 모집단 (영화관의 모든 사람)으로부터 무작위로 표본을 추출하는 대신 맨 앞줄에 있는 사람으로부터만 표본을 추출했습니다. 맨 앞줄에 앉아 있는 사람들이 다른 줄에 있는 사람들보다 영화에 대한 관심이 더 클 가능성이 있습니다.
무응답 편향: 일반적으로 의견을 강하게 표출하는 사람일수록 온화한 사람보다 선택사항인 설문조사에 응답할 가능성이 더 높습니다. 영화 설문조사는 선택사항이므로 응답은 일반적인 (종 모양) 분포가 아닌 이봉분포를 형성할 가능성이 높습니다.

셀프 어텐션 (셀프 어텐션 계층이라고도 함)

토큰 삽입과 같은 삽입 시퀀스를 다른 삽입 시퀀스로 변환하는 신경망 레이어입니다. 출력 시퀀스의 각 삽입은 어텐션 메커니즘을 통해 입력 시퀀스의 요소에서 정보를 통합하여 구성됩니다.

셀프 어텐션의 셀프 부분은 다른 컨텍스트가 아닌 자체에 주의를 기울이는 시퀀스를 나타냅니다. 셀프 어텐션은 트랜스포머의 주요 구성요소 중 하나이며 '질의', '키', '값'과 같은 사전 조회 용어를 사용합니다.

셀프 어텐션 레이어는 각 단어에 대해 하나씩 있는 입력 표현 시퀀스로 시작합니다. 단어의 입력 표현은 간단한 삽입일 수 있습니다. 입력 시퀀스의 각 단어에 대해 네트워크는 단어와 전체 단어 시퀀스의 모든 요소 간의 관련성을 점수화합니다. 관련성 점수는 단어의 최종 표현이 다른 단어의 표현을 얼마나 많이 통합하는지 결정합니다.

예를 들어 다음 문장을 살펴보겠습니다.

동물이 너무 피곤해서 길을 건너지 않았습니다.

다음 그림 (Transformer: A Novel Neural Network Architecture for Language Understanding에서 가져옴)은 대명사 it에 대한 셀프 어텐션 레이어의 어텐션 패턴을 보여줍니다. 각 선의 어두움은 각 단어가 표현에 얼마나 기여하는지를 나타냅니다.

다음 문장이 두 번 표시됩니다. 동물은 너무 피곤해서 길을 건너지 않았습니다. 한 문장의 대명사 it이 다른 문장의 토큰 5개 (The, animal, street, it, 마침표)에 연결됩니다. 'it'이라는 대명사와 'animal'이라는 단어 사이의 선이 가장 강합니다.

셀프 어텐션 레이어는 'it'과 관련된 단어를 강조 표시합니다. 이 경우 어텐션 레이어는 모델이 참조할 수 있는 단어를 강조 표시하고 동물에 가장 높은 가중치를 할당하도록 학습했습니다.

n개의 토큰 시퀀스의 경우 셀프 어텐션은 시퀀스의 각 위치에서 한 번씩 n번 별도로 임베딩 시퀀스를 변환합니다.

어텐션 및 멀티 헤드 셀프 어텐션도 참고하세요.

자기 수정

#agent

자체 출력에서 오류를 감지한 후 다른 접근 방식을 시도하는 에이전트의 능력입니다.

자체 지도 학습

비지도 머신러닝 문제를 라벨이 지정되지 않은 예에서 대리 라벨을 만들어 지도 머신러닝 문제로 변환하는 기법의 모음입니다.

BERT와 같은 일부 Transformer 기반 모델은 자기 지도 학습을 사용합니다.

자체 지도 학습은 준지도 학습 접근 방식입니다.

자체 학습

다음 조건이 모두 충족될 때 특히 유용한 자기 지도 학습의 변형입니다.

데이터 세트에서 라벨이 없는 예의 비율이 높습니다.
이는 분류 문제입니다.

셀프 트레이닝은 모델이 더 이상 개선되지 않을 때까지 다음 두 단계를 반복하여 작동합니다.

지도 머신러닝을 사용하여 라벨이 지정된 예로 모델을 학습시킵니다.
1단계에서 만든 모델을 사용하여 라벨이 없는 예에 대한 예측 (라벨)을 생성하고, 신뢰도가 높은 예는 예측된 라벨과 함께 라벨이 있는 예로 이동합니다.

2단계의 각 반복에서는 1단계에서 학습할 라벨이 지정된 예시를 더 추가합니다.

의미 기억

학습이 종료될 때 LLM이 보유하는 정보입니다. 예를 들어 의미 기억에는 문법, 어휘, 명시적으로 학습된 사실에 관한 뛰어난 지식이 포함됩니다.

시맨틱 메모리에는 검색 증강 생성에서 수집한 정보가 포함되지 않습니다.

의미 기억은 단편적 기억과 대비됩니다.

준지도 학습

일부 학습 예에는 라벨이 있지만 다른 학습 예에는 라벨이 없는 데이터로 모델을 학습시킵니다. 준지도 학습의 한 가지 기법은 라벨이 지정되지 않은 예의 라벨을 추론한 다음 추론된 라벨을 기반으로 학습하여 새 모델을 만드는 것입니다. 준지도 학습은 라벨이 없는 예가 풍부하지만 라벨을 획득하는 비용이 많이 드는 경우에 유용할 수 있습니다.

자체 학습은 준지도 학습의 한 기법입니다.

민감한 속성

#responsible

법적, 윤리적, 사회적 또는 개인적 이유로 특별히 고려될 수 있는 인간적 속성입니다.

감정 분석

통계 또는 머신러닝 알고리즘을 사용하여 서비스, 제품, 조직, 주제 등에 대한 그룹의 전체적인 태도(긍정적 또는 부정적)를 결정합니다. 예를 들어 자연어 이해를 사용하여 대학 과정의 텍스트 피드백에 대한 감정 분석을 실시하여 학생들이 대부분 과정을 마음에 들어 했거나 싫어한 정도를 평가할 수 있습니다.

자세한 내용은 텍스트 분류 가이드를 참고하세요.

시퀀스 모델

입력에 순차적 종속성이 있는 모델입니다. 예를 들면 이전에 시청한 동영상의 순서를 바탕으로 다음에 시청할 동영상을 예측하는 경우입니다.

sequence-to-sequence 작업

토큰의 입력 시퀀스를 토큰의 출력 시퀀스로 변환하는 작업입니다. 예를 들어 인기 있는 두 가지 시퀀스-투-시퀀스 작업은 다음과 같습니다.

번역가:
- 샘플 입력 시퀀스: '사랑해'
- 샘플 출력 시퀀스: 'Je t'aime.'
질문 답변:
- 샘플 입력 시퀀스: '뉴욕에서 차가 필요해?'
- 샘플 출력 시퀀스: '아니요. 차를 집에 두세요.'

서빙

학습된 모델이 온라인 추론 또는 오프라인 추론을 통해 예측을 제공할 수 있도록 하는 프로세스입니다.

모양 (텐서)

텐서의 각 차원에 있는 요소의 수입니다. 모양은 정수 목록으로 표현됩니다. 예를 들어 다음 2차원 텐서의 모양은 [3,4]입니다.

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

TensorFlow는 행 우선 (C 스타일) 형식을 사용하여 차원의 순서를 나타내므로 TensorFlow의 모양은 [4,3]이 아닌 [3,4]입니다. 즉, 2차원 TensorFlow 텐서에서 모양은 [행 수, 열 수]입니다.

정적 모양은 컴파일 시간에 알려진 텐서 모양입니다.

동적 모양은 컴파일 시간에 알 수 없으므로 런타임 데이터에 종속됩니다. 이 텐서는 TensorFlow에서 [3, ?]와 같이 자리표시자 차원으로 표현될 수 있습니다.

샤드

#TensorFlow

#GoogleCloud

학습 세트 또는 모델의 논리적 구분입니다. 일반적으로 일부 프로세스에서는 예시 또는 매개변수를 동일한 크기의 청크로 나누어 샤드를 만듭니다. 그런 다음 각 샤드가 서로 다른 머신에 할당됩니다.

모델을 샤딩하는 것을 모델 병렬 처리라고 하고, 데이터를 샤딩하는 것을 데이터 병렬 처리라고 합니다.

shrinkage

#df

그라데이션 부스팅에서 과적합을 제어하는 초매개변수입니다. 그레이디언트 부스팅의 축소는 경사하강법의 학습률과 유사합니다. 수축률은 0.0~1.0 사이의 십진수 값입니다. 수축 값이 작을수록 수축 값이 클 때보다 과적합이 더 많이 줄어듭니다.

비교 평가

동일한 프롬프트에 대한 응답을 판단하여 두 모델의 품질을 비교합니다. 예를 들어 다음 프롬프트가 두 개의 서로 다른 모델에 제공된다고 가정해 보겠습니다.

공 3개를 저글링하는 귀여운 강아지 이미지를 만들어 줘.

나란히 평가에서 평가자는 어떤 이미지가 '더 나은지' (더 정확한가요? 더 아름다운가요? 더 귀여운가요?)

시그모이드 함수

#fundamentals

입력 값을 제한된 범위(일반적으로 0~1 또는 -1~+1)로 '압축'하는 수학 함수입니다. 즉, 시그모이드에 어떤 숫자 (2, 100만, -10억 등)를 전달하더라도 출력은 제한된 범위 내에 있습니다. 시그모이드 활성화 함수의 플롯은 다음과 같습니다.

시그모이드 함수는 머신러닝에서 다음과 같은 여러 용도로 사용됩니다.

로지스틱 회귀 또는 다항 회귀 모델의 원시 출력을 확률로 변환합니다.
일부 신경망에서 활성화 함수로 작동합니다.

아이콘을 클릭하여 계산을 확인합니다.

입력 숫자 x의 시그모이드 함수는 다음 수식을 갖습니다.

$$ sigmoid(x) = \frac{1}{1 + e^{-\text{x}}} $$

머신러닝에서 x는 일반적으로 가중치 합계입니다.

유사도 측정

#clustering

#Metric

클러스터링 알고리즘에서 두 예의 유사성을 측정하는 데 사용되는 측정항목입니다.

단일 프로그램 / 다중 데이터 (SPMD)

동일한 계산이 서로 다른 기기에서 서로 다른 입력 데이터에 병렬로 실행되는 병렬 처리 기법입니다. SPMD의 목표는 결과를 더 빠르게 얻는 것입니다. 가장 일반적인 병렬 프로그래밍 스타일입니다.

크기 불변성

이미지 분류 문제에서 이미지 크기가 변경되더라도 이미지를 성공적으로 분류하는 알고리즘의 능력입니다. 예를 들어 알고리즘은 2백만 픽셀을 사용하든 20만 픽셀을 사용하든 고양이를 식별할 수 있습니다. 최고의 이미지 분류 알고리즘조차 크기 불변성에 실질적인 한계가 있습니다. 예를 들어 고작 20픽셀만 사용하는 고양이 이미지를 알고리즘 또는 인간이 올바르게 분류해 낼 가능성은 낮습니다.

병진 불변성 및 회전 불변성도 참고하세요.

자세한 내용은 클러스터링 과정을 참고하세요.

스케치

#clustering

비지도 머신러닝에서 사례에 대한 예비 유사성 분석을 수행하는 알고리즘의 카테고리입니다. 스케칭 알고리즘에서는 로컬 구분 해싱 함수를 사용하여 유사한 점을 식별한 다음 버킷으로 그룹화합니다.

스케칭은 대규모 데이터 세트에서 유사성을 측정하는 데 필요한 계산을 줄여 줍니다. 데이터 세트에서 모든 단일 사례 쌍의 유사성을 계산하지 않고 각 버킷 내 각 점의 쌍에 대해서만 유사성을 계산합니다.

skip-gram

원래 컨텍스트에서 단어를 생략('건너뜀')할 수 있는 n-그램입니다. 즉, N개의 단어가 원래 인접하지 않았을 수 있습니다. 더 정확히 말하면 'k-skip-n-gram'은 최대 k개의 단어가 건너뛰어졌을 수 있는 n-gram입니다.

예를 들어 'the quick brown fox'에는 다음과 같은 가능한 2-그램이 있습니다.

'the quick'
'quick brown'
'갈색 여우'

'1-skip-2-gram'은 단어 사이에 최대 1개의 단어가 있는 단어 쌍입니다. 따라서 '빠른 갈색 여우'에는 다음과 같은 1-skip 2-gram이 있습니다.

'the brown'
'quick fox'

또한 건너뛸 수 있는 단어가 1개 미만이므로 모든 2-그램은 1-skip-2-그램이기도 합니다.

Skip-gram은 단어의 주변 맥락을 더 잘 이해하는 데 유용합니다. 이 예에서 'fox'는 1-skip-2-gram 집합에서는 'quick'과 직접 연결되었지만 2-gram 집합에서는 연결되지 않았습니다.

Skip-gram은 단어 임베딩 모델을 학습하는 데 도움이 됩니다.

소프트맥스

#fundamentals

다중 클래스 분류 모델에서 가능한 각 클래스의 확률을 결정하는 함수입니다. 확률의 합은 정확히 1.0입니다. 예를 들어 다음 표에서는 소프트맥스가 다양한 확률을 분배하는 방법을 보여줍니다.

이미지는...	확률
개	.85
고양이	.13
말	.02

소프트맥스를 전체 소프트맥스라고도 합니다.

후보 샘플링과 대비되는 개념입니다.

아이콘을 클릭하여 계산을 확인합니다.

소프트맥스 방정식은 다음과 같습니다.

$$\sigma_i = \frac{e^{\text{z}_i}} {\sum_{j=1}^{j=K} {e^{\text{z}_j}}} $$

각 항목의 의미는 다음과 같습니다.

$\sigma_i$ 는 출력 벡터입니다. 출력 벡터의 각 요소는 이 요소의 확률을 지정합니다. 출력 벡터의 모든 요소의 합은 1.0입니다. 출력 벡터에는 입력 벡터 $z$와 동일한 수의 요소가 포함됩니다.
$z$ 는 입력 벡터입니다. 입력 벡터의 각 요소에는 부동 소수점 값이 포함됩니다.
$K$ 는 입력 벡터 (및 출력 벡터)의 요소 수입니다.

예를 들어 입력 벡터가 다음과 같다고 가정해 보겠습니다.

[1.2, 2.5, 1.8]

따라서 소프트맥스는 분모를 다음과 같이 계산합니다.

$$\text{denominator} = e^{1.2} + e^{2.5} + e^{1.8} = 21.552$$

따라서 각 요소의 소프트맥스 확률은 다음과 같습니다.

$$\sigma_1 = \frac{e^{1.2}}{21.552} = 0.154 $$ $$\sigma_2 = \frac{e^{2.5}}{21.552} = 0.565 $$ $$\sigma_1 = \frac{e^{1.8}}{21.552} = 0.281 $$

따라서 출력 벡터는 다음과 같습니다.

$$\sigma = [0.154, 0.565, 0.281]$$

$\sigma$ 의 세 요소의 합은 1.0입니다. 다양한 혜택이 마음에 드셨나요?

자세한 내용은 머신러닝 단기집중과정의 신경망: 다중 클래스 분류를 참고하세요.

소프트 프롬프트 조정

#generativeAI

리소스 집약적인 미세 조정 없이 특정 작업을 위해 대규모 언어 모델을 조정하는 기법입니다. 모델의 모든 가중치를 재학습하는 대신 소프트 프롬프트 조정은 동일한 목표를 달성하기 위해 프롬프트를 자동으로 조정합니다.

텍스트 프롬프트가 주어지면 소프트 프롬프트 조정은 일반적으로 프롬프트에 추가 토큰 임베딩을 추가하고 역전파를 사용하여 입력을 최적화합니다.

'하드' 프롬프트에는 토큰 임베딩 대신 실제 토큰이 포함됩니다.

희소 특성

#fundamentals

값이 대부분 0이거나 비어 있는 특징입니다. 예를 들어 1 값이 하나 있고 0 값이 백만 개 있는 특성은 스파스합니다. 반면 밀도 높은 특징은 대부분의 값이 0이거나 비어 있지 않습니다.

머신러닝에서 놀라울 정도로 많은 특성이 희소 특성입니다. 범주형 특성은 일반적으로 희소 특성입니다. 예를 들어 숲에 있을 수 있는 300가지 수종 중 하나의 예에서는 단풍나무만 식별할 수 있습니다. 또는 동영상 라이브러리에 있을 수 있는 수백만 개의 동영상 중에서 단일 예시가 '카사블랑카'만 식별할 수 있습니다.

모델에서 일반적으로 원-핫 인코딩을 사용하여 희소 특성을 나타냅니다. 원-핫 인코딩이 큰 경우 효율성을 높이기 위해 원-핫 인코딩 위에 임베딩 레이어를 배치할 수 있습니다.

희소 표현

#fundamentals

희소 기능에서 0이 아닌 요소의 위치만 저장합니다.

예를 들어 species이라는 범주형 특성이 특정 숲에 있는 36가지 수종을 식별한다고 가정해 보겠습니다. 또한 각 예는 단일 종만 식별한다고 가정합니다.

원-핫 벡터를 사용하여 각 예의 수종을 나타낼 수 있습니다. 원-핫 벡터에는 단일 1 (해당 예의 특정 나무 종을 나타냄)와 35개의 0 (해당 예에 없는 35개 나무 종을 나타냄)가 포함됩니다. 따라서 maple의 원-핫 표현은 다음과 같을 수 있습니다.

위치 0~23에는 값 0이, 위치 24에는 값 1이, 위치 25~35에는 값 0이 저장된 벡터입니다.

또는 희소 표현은 특정 종의 위치를 간단히 식별합니다. maple이 24번째 위치에 있다면 maple의 희소 표현은 다음과 같습니다.

희소 표현이 원-핫 표현보다 훨씬 더 간결합니다.

아이콘을 클릭하여 약간 더 복잡한 예시를 확인하세요.

모델의 각 예시가 영어 문장의 단어(단어 순서가 아님)를 나타내야 한다고 가정해 보겠습니다. 영어는 약 170,000개의 단어로 구성되므로 영어는 약 170,000개의 요소가 있는 범주형 기능입니다. 대부분의 영어 문장에서는 170,000단어 중 극히 일부만 사용하므로 단일 예의 단어 집합은 거의 확실히 희소 데이터가 됩니다.

다음 문장을 생각해 보세요.

My dog is a great dog

원-핫 벡터의 변형을 사용하여 이 문장의 단어를 나타낼 수 있습니다. 이 변형에서는 벡터의 여러 셀에 0이 아닌 값이 포함될 수 있습니다. 또한 이 변형에서는 셀에 1이 아닌 정수가 포함될 수 있습니다. 'my', 'is', 'a', 'great'라는 단어는 문장에 한 번만 표시되지만 'dog'이라는 단어는 두 번 표시됩니다. 이 문장의 단어를 나타내기 위해 이 변형의 원-핫 벡터를 사용하면 다음 170,000개 요소 벡터가 생성됩니다.

동일한 문장의 희소 표현은 다음과 같습니다.

혼동되는 경우 아이콘을 클릭하세요.

'희소 표현'이라는 용어는 희소 표현 자체가 희소 벡터가 아니기 때문에 많은 사람들을 혼란스럽게 합니다. 희소 표현은 실제로 희소 벡터의 밀집 표현입니다. 색인 표현이라는 동의어가 '희소 표현'보다 약간 더 명확합니다.

자세한 내용은 머신러닝 단기집중과정의 범주형 데이터 작업을 참고하세요.

희소 벡터

#fundamentals

값이 대부분 0인 벡터입니다. 희소 특성 및 희소성도 참고하세요.

희소성

#Metric

벡터 또는 행렬에서 0 (또는 null)으로 설정된 요소 수를 해당 벡터 또는 행렬의 총 항목 수로 나눈 값입니다. 예를 들어 98개의 셀에 0이 포함된 100개 요소 행렬을 생각해 보세요. 희소성 계산은 다음과 같습니다.

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

특성 희소성은 특성 벡터의 희소성을 나타내고 모델 희소성은 모델 가중치의 희소성을 나타냅니다.

공간 풀링

풀링을 참고하세요.

사양 코딩

#generativeAI

소프트웨어를 설명하는 인간 언어 (예: 영어)로 파일을 작성하고 유지관리하는 프로세스입니다. 그런 다음 생성형 AI 모델이나 다른 소프트웨어 엔지니어에게 해당 설명을 충족하는 소프트웨어를 만들라고 지시할 수 있습니다.

자동 생성된 코드는 일반적으로 반복이 필요합니다. 사양 코딩에서는 설명 파일을 반복합니다. 반면 대화형 코딩에서는 프롬프트 상자 내에서 반복합니다. 실제로 자동 코드 생성에는 사양 코딩과 대화형 코딩이 모두 조합되는 경우가 있습니다.

분할

#df

결정 트리에서 조건의 또 다른 이름입니다.

분할기

#df

결정 트리를 학습하는 동안 각 노드에서 최적의 조건을 찾는 역할을 하는 루틴(및 알고리즘)입니다.

SPMD

단일 프로그램 / 다중 데이터의 약어입니다.

SQuAD

#Metric

SQuAD: 100,000+ Questions for Machine Comprehension of Text 논문에 소개된 Stanford Question Answering Dataset의 약어입니다. 이 데이터 세트의 질문은 Wikipedia 문서에 관해 질문하는 사람들의 질문에서 가져온 것입니다. SQuAD의 일부 질문에는 답변이 있지만 다른 질문에는 의도적으로 답변이 없습니다. 따라서 SQuAD를 사용하여 다음 두 가지 작업을 수행하는 LLM의 능력을 평가할 수 있습니다.

답변할 수 있는 질문에 답변합니다.
답변할 수 없는 질문을 식별합니다.

F₁과 함께 사용되는 일치검색은 LLM을 SQuAD에 대해 평가하는 데 가장 일반적으로 사용되는 측정항목입니다.

제곱 힌지 손실

#Metric

힌지 손실의 제곱입니다. 제곱 힌지 손실은 일반 힌지 손실보다 이상치에 더 가혹한 페널티를 적용합니다.

제곱 손실

#fundamentals

#Metric

L₂ 손실의 동의어입니다.

단계별 학습

불연속적인 단계의 시퀀스로 모델을 학습시키는 전략입니다. 목표는 학습 프로세스를 가속화하거나 모델 품질을 개선하는 것일 수 있습니다.

점진적 스태킹 접근 방식의 예는 아래와 같습니다.

1단계에는 3개의 숨겨진 레이어가 포함되고, 2단계에는 6개의 숨겨진 레이어가 포함되며, 3단계에는 12개의 숨겨진 레이어가 포함됩니다.
2단계에서는 1단계의 숨겨진 3개 레이어에서 학습한 가중치로 학습을 시작합니다. 3단계에서는 2단계의 6개 숨겨진 레이어에서 학습된 가중치로 학습을 시작합니다.

3단계(1단계, 2단계, 3단계로 표시됨)
각 단계에는 서로 다른 수의 레이어가 포함되어 있습니다. 1단계에는 3개의 레이어가 포함되어 있고, 2단계에는 6개의 레이어가 포함되어 있으며, 3단계에는 12개의 레이어가 포함되어 있습니다.
1단계의 3개 레이어가 2단계의 처음 3개 레이어가 됩니다.
마찬가지로 2단계의 6개 레이어가 3단계의 처음 6개 레이어가 됩니다.

파이프라인도 참고하세요.

주

#agent

강화 학습에서 에이전트가 작업을 선택하는 데 사용하는 환경의 현재 구성을 설명하는 매개변수 값입니다.

상태-행동 가치 함수

Q 함수의 동의어입니다.

상태 머신 에이전트

#agent

엄격한 규칙에 의해 워크플로가 제한되는 에이전트 상태 머신 에이전트는 일반적으로 자율 에이전트보다 실수를 적게 하지만 제약 조건 외의 상황에 적응할 자유가 없습니다.

정적

#fundamentals

지속적으로 수행하는 것이 아니라 한 번 수행하는 작업입니다. 정적과 오프라인은 동의어입니다. 다음은 머신러닝에서 정적 및 오프라인을 사용하는 일반적인 경우입니다.

정적 모델 (또는 오프라인 모델)은 한 번 학습된 후 일정 기간 사용되는 모델입니다.
정적 학습 (또는 오프라인 학습)은 정적 모델을 학습하는 프로세스입니다.
정적 추론 (또는 오프라인 추론)은 모델이 한 번에 일괄 예측을 생성하는 프로세스입니다.

동적과 대비되는 개념입니다.

정적 추론

#fundamentals

오프라인 추론의 동의어입니다.

정상성

#fundamentals

하나 이상의 측정기준(일반적으로 시간)에서 값이 변경되지 않는 특성입니다. 예를 들어 2021년과 2023년에 값이 거의 동일한 특성은 정상성을 나타냅니다.

실제로는 정상성을 보이는 특징이 거의 없습니다. 안정성과 동의어인 기능 (예: 해수면)도 시간이 지남에 따라 변합니다.

비정상성과 대비되는 개념입니다.

단계별 방법

배치 하나의 정방향 패스와 역방향 패스입니다.

순방향 패스와 역방향 패스에 관한 자세한 내용은 역전파를 참고하세요.

보폭

학습률의 동의어입니다.

확률적 경사하강법 (SGD)

#fundamentals

배치 크기가 1인 경사하강법 알고리즘입니다. 즉, SGD는 학습 세트에서 무작위로 균일하게 선택한 하나의 예로 학습합니다.

자세한 내용은 머신러닝 단기집중과정의 선형 회귀: 하이퍼파라미터를 참고하세요.

보폭

컨볼루셔널 연산 또는 풀링에서 다음 입력 슬라이스 시리즈의 각 차원에 있는 델타입니다. 예를 들어 다음 애니메이션은 컨볼루션 작업 중 (1,1) 스트라이드를 보여줍니다. 따라서 다음 입력 슬라이스는 이전 입력 슬라이스의 오른쪽 한 위치에서 시작됩니다. 작업이 오른쪽 가장자리에 도달하면 다음 슬라이스는 왼쪽으로 완전히 이동하지만 한 위치 아래로 이동합니다.

입력 5x5 행렬과 3x3 컨볼루셔널 필터 스트라이드가 (1,1)이므로 컨볼루션 필터가 9번 적용됩니다. 첫 번째 컨볼루션 슬라이스는 입력 행렬의 왼쪽 상단 3x3 하위 행렬을 평가합니다. 두 번째 슬라이스는 상단 중앙 3x3 하위 행렬을 평가합니다. 세 번째 컨볼루션 슬라이스는 오른쪽 상단 3x3 하위 행렬을 평가합니다. 네 번째 슬라이스는 중간 왼쪽 3x3 하위 행렬을 평가합니다.
다섯 번째 슬라이스는 중간 3x3 하위 행렬을 평가합니다. 여섯 번째 슬라이스는 오른쪽 중간 3x3 하위 행렬을 평가합니다. 일곱 번째 슬라이스는 왼쪽 하단의 3x3 하위 행렬을 평가합니다. 여덟 번째 슬라이스는 하단 중앙 3x3 하위 행렬을 평가합니다. 아홉 번째 슬라이스는 오른쪽 하단 3x3 하위 행렬을 평가합니다.

위의 예에서는 2차원 보폭을 보여줍니다. 입력 행렬이 3차원인 경우 스트라이드도 3차원이 됩니다.

구조적 위험 최소화 (SRM)

다음 두 가지 목표의 균형을 맞추는 알고리즘

예측이 가장 정확한 모델을 만듭니다. 예를 들어 손실을 최소화합니다.
모델을 최대한 단순하게 유지합니다. 예를 들어 강력한 정규화를 적용합니다.

예를 들어 손실을 최소화하면서 학습 세트에 정규화를 적용하는 함수는 구조적 위험 최소화 알고리즘입니다.

경험적 위험 최소화와 대비되는 개념입니다.

하위 에이전트

#agent

관리자 에이전트가 더 큰 문제의 특정 하위 집합을 처리하기 위해 호출하는 특수하고 좁은 범위의 모델입니다. 하위 에이전트는 일반적으로 에이전트보다 작업 공간이 좁습니다.

서브 샘플링

풀링을 참고하세요.

보조 단어 토큰

언어 모델에서 단어의 하위 문자열인 토큰입니다. 전체 단어일 수도 있습니다.

예를 들어 'itemize'와 같은 단어는 'item'(어근)과 'ize' (접미사)로 나눌 수 있으며, 각 단어는 자체 토큰으로 표현됩니다. 일반적이지 않은 단어를 하위 단어라고 하는 이러한 조각으로 분할하면 언어 모델이 접두사 및 접미사와 같은 단어의 더 일반적인 구성요소에 대해 작동할 수 있습니다.

반대로 'going'과 같은 일반적인 단어는 분리되지 않고 단일 토큰으로 표현될 수 있습니다.

요약

#TensorFlow

TensorFlow에서는 특정 단계에 계산된 값 또는 값 집합을 의미하며, 일반적으로 학습 중에 모델 측정항목을 추적하는 데 사용됩니다.

SuperGLUE

#Metric

LLM의 텍스트 이해 및 생성 전반적인 능력을 평가하기 위한 데이터 세트 앙상블입니다. 앙상블은 다음 데이터 세트로 구성됩니다.

불리언 질문 (BoolQ)
CommitmentBank (CB)
가능한 대안 선택 (COPA)
다중 문장 독해 (MultiRC)
상식 추론 데이터 세트가 포함된 독해 (ReCoRD)
텍스트 내포 관계 인식 (RTE)
문맥 속 단어 (WiC)
Winograd Schema Challenge (WSC)

자세한 내용은 SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems를 참고하세요.

지도 머신러닝

#fundamentals

특성과 해당 라벨에서 모델을 학습시킵니다. 지도 머신러닝은 일련의 질문과 그에 상응하는 답변을 공부하여 주제를 학습하는 것과 유사합니다. 질문과 답변 간의 매핑을 숙달한 후 학생은 동일한 주제에 관한 새로운 (이전에 본 적 없는) 질문에 답변할 수 있습니다.

비지도 머신러닝과 비교되는 개념입니다.

자세한 내용은 머신러닝 소개 과정의 감독 학습을 참고하세요.

합성 특성

#fundamentals

입력 특성 중에는 없지만 하나 이상의 입력 특성으로부터 조립되는 특성입니다. 합성 특성을 만드는 방법은 다음과 같습니다.

연속 특성을 범위 빈으로 버케팅합니다.
특성 교차를 생성합니다.
하나의 특성 값에 다른 특성 값이나 자체 특성 값을 곱하거나 나눕니다. 예를 들어 a와 b이 입력 특성인 경우 합성 특성의 예는 다음과 같습니다.
- ab
- a²
초월 함수를 특성 값에 적용합니다. 예를 들어 c이 입력 특성인 경우 합성 특성의 예는 다음과 같습니다.
- sin(c)
- ln(c)

정규화 또는 조정만으로 생성한 특성은 합성 특성에 해당하지 않습니다.

T

T5

2020년 Google AI에서 도입한 텍스트-텍스트 전이 학습 모델입니다. T5는 Transformer 아키텍처를 기반으로 하며 매우 큰 데이터 세트에서 학습된 인코더-디코더 모델입니다. 텍스트 생성, 언어 번역, 대화형 방식으로 질문에 답변하는 등 다양한 자연어 처리 작업에 효과적입니다.

T5는 'Text-to-Text Transfer Transformer'의 다섯 글자 T에서 이름을 가져왔습니다.

T5X

대규모 자연어 처리(NLP) 모델을 빌드하고 학습하도록 설계된 오픈소스 머신러닝 프레임워크입니다. T5는 T5X 코드베이스 (JAX 및 Flax 기반)에 구현됩니다.

표 형식 Q 학습

강화 학습에서 표를 사용하여 상태 및 행동의 모든 조합에 대한 Q 함수를 저장하여 Q 학습을 구현합니다.

target

라벨의 동의어입니다.

타겟 네트워크

Deep Q-learning에서는 기본 신경망의 안정적인 근사치인 신경망이 사용됩니다. 여기서 기본 신경망은 Q-함수 또는 정책을 구현합니다. 그런 다음 타겟 네트워크에서 예측한 Q 값으로 기본 네트워크를 학습시킬 수 있습니다. 따라서 기본 네트워크가 자체적으로 예측한 Q 값을 기반으로 학습할 때 발생하는 피드백 루프를 방지할 수 있습니다. 이러한 피드백을 피하면 학습 안정성이 향상됩니다.

작업

머신러닝 기법을 사용하여 해결할 수 있는 문제(예:

분류
회귀
클러스터링
이상 감지

작업 분해

큰 목표를 실행 가능한 원자적 단계로 세분화 상담사는 작업 분해를 수행하여 특정 문제를 처리합니다.

기온

#generativeAI

모델 출력의 무작위성 수준을 제어하는 하이퍼파라미터입니다. 온도가 높을수록 무작위 출력이 많아지고, 온도가 낮을수록 무작위 출력이 적어집니다.

최적의 온도는 특정 애플리케이션 또는 문자열 값에 따라 달라집니다.

시계열 데이터

서로 다른 시점에 기록된 데이터입니다. 예를 들어 연중 매일 기록된 겨울 코트 판매는 시간 데이터입니다.

텐서

#TensorFlow

TensorFlow 프로그램의 기본 데이터 구조입니다. 텐서는 N차원(N은 매우 클 수 있음) 데이터 구조로, 가장 일반적으로 스칼라, 벡터 또는 행렬입니다. 텐서의 요소는 정수, 부동 소수점 또는 문자열 값을 포함할 수 있습니다.

텐서보드

#TensorFlow

하나 이상의 TensorFlow 프로그램을 실행하는 중에 저장된 요약을 표시하는 대시보드입니다.

TensorFlow

#TensorFlow

대규모 분산형 머신러닝 플랫폼입니다. 이 용어는 데이터 흐름 그래프에서 일반적인 계산을 지원하는 TensorFlow 스택의 기본 API 레이어를 의미하기도 합니다.

TensorFlow는 주로 머신러닝에 사용되지만 데이터 흐름 그래프를 사용하여 수치 연산이 필요한 비 ML 작업에도 사용할 수 있습니다.

TensorFlow Playground

#TensorFlow

다양한 초매개변수가 모델(주로 신경망) 학습에 주는 영향을 시각적으로 보여주는 프로그램입니다. TensorFlow Playground로 실험해 보려면 http://playground.tensorflow.org로 이동하세요.

TensorFlow Serving

#TensorFlow

학습된 모델을 프로덕션 환경에 배포하는 플랫폼입니다.

Tensor Processing Unit(TPU)

#TensorFlow

#GoogleCloud

머신러닝 워크로드의 성능을 최적화하는 ASIC (Application-Specific Integrated Circuit)입니다. 이러한 ASIC은 TPU 기기에 여러 TPU 칩으로 배포됩니다.

텐서 차수

#TensorFlow

순위 (텐서)를 참고하세요.

텐서 형태

#TensorFlow

Tensor가 여러 차원에 포함하는 요소 수입니다. 예를 들어 [5, 10] 텐서의 모양은 한 차원에서 5이고 다른 차원에서 10입니다.

텐서 크기

#TensorFlow

Tensor가 포함하는 스칼라의 총 개수입니다. 예를 들어 [5, 10] 텐서의 크기는 50입니다.

TensorStore

대규모 다차원 배열을 효율적으로 읽고 쓰는 라이브러리입니다.

종료 조건

#agent

에이전트 AI에서 에이전트가 반복을 중지하도록 알려주는 사전 정의된 기준입니다. 예를 들어 다음과 같은 종료 조건이 있을 수 있습니다.

상담사가 목표를 성공적으로 완료했습니다.
에이전트가 더 이상 리소스를 사용할 수 없습니다.
human-in-the-loop에 의해 문제가 감지되었습니다.

강화 학습에서 에이전트가 특정 상태에 도달하거나 기준점 이상의 상태 전환을 초과하는 등 에피소드가 종료되는 시점을 결정하는 조건입니다. 예를 들어 틱택토 (영국에서는 noughts and crosses라고도 함)에서는 플레이어가 연속된 세 칸을 표시하거나 모든 칸이 표시되면 에피소드가 종료됩니다.

테스트

#df

결정 트리에서 조건의 또 다른 이름입니다.

테스트 손실

#fundamentals

#Metric

테스트 세트에 대한 모델의 손실을 나타내는 측정항목입니다. 모델을 빌드할 때는 일반적으로 테스트 손실을 최소화하려고 합니다. 테스트 손실이 낮을수록 낮은 학습 손실 또는 낮은 검증 손실보다 품질 신호가 더 강하기 때문입니다.

테스트 손실과 학습 손실 또는 검증 손실 간의 큰 격차는 정규화 비율을 늘려야 함을 나타낼 수 있습니다.

테스트 세트

학습된 모델을 테스트하기 위해 예약된 데이터 세트의 하위 집합입니다.

일반적으로 데이터 세트의 예는 다음과 같은 세 가지 개별 하위 집합으로 나뉩니다.

학습 세트
검증 세트
테스트 세트

데이터 세트의 각 예시는 위의 하위 집합 중 하나에만 속해야 합니다. 예를 들어 단일 예가 학습 세트와 테스트 세트에 모두 속해서는 안 됩니다.

학습 세트와 검증 세트는 모두 모델 학습과 밀접하게 관련되어 있습니다. 테스트 세트는 학습과 간접적으로만 연결되어 있으므로 테스트 손실은 학습 손실 또는 검증 손실보다 편향이 적고 품질이 높은 측정항목입니다.

자세한 내용은 머신러닝 단기집중과정의 데이터 세트: 원본 데이터 세트 나누기를 참고하세요.

텍스트 범위

텍스트 문자열의 특정 하위 섹션과 연결된 배열 색인 범위입니다. 예를 들어 Python 문자열 s="Be good now"의 단어 good는 3~6의 텍스트 범위를 차지합니다.

tf.Example

#TensorFlow

머신러닝 모델 학습 또는 추론을 위한 입력 데이터를 설명하는 표준 프로토콜 버퍼입니다.

tf.keras

#TensorFlow

TensorFlow에 통합된 Keras 구현입니다.

임계값 (결정 트리)

#df

축 정렬 조건에서 기능이 비교되는 값입니다. 예를 들어 다음 조건에서 75는 기준값입니다.

grade >= 75

자세한 내용은 결정 트리 과정의 숫자 특성을 사용한 이진 분류를 위한 정확한 분할기를 참고하세요.

시계열 분석

#clustering

머신러닝 및 통계학에서 시계열 데이터를 분석하는 하위 분야입니다. 분류, 클러스터링, 예측, 이상 감지 등 다양한 유형의 머신러닝 문제에는 시계열 분석이 필요합니다. 예를 들어 시계열 분석을 사용하여 과거 매출 데이터를 근거로 겨울 코트의 향후 월별 매출을 예측할 수 있습니다.

timestep

순환 신경망 내의 '펼쳐진' 셀 하나입니다. 예를 들어 다음 그림은 세 개의 타임스텝 (아래 첨자 t-1, t, t+1로 표시됨)을 보여줍니다.

순환 신경망의 세 가지 타임스텝 첫 번째 타임스텝의 출력이 두 번째 타임스텝의 입력이 됩니다. 두 번째 타임스텝의 출력은 세 번째 타임스텝의 입력이 됩니다.

토큰

언어 모델에서 모델이 학습하고 예측을 수행하는 원자 단위입니다. 토큰은 일반적으로 다음 중 하나입니다.

단어: 예를 들어 '개는 고양이를 좋아한다'라는 문구는 '개', '좋아한다', '고양이'라는 세 개의 단어 토큰으로 구성됩니다.
문자: 예를 들어 'bike fish'라는 문구는 9개의 문자 토큰으로 구성됩니다. (빈칸은 토큰 중 하나로 간주됩니다.)
단일 단어가 단일 토큰 또는 여러 토큰일 수 있는 하위 단어 하위 단어는 루트 단어, 접두사 또는 접미사로 구성됩니다. 예를 들어 하위 단어를 토큰으로 사용하는 언어 모델은 'dogs'라는 단어를 두 개의 토큰 (루트 단어 'dog'와 복수형 접미사 's')으로 볼 수 있습니다. 동일한 언어 모델에서 단어 'taller'를 두 개의 하위 단어 (루트 단어 'tall'과 접미사 'er')로 볼 수 있습니다.

언어 모델 외부의 도메인에서 토큰은 다른 종류의 원자 단위를 나타낼 수 있습니다. 예를 들어 컴퓨터 비전에서 토큰은 이미지의 하위 집합일 수 있습니다.

자세한 내용은 머신러닝 단기집중과정의 대규모 언어 모델을 참고하세요.

tokenizer

입력 데이터 시퀀스를 토큰으로 변환하는 시스템 또는 알고리즘입니다.

대부분의 최신 파운데이션 모델은 멀티모달입니다. 멀티모달 시스템의 토큰화 프로그램은 각 입력 유형을 적절한 형식으로 변환해야 합니다. 예를 들어 텍스트와 그래픽으로 구성된 입력 데이터가 주어지면 토큰화 도구는 입력 텍스트를 하위 단어로, 입력 이미지를 작은 패치로 변환할 수 있습니다. 그런 다음 토큰 변환기는 모든 토큰을 단일 통합 임베딩 공간으로 변환해야 합니다. 이렇게 하면 모델이 다중 모달 입력 스트림을 '이해'할 수 있습니다.

top-k 정확도

#Metric

생성된 목록의 처음 k개 위치에 '타겟 라벨'이 표시되는 횟수의 비율입니다. 목록은 맞춤 추천 또는 softmax로 정렬된 항목 목록일 수 있습니다.

상위 k 정확도는 k에서의 정확도라고도 합니다.

아이콘을 클릭하여 예시를 확인하세요.

소프트맥스를 사용하여 나무 잎 사진을 기반으로 나무 확률을 식별하는 머신러닝 시스템을 생각해 보세요. 다음 표는 5개의 입력 트리 그림에서 생성된 출력 목록을 보여줍니다. 각 행에는 타겟 라벨과 가능성이 가장 높은 5개의 트리가 포함됩니다. 예를 들어 타겟 라벨이 단풍나무인 경우 머신러닝 모델은 느릅나무를 가장 가능성이 높은 나무로, 참나무를 두 번째로 가능성이 높은 나무로 식별했습니다.

타겟 라벨	1	2	3	4	5
단풍	elm	오크	maple	너도밤나무	포플러
층층나무	오크	dogwood	포플러	Hickory	단풍
오크	oak	basswood	locust	alder	Linden
Linden	단풍	paw-paw	오크	basswood	포플러
오크	locust	Linden	oak	단풍	paw-paw

타겟 라벨은 첫 번째 위치에 한 번만 표시되므로 상위 1 정확도는 다음과 같습니다.

$$\text{top-1 accuracy} = \frac{\text{1}} {\text{5}} = 0.2$$

타겟 라벨이 상위 3개 위치 중 하나에 4번 표시되므로 상위 3개 정확도는 다음과 같습니다.

$$\text{top-1 accuracy} = \frac{\text{4}} {\text{5}} = 0.8$$

높이

심층 신경망의 구성요소로, 자체적으로 심층 신경망입니다. 경우에 따라 각 타워는 독립적인 데이터 소스에서 읽어오며, 이러한 타워는 최종 레이어에서 출력이 결합될 때까지 독립적으로 유지됩니다. 다른 경우(예: 많은 트랜스포머의 인코더 및 디코더 타워) 타워는 서로 교차 연결됩니다.

유해

#Metric

콘텐츠가 악용적이거나, 위협적이거나, 불쾌감을 주는 정도 많은 머신러닝 모델이 유해성을 식별, 측정, 분류할 수 있습니다. 이러한 모델 대부분은 욕설 수준, 위협적인 언어 수준 등 여러 매개변수에 따라 유해성을 식별합니다.

TPU

#TensorFlow

#GoogleCloud

Tensor Processing Unit의 약어입니다.

TPU 칩

#TensorFlow

#GoogleCloud

머신러닝 워크로드에 최적화된 온칩 고대역폭 메모리가 있는 프로그래밍 가능한 선형 대수 액셀러레이터입니다. TPU 기기에 여러 TPU 칩이 배포됩니다.

TPU 기기

#TensorFlow

#GoogleCloud

여러 TPU 칩, 고대역폭 네트워크 인터페이스, 시스템 냉각 하드웨어가 있는 인쇄 회로 기판 (PCB)입니다.

TPU 노드

#TensorFlow

#GoogleCloud

특정 TPU 유형이 있는 Google Cloud의 TPU 리소스입니다. TPU 노드는 피어 VPC 네트워크에서 VPC 네트워크에 연결됩니다. TPU 노드는 Cloud TPU API에 정의된 리소스입니다.

TPU Pod

#TensorFlow

#GoogleCloud

Google 데이터 센터의 특정 TPU 기기 구성입니다. TPU Pod의 모든 기기는 전용 고속 네트워크를 통해 서로 연결됩니다. TPU Pod는 특정 TPU 버전에서 사용할 수 있는 TPU 기기의 가장 큰 구성입니다.

TPU 리소스

#TensorFlow

#GoogleCloud

생성, 관리 또는 소비하는 Google Cloud의 TPU 엔티티입니다. 예를 들어 TPU 노드와 TPU 유형은 TPU 리소스입니다.

TPU 슬라이스

#TensorFlow

#GoogleCloud

TPU 슬라이스는 TPU Pod의 TPU 기기 중 일부입니다. TPU 슬라이스의 모든 기기는 전용 고속 네트워크를 통해 서로 연결됩니다.

TPU 유형

#TensorFlow

#GoogleCloud

특정 TPU 하드웨어 버전이 적용된 하나 이상의 TPU 기기 구성입니다. Google Cloud에서 TPU 노드를 만들 때 TPU 유형을 선택합니다. 예를 들어 v2-8 TPU 유형은 코어가 8개인 단일 TPU v2 기기입니다. v3-2048 TPU 유형에는 네트워크로 연결된 TPU v3 기기가 256개 있으며 총 코어 수는 2,048개입니다. TPU 유형은 Cloud TPU API에 정의된 리소스입니다.

TPU 작업자

#TensorFlow

#GoogleCloud

호스트 머신에서 실행되고 TPU 기기에서 머신러닝 프로그램을 실행하는 프로세스입니다.

학습

#fundamentals

모델을 구성하는 이상적인 매개변수 (가중치 및 편향)를 결정하는 과정입니다. 학습 중에 시스템은 예시를 읽어 들이고 매개변수를 점진적으로 조정합니다. 학습에서는 각 예시를 몇 번에서 수십억 번까지 사용합니다.

자세한 내용은 머신러닝 소개 과정의 감독 학습을 참고하세요.

학습 손실

#fundamentals

#Metric

특정 학습 반복 중에 모델의 손실을 나타내는 측정항목입니다. 예를 들어 손실 함수가 평균 제곱 오차라고 가정해 보겠습니다. 예를 들어 10번째 반복의 학습 손실 (평균 제곱 오차)이 2.2이고 100번째 반복의 학습 손실이 1.9일 수 있습니다.

손실 곡선은 학습 손실과 반복 수를 그래프로 나타냅니다. 손실 곡선은 학습에 관한 다음과 같은 힌트를 제공합니다.

하향 경사는 모델이 개선되고 있음을 의미합니다.
위쪽으로 기울어지면 모델이 나빠지고 있음을 의미합니다.
경사가 완만하다는 것은 모델이 수렴에 도달했음을 의미합니다.

예를 들어 다음은 다소 이상적인 손실 곡선을 보여줍니다.

초기 반복 중에 급격한 하향 경사: 모델이 빠르게 개선됨을 의미합니다.
학습이 끝날 때까지 점차 평탄해지지만 여전히 하향하는 경사로, 이는 초기 반복보다 약간 느린 속도로 모델이 계속 개선됨을 의미합니다.
학습이 끝날 때 평평한 기울기(수렴을 나타냄)

학습 손실 대 반복 횟수 그래프 이 손실 곡선은 급격한 하향 경사로 시작됩니다. 경사가 0이 될 때까지 경사가 점차 평탄해집니다.

학습 손실도 중요하지만 일반화도 참고하세요.

학습-제공 편향

#fundamentals

학습 중 모델의 성능과 서빙 중 동일한 모델의 성능 간의 차이입니다.

학습 세트

#fundamentals

모델을 학습시키는 데 사용되는 데이터 세트의 하위 집합입니다.

일반적으로 데이터 세트의 예는 다음과 같은 세 가지 고유한 하위 집합으로 나뉩니다.

학습 세트
검증 세트
테스트 세트

데이터 세트의 각 예시는 앞의 하위 집합 중 하나에만 속해야 합니다. 예를 들어 단일 예시가 학습 세트와 검증 세트에 모두 속해서는 안 됩니다.

자세한 내용은 머신러닝 단기집중과정의 데이터 세트: 원본 데이터 세트 나누기를 참고하세요.

궤적

강화 학습에서 에이전트의 상태 전환 시퀀스를 나타내는 튜플 시퀀스입니다. 각 튜플은 지정된 상태 전환의 상태, 작업, 보상, 다음 상태에 해당합니다.

전이 학습

한 머신러닝 작업에서 다른 작업으로 정보를 전송합니다. 예를 들어 다중 작업 학습에서는 단일 모델이 여러 작업을 해결합니다. 그중 하나인 심층 모델은 다양한 작업과 관련해 서로 다른 출력 노드를 가질 수 있습니다. 전이 학습에는 더 간단한 작업의 솔루션에서 더 복잡한 작업으로 지식을 이전하거나 데이터가 더 많은 작업에서 데이터가 더 적은 작업으로 지식을 이전하는 것이 포함될 수 있습니다.

대부분의 머신러닝 시스템은 단일 작업을 해결합니다. 전이 학습은 단일 프로그램이 여러 작업을 해결할 수 있는 인공지능을 향한 첫걸음입니다.

Transformer

Google에서 개발한 신경망 아키텍처로, 컨볼루션이나 순환 신경망에 의존하지 않고 셀프 어텐션 메커니즘을 사용하여 입력 임베딩 시퀀스를 출력 임베딩 시퀀스로 변환합니다. 트랜스포머는 셀프 어텐션 레이어의 스택으로 볼 수 있습니다.

트랜스포머에는 다음 중 하나가 포함될 수 있습니다.

인코더
디코더
인코더와 디코더를 모두

인코더는 임베딩 시퀀스를 길이가 동일한 새 시퀀스로 변환합니다. 인코더에는 동일한 레이어 N개가 포함되며 각 레이어에는 두 개의 하위 레이어가 포함됩니다. 이 두 하위 레이어는 입력 임베딩 시퀀스의 각 위치에 적용되어 시퀀스의 각 요소를 새 임베딩으로 변환합니다. 첫 번째 인코더 하위 레이어는 입력 시퀀스 전체의 정보를 집계합니다. 두 번째 인코더 하위 레이어는 집계된 정보를 출력 임베딩으로 변환합니다.

디코더는 입력 임베딩 시퀀스를 출력 임베딩 시퀀스로 변환합니다. 이때 길이가 다를 수 있습니다. 디코더에는 3개의 하위 레이어가 있는 동일한 레이어 N개도 포함되며, 이 중 2개는 인코더 하위 레이어와 유사합니다. 세 번째 디코더 하위 레이어는 인코더의 출력을 가져와 셀프 어텐션 메커니즘을 적용하여 정보를 수집합니다.

블로그 게시물 Transformer: 언어 이해를 위한 새로운 신경망 아키텍처에서 트랜스포머를 잘 소개합니다.

자세한 내용은 머신러닝 단기집중과정의 LLM: 대규모 언어 모델이란 무엇인가요?를 참고하세요.

병진 불변

이미지 분류 문제에서 이미지 내 객체의 위치가 변경되더라도 이미지를 성공적으로 분류하는 알고리즘의 능력입니다. 예를 들어 이러한 능력을 갖춘 알고리즘은 강아지가 프레임의 중앙에 있든 왼쪽 끝에 있든 간에 강아지를 식별해 낼 수 있습니다.

크기 불변 및 회전 불변도 참고하세요.

생각의 나무 프롬프팅 (ToT)

LLM이 가장 유망한 중간 솔루션을 추구하고 개선하며 나머지는 포기하도록 유도하는 정교한 프롬프팅 전략입니다. 사고의 나무 프롬프트는 다음과 같은 알고리즘을 사용합니다.

복잡한 문제를 여러 단계로 구성된 다양한 브랜치 (잠재적 전략)로 나눕니다.
LLM이 각 브랜치를 독립적으로 작업하도록 프롬프트합니다.
각 단계가 끝날 때마다 LLM에 각 브랜치의 솔루션 품질을 평가해 달라고 요청합니다.
가장 유망한 브랜치를 계속 개선하고 나머지는 포기합니다.
유망한 브랜치가 결국 실패하면 되돌아가서 유망한 다른 단계를 시도하세요.

트라이그램

N=3인 N-그램입니다.

상식 질문 답변

#Metric

LLM의 상식 질문 답변 능력을 평가하는 데 사용되는 데이터 세트입니다. 각 데이터 세트에는 퀴즈 애호가가 작성한 질문-답변 쌍이 포함되어 있습니다. 다양한 데이터 세트는 다음과 같은 다양한 소스를 기반으로 합니다.

웹 검색 (TriviaQA)
위키백과 (TriviaQA_wiki)

자세한 내용은 TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension을 참고하세요.

참음성 (TN, true negative)

#fundamentals

#Metric

모델에서 네거티브 클래스를 올바르게 예측한 예입니다. 예를 들어 모델에서 특정 이메일 메시지가 스팸이 아닌 것으로 추론했으며 실제로도 스팸이 아닌 경우가 여기에 해당합니다.

참양성 (TP)

#fundamentals

#Metric

모델에서 포지티브 클래스로 올바르게 예측한 예입니다. 예를 들어 모델에서 특정 이메일 메시지가 스팸인 것으로 추론했으며 실제로도 스팸이었던 경우가 여기에 해당합니다.

참양성률 (TPR)

#fundamentals

#Metric

재현율의 동의어입니다. 이는 다음과 같은 의미입니다.

$$\text{true positive rate} = \frac {\text{true positives}} {\text{true positives} + \text{false negatives}}$$

참양성률은 ROC 곡선의 y축입니다.

TTL

TTL(수명)의 약어입니다.

Typologically Diverse Question Answering (TyDi QA)

#Metric

LLM의 질문 답변 능력을 평가하기 위한 대규모 데이터 세트입니다. 데이터 세트에는 여러 언어로 된 질문과 답변 쌍이 포함되어 있습니다.

자세한 내용은 TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages를 참고하세요.

U

UCR

지원되지 않는 신고 비율의 약어입니다.

Ultra

#generativeAI

매개변수가 가장 많은 Gemini 모델 자세한 내용은 Gemini Ultra를 참고하세요.

Pro 및 Nano도 참고하세요.

무지 (민감한 속성에 대한)

#responsible

민감한 속성이 있지만 학습 데이터에 포함되지 않는 상황 민감한 속성은 데이터의 다른 속성과 상관관계가 있는 경우가 많으므로 민감한 속성을 인식하지 못하는 모델로 학습해도 해당 속성에 관해 불균형한 영향이 발생하거나 다른 공정성 제약 조건을 위반할 수 있습니다.

과소적합

#fundamentals

모델에서 학습 데이터의 복잡성을 완전히 포착하지 않았기 때문에 열악한 예측 기능으로 모델을 생성하는 경우입니다. 다음과 같은 여러 문제로 인해 과소적합이 발생할 수 있습니다.

잘못된 기능 세트 학습
너무 적은 에포크 또는 너무 낮은 학습률로 학습
정규화율이 너무 높음
심층신경망에 너무 적은 히든 레이어 제공

자세한 내용은 머신러닝 단기집중과정의 과적합을 참고하세요.

언더샘플링

더 균형 잡힌 학습 세트를 만들기 위해 클래스 불균형 데이터 세트의 다수 클래스에서 예를 삭제합니다.

예를 들어 다수 클래스와 소수 클래스의 비율이 20:1인 데이터 세트를 생각해 보겠습니다. 이러한 클래스 불균형을 극복하기 위해 소수 클래스 예시 전체와 다수 클래스 예시의 1/10로 구성된 학습 세트를 만들어 학습 세트 클래스 비율을 2:1로 만들 수 있습니다. 언더샘플링 덕분에 더 균형 잡힌 학습 세트로 더 나은 모델을 만들 수 있습니다. 또는 이 더 균형 잡힌 학습 세트에 효과적인 모델을 학습시키기에 충분한 예가 포함되어 있지 않을 수도 있습니다.

오버샘플링과 대비되는 개념입니다.

단방향

대상 텍스트 섹션 앞에 있는 텍스트만 평가하는 시스템입니다. 반면 양방향 시스템은 대상 텍스트 섹션의 앞과 뒤에 있는 텍스트를 모두 평가합니다. 자세한 내용은 양방향을 참고하세요.

단방향 언어 모델

타겟 토큰 후가 아닌 전에 표시되는 토큰만을 기반으로 확률을 계산하는 언어 모델입니다. 양방향 언어 모델과 대비되는 개념입니다.

라벨이 없는 예

#fundamentals

특성은 포함하지만 라벨은 포함하지 않는 예 예를 들어 다음 표에는 주택 가치 평가 모델의 라벨이 지정되지 않은 세 가지 예가 표시되어 있습니다. 각 예에는 세 가지 특징이 있지만 주택 가치는 없습니다.

침실 수	욕실 수	주택 연령
3	2	15
2	1	72
4	2	34

지도 머신러닝에서 모델은 라벨이 지정된 예로 학습하고 라벨이 지정되지 않은 예에 대한 예측을 수행합니다.

준지도 및 비지도 학습에서는 라벨이 없는 예가 학습에 사용됩니다.

라벨이 없는 예와 라벨이 있는 예를 비교합니다.

비지도 머신러닝

#clustering

#fundamentals

일반적으로 라벨이 없는 데이터 세트에서 패턴을 찾도록 모델을 학습시킵니다.

비지도 머신러닝의 가장 일반적인 용도는 데이터를 서로 비슷한 예의 그룹으로 클러스터링하는 것입니다. 예를 들어 비지도 머신러닝 알고리즘은 음악의 다양한 속성을 기반으로 노래를 클러스터링할 수 있습니다. 결과 클러스터는 다른 머신러닝 알고리즘 (예: 음악 추천 서비스)의 입력이 될 수 있습니다. 클러스터링은 유용한 라벨이 부족하거나 없는 경우에 도움이 될 수 있습니다. 예를 들어 악용 및 사기 행위 방지와 같은 분야에서 클러스터는 사람이 데이터를 이해하는 데 도움을 줄 수 있습니다.

지도 머신러닝과 대비되는 개념입니다.

아이콘을 클릭하여 추가 메모를 확인하세요.

비지도 머신러닝의 또 다른 예는 주성분 분석 (PCA)입니다. 예를 들어 장바구니 수백만 개의 내용을 포함하는 데이터 세트에 PCA를 적용하면 레몬이 들어있는 장바구니에 제산제가 같이 들어있는 경우가 많다는 사실이 드러날 수 있습니다.

자세한 내용은 ML 소개 과정의 머신러닝이란 무엇인가요?를 참고하세요.

지원되지 않는 클레임 비율 (UCR)

#Metric

대답의 주장 중 그라운딩되지 않은 주장의 비율입니다. 예를 들어 LLM의 대답에 10개의 주장이 포함되어 있지만 그라운딩된 주장이 1개뿐인 경우 UCR은 90%입니다.

UCR이 높다는 것은 LLM이 너무 자주 환각을 일으킨다는 의미입니다.

인용 정밀도 및 인용 재현율도 참고하세요.

상승 모델링

마케팅에서 일반적으로 사용되는 모델링 기법으로, '개인'에 대한 '처리'의 '인과 효과'('증분 효과'라고도 함)를 모델링합니다. 다음은 두 가지 예입니다.

의사는 환자(개인)의 연령과 병력에 따라 의료 시술 (치료)의 사망률 감소 (인과 효과)를 예측하기 위해 uplift modeling을 사용할 수 있습니다.
마케팅 담당자는 광고(처리)가 개인에게 미치는 구매 확률(인과 효과)의 증가를 예측하기 위해 광고효과 모델링을 사용할 수 있습니다.

Uplift 모델링은 일부 라벨 (예: 바이너리 처리의 라벨 절반)이 항상 누락된다는 점에서 분류 또는 회귀와 다릅니다. 예를 들어 환자는 치료를 받거나 받지 않을 수 있습니다. 따라서 이러한 두 상황 중 하나에서만 환자가 회복되는지 또는 회복되지 않는지 관찰할 수 있습니다 (두 상황 모두에서는 관찰할 수 없음). 상승도 모델의 주요 장점은 관찰되지 않은 상황 (반사실)에 대한 예측을 생성하고 이를 사용하여 인과관계를 계산할 수 있다는 것입니다.

가중치 보정

다운샘플링된 요소와 동일한 다운샘플링된 클래스에 가중치를 적용합니다.

사용자 행렬

추천 시스템에서 행렬 분해로 생성된 임베딩 벡터로, 사용자 선호도에 관한 잠재적 신호를 보유합니다. 사용자 행렬의 각 행에는 단일 사용자에 대한 여러 잠재적 신호의 상대적 강도에 관한 정보가 포함되어 있습니다. 예를 들어 영화 추천 시스템을 살펴보겠습니다. 이 시스템에서 사용자 행렬의 잠재적 신호는 특정 장르에 관한 각 사용자의 선호도를 나타내거나, 여러 요소에 걸친 복잡한 상호작용이 연관된 해석하기 어려운 신호를 나타낼 수 있습니다.

사용자 행렬에는 각 잠재 특성에 관한 열과 각 사용자에 관한 행이 있습니다. 즉, 사용자 행렬에는 인수 분해되는 대상 행렬과 동일한 수의 행이 있습니다. 예를 들어 1,000,000명의 사용자를 위한 영화 추천 시스템의 경우 사용자 행렬은 1,000,000개의 행을 포함합니다.

V

validation

#fundamentals

모델 품질의 초기 평가입니다. 검증은 검증 세트에 대해 모델의 예측 품질을 확인합니다.

검증 세트는 학습 세트와 다르기 때문에 검증을 통해 과적합을 방지할 수 있습니다.

검증 세트를 기준으로 모델을 평가하는 것을 첫 번째 테스트 라운드로 생각하고 테스트 세트를 기준으로 모델을 평가하는 것을 두 번째 테스트 라운드로 생각할 수 있습니다.

검증 손실

#fundamentals

#Metric

학습의 특정 반복 중에 검증 세트에 대한 모델의 손실을 나타내는 측정항목입니다.

일반화 곡선도 참고하세요.

검증 세트

#fundamentals

학습된 모델에 대해 초기 평가를 실행하는 데이터 세트의 하위 집합입니다. 일반적으로 테스트 세트를 기준으로 모델을 평가하기 전에 검증 세트를 기준으로 학습된 모델을 여러 번 평가합니다.

일반적으로 데이터 세트의 예는 다음과 같은 세 가지 개별 하위 집합으로 나뉩니다.

학습 세트
검증 세트
테스트 세트

데이터 세트의 각 예시는 앞의 하위 집합 중 하나에만 속해야 합니다. 예를 들어 단일 예시가 학습 세트와 검증 세트에 모두 속해서는 안 됩니다.

자세한 내용은 머신러닝 단기집중과정의 데이터 세트: 원본 데이터 세트 나누기를 참고하세요.

값 대치

누락된 값을 허용되는 대체 값으로 바꾸는 프로세스입니다. 값이 누락된 경우 전체 예시를 삭제하거나 값 대체를 사용하여 예시를 복구할 수 있습니다.

예를 들어 매시간 기록되어야 하는 temperature 기능이 포함된 데이터 세트를 생각해 보겠습니다. 하지만 특정 시간의 온도 측정값을 사용할 수 없었습니다. 다음은 데이터 세트의 일부입니다.

타임스탬프	온도
1680561000	10
1680564600	12
1680568200	결측치
1680571800	20
1680575400	21
1680579000	21

시스템은 누락된 예시를 삭제하거나 대체 알고리즘에 따라 누락된 온도를 12, 16, 18 또는 20으로 대체할 수 있습니다.

경사 소멸 문제

일부 심층신경망의 초기 히든 레이어의 그라데이션이 놀라울 정도로 평평해지는 (낮아지는) 경향 경사가 점점 낮아지면 심층신경망의 노드 가중치가 점점 작게 변경되어 학습이 거의 또는 전혀 이루어지지 않습니다. 경사 소멸 문제가 있는 모델은 학습이 어렵거나 불가능해집니다. Long Short-Term Memory 셀은 이 문제를 해결합니다.

기울기 폭발 문제와 비교해 보세요.

변수 중요도

#df

#Metric

모델에 대한 각 특성의 상대적 중요도를 나타내는 점수 집합입니다.

예를 들어 주택 가격을 추정하는 결정 트리를 생각해 보세요. 이 결정 트리에서 크기, 연령, 스타일의 세 가지 특징을 사용한다고 가정해 보겠습니다. 세 가지 특징의 변수 중요도가 {size=5.8, age=2.5, style=4.7}로 계산되면 크기가 연령이나 스타일보다 의사결정 트리에 더 중요합니다.

다양한 변수 중요도 측정항목이 있으며, 이를 통해 ML 전문가에게 모델의 다양한 측면에 관한 정보를 제공할 수 있습니다.

변이 자동 인코더 (VAE)

입력과 출력 간의 불일치를 활용하여 수정된 버전의 입력을 생성하는 자동 인코더의 한 유형입니다. 변이 자동 인코더는 생성형 AI에 유용합니다.

VAE는 확률 모델의 매개변수를 추정하는 기법인 변분 추론을 기반으로 합니다.

벡터

의미가 다양한 수학 및 과학 분야에서 달라지는 매우 과부하된 용어입니다. 머신러닝에서 벡터에는 두 가지 속성이 있습니다.

데이터 유형: 머신러닝의 벡터는 일반적으로 부동 소수점 숫자를 보유합니다.
요소 수: 벡터의 길이 또는 차원입니다.

예를 들어 8개의 부동 소수점 숫자를 보유하는 특성 벡터를 생각해 보겠습니다. 이 특징 벡터의 길이 또는 차원은 8입니다. 머신러닝 벡터에는 차원이 매우 많은 경우가 많습니다.

다양한 종류의 정보를 벡터로 나타낼 수 있습니다. 예를 들면 다음과 같습니다.

지구 표면의 모든 위치는 2차원 벡터로 나타낼 수 있습니다. 여기서 한 차원은 위도이고 다른 차원은 경도입니다.
500개 주식의 현재 가격은 500차원 벡터로 나타낼 수 있습니다.
유한한 수의 클래스에 대한 확률 분포는 벡터로 나타낼 수 있습니다. 예를 들어 세 가지 출력 색상 (빨간색, 녹색, 노란색) 중 하나를 예측하는 다중 클래스 분류 시스템은 P[red]=0.3, P[green]=0.2, P[yellow]=0.5을 의미하는 벡터 (0.3, 0.2, 0.5)를 출력할 수 있습니다.

벡터는 연결할 수 있으므로 다양한 미디어를 단일 벡터로 나타낼 수 있습니다. 일부 모델은 여러 원-핫 인코딩의 연결에서 직접 작동합니다.

TPU와 같은 특수 프로세서는 벡터에 대한 수학 연산을 실행하도록 최적화되어 있습니다.

벡터는 순위 1의 텐서입니다.

Vertex

#GoogleCloud

#generativeAI

AI 및 머신러닝을 위한 Google Cloud의 플랫폼입니다. Vertex는 Gemini 모델에 대한 액세스를 비롯하여 AI 애플리케이션을 빌드, 배포, 관리하기 위한 도구와 인프라를 제공합니다.

바이브 코딩

#generativeAI

생성형 AI 모델에 소프트웨어를 만들도록 프롬프트를 입력합니다. 즉, 프롬프트는 소프트웨어의 목적과 기능을 설명하며, 생성형 AI 모델은 이를 소스 코드로 변환합니다. 생성된 코드가 항상 의도와 일치하지는 않으므로 바이브 코딩에는 일반적으로 반복이 필요합니다.

안드레이 카르파티는 이 X 게시물에서 바이브 코딩이라는 용어를 만들었습니다. X 게시물에서 Karpathy는 이를 '분위기에 완전히 빠져드는 새로운 종류의 코딩'이라고 설명합니다. 따라서 이 용어는 원래 생성된 코드를 검사하지 않을 수도 있는 소프트웨어 생성에 대한 의도적으로 느슨한 접근 방식을 의미했습니다. 하지만 많은 분야에서 이 용어가 빠르게 발전하여 이제 AI 생성 코딩의 모든 형태를 의미합니다.

바이브 코딩에 관한 자세한 설명은 바이브 코딩이란 무엇인가요?

또한 바이브 코딩을 다음 항목과 비교 및 대조합니다.

specificational coding
대화형 코딩

W

Wasserstein 손실

#Metric

생성적 적대 네트워크에서 일반적으로 사용되는 손실 함수 중 하나로, 생성된 데이터와 실제 데이터의 분포 간 지구 이동기 거리에 기반합니다.

무게

#fundamentals

모델이 다른 값에 곱하는 값입니다. 학습은 모델의 이상적인 가중치를 결정하는 프로세스이고, 추론은 학습된 가중치를 사용하여 예측을 수행하는 프로세스입니다.

아이콘을 클릭하여 선형 모델의 가중치 예를 확인합니다.

특성이 두 개인 선형 모델을 상상해 보세요. 학습을 통해 다음 가중치 (및 편향)가 결정된다고 가정해 보겠습니다.

편향 b의 값은 2.2입니다.
한 기능과 연결된 가중치 w₁은 1.5입니다.
다른 기능과 연결된 가중치 w₂는 0.4입니다.

이제 다음과 같은 기능 값이 있는 예를 상상해 보세요.

한 특성 x₁의 값은 6입니다.
다른 특성 x₂의 값은 10입니다.

이 선형 모델은 다음 공식을 사용하여 예측 y'을 생성합니다.

$$y' = b + w_1x_1 + w_2x_2$$

따라서 예측은 다음과 같습니다.

$$y' = 2.2 + (1.5)(6) + (0.4)(10) = 15.2$$

가중치가 0인 특성은 모델에 영향을 주지 못합니다. 예를 들어 w₁이 0이면 x₁의 값은 관련이 없습니다.

자세한 내용은 머신러닝 단기집중과정의 선형 회귀를 참고하세요.

Weighted Alternating Least Squares (WALS)

추천 시스템에서 행렬 분해 중에 목표 함수를 최소화하는 알고리즘입니다. 이를 통해 누락된 예의 가중치를 낮출 수 있습니다. WALS는 행 인수분해와 열 인수분해를 교대로 바꾸어 원본 행렬과 재구성 사이의 가중 제곱 오차를 최소화합니다. 최소 제곱 볼록 최적화를 통해 각 최적화를 해결할 수 있습니다. 자세한 내용은 추천 시스템 과정을 참고하세요.

가중치가 적용된 합계

#fundamentals

모든 관련 입력값에 해당 가중치를 곱한 값의 합계입니다. 예를 들어 관련 입력이 다음과 같다고 가정해 보겠습니다.

입력 값	입력 가중치
2	-1.3
-1	0.6
3	0.4

따라서 가중치가 적용된 합계는 다음과 같습니다.

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

가중치가 적용된 합계는 활성화 함수의 입력 인수입니다.

WiC

#Metric

Words in Context의 약어입니다.

와이드 모델

일반적으로 많은 희소 입력 특성을 갖는 선형 모델입니다. 이러한 모델은 출력 노드에 직접 연결되는 많은 수의 입력을 갖는 특수한 유형의 신경망이므로 '와이드'로 지칭됩니다. 와이드 모델은 심층 모델보다 디버그 및 조사가 더 쉬운 경우가 많습니다. 광범위한 모델은 숨겨진 레이어를 통해 비선형성을 표현할 수 없지만 특성 교차 및 버킷화와 같은 변환을 사용하여 다른 방식으로 비선형성을 모델링할 수 있습니다.

심층 모델과 대비되는 개념입니다.

너비

신경망의 특정 레이어에 있는 뉴런의 수입니다.

WikiLingua (wiki_lingua)

#Metric

짧은 기사를 요약하는 LLM의 능력을 평가하기 위한 데이터 세트입니다. 다양한 작업을 수행하는 방법을 설명하는 문서 백과사전인 WikiHow는 문서와 요약 모두의 인간 작성 소스입니다. 데이터 세트의 각 항목은 다음으로 구성됩니다.

번호가 매겨진 목록의 산문 (단락) 버전의 각 단계를 각 단계의 시작 문장을 제외하고 추가하여 생성된 문서입니다.
번호가 매겨진 목록에 있는 각 단계의 첫 문장으로 구성된 문서의 요약입니다.

자세한 내용은 WikiLingua: A New Benchmark Dataset for Cross-Lingual Abstractive Summarization을 참고하세요.

Winograd Schema Challenge (WSC)

#Metric

대명사가 참조하는 명사구를 결정하는 LLM의 능력을 평가하기 위한 형식 (또는 해당 형식을 준수하는 데이터 세트)입니다.

Winograd Schema Challenge의 각 항목은 다음으로 구성됩니다.

타겟 대명사가 포함된 짧은 문구
대상 대명사
후보 명사구와 정답 (불리언)이 차례로 표시됩니다. 타겟 대명사가 이 후보자를 가리키면 대답은 True입니다. 타겟 대명사가 이 후보자를 가리키지 않으면 대답은 False입니다.

예를 들면 다음과 같습니다.

구절: 마크는 자신에 대해 많은 거짓말을 했고, 피트는 이를 자신의 책에 포함했습니다. 그는 더 솔직했어야 했습니다.
대상 인칭 대명사: He
후보 명사구:
- 마크: 대상 대명사가 마크를 가리키므로 True
- 피트: 거짓. 타겟 대명사가 피트를 가리키지 않기 때문입니다.

Winograd Schema Challenge는 SuperGLUE 앙상블의 구성요소입니다.

집단 지성

#df

많은 사람 ('대중')의 의견이나 추정치를 평균하면 놀라울 정도로 좋은 결과가 나온다는 아이디어입니다. 예를 들어 큰 병에 들어 있는 젤리빈의 수를 추측하는 게임을 생각해 보세요. 개별 추측은 대부분 정확하지 않지만 모든 추측의 평균은 항아리에 있는 실제 젤리빈 수에 놀라울 정도로 근접한 것으로 실증적으로 입증되었습니다.

앙상블은 집단 지성의 소프트웨어 버전입니다. 개별 모델이 매우 부정확한 예측을 하더라도 여러 모델의 예측을 평균하면 놀라울 정도로 좋은 예측이 생성되는 경우가 많습니다. 예를 들어 개별 결정 트리는 예측을 제대로 하지 못할 수 있지만 결정 포레스트는 매우 정확한 예측을 하는 경우가 많습니다.

WMT

Conference on Machine Translation의 약어입니다. (원래 이름이 Workshop on Machine Translation이었기 때문에 약어는 WMT입니다.) 이 컨퍼런스에서는 기계 번역 시스템의 개발에 중점을 둡니다.

단어 임베딩

임베딩 벡터 내의 단어 집합에 있는 각 단어를 표현합니다. 즉, 각 단어를 0.0~1.0 사이의 부동 소수점 값의 벡터로 표현합니다. 의미가 비슷한 단어는 의미가 다른 단어보다 표현이 더 유사합니다. 예를 들어 당근, 샐러리, 오이는 모두 표현이 비교적 유사하며, 비행기, 선글라스, 치약의 표현과는 매우 다릅니다.

문맥 속 단어 (WiC)

#Metric

LLM이 컨텍스트를 사용하여 의미가 여러 개인 단어를 얼마나 잘 이해하는지 평가하기 위한 데이터 세트입니다. 데이터 세트의 각 항목에는 다음이 포함됩니다.

타겟 단어가 포함된 두 문장
타겟 단어
정답 (불리언)입니다. 여기서
- True는 타겟 단어가 두 문장에서 동일한 의미를 갖는다는 뜻입니다.
- False는 타겟 단어가 두 문장에서 의미가 다름을 의미합니다.

예를 들면 다음과 같습니다.

두 문장:
- 강바닥에 쓰레기가 많이 있습니다.
- 잠을 잘 때 침대 옆에 물 한 잔을 둡니다.
타겟 단어: 침대
정답: 거짓. 두 문장에서 타겟 단어의 의미가 다르기 때문입니다.

자세한 내용은 WiC: the Word-in-Context Dataset for Evaluating Context-Sensitive Meaning Representations을 참고하세요.

Words in Context는 SuperGLUE 앙상블의 구성요소입니다.

WSC

#Metric

Winograd Schema Challenge의 약어입니다.

X

XLA (가속 선형 대수학)

GPU, CPU, ML 가속기를 위한 오픈소스 머신러닝 컴파일러입니다.

XLA 컴파일러는 PyTorch, TensorFlow, JAX와 같은 인기 ML 프레임워크의 모델을 가져와 GPU, CPU, ML 액셀러레이터를 비롯한 다양한 하드웨어 플랫폼에서 고성능으로 실행되도록 최적화합니다.

XL-Sum (xlsum)

#Metric

텍스트 요약에 대한 LLM의 숙련도를 평가하기 위한 데이터 세트입니다. XL-Sum은 다양한 언어로 항목을 제공합니다. 데이터 세트의 각 항목에는 다음이 포함됩니다.

영국 방송 공사 (BBC)에서 가져온 기사입니다.
기사 작성자가 작성한 기사의 요약입니다. 요약에는 기사에 없는 단어나 구문이 포함될 수 있습니다.

자세한 내용은 XL-Sum: 44개 언어를 위한 대규모 다국어 추출 요약을 참고하세요.

xsum

Extreme Summarization의 약어입니다.

Z

제로샷 학습

모델이 이미 구체적으로 학습되지 않은 작업에 대한 예측을 추론하는 머신러닝 학습 유형입니다. 즉, 모델에는 작업별 학습 예가 제공되지 않지만 해당 작업에 대한 추론을 수행하도록 요청됩니다.

제로샷 프롬프팅

#generativeAI

대규모 언어 모델이 응답하는 방식을 보여주는 예시를 제공하지 않는 프롬프트 예를 들면 다음과 같습니다.

하나의 프롬프트의 일부	참고
`지정된 국가의 공식 통화는 무엇인가요?`	LLM이 답변해야 하는 질문입니다.
`인도:`	실제 쿼리입니다.

대규모 언어 모델은 다음 중 하나로 대답할 수 있습니다.

루피 기호
INR
₹
인도 루피
루피
인도 루피

모두 정답이지만 특정 형식을 선호할 수도 있습니다.

제로샷 프롬프트를 다음 용어와 비교 및 대조하세요.

원샷 프롬프팅
퓨샷 프롬프팅

Z-점수 정규화

#fundamentals

원시 특성 값을 해당 특성의 평균에서 표준 편차 수를 나타내는 부동 소수점 값으로 대체하는 스케일링 기법입니다. 예를 들어 평균이 800이고 표준편차가 100인 특성을 생각해 보겠습니다. 다음 표는 Z 점수 정규화가 원시 값을 Z 점수에 매핑하는 방법을 보여줍니다.

원본 값	Z-점수
800	0
950	+1.5
575	-2.25

그러면 머신러닝 모델이 원시 값이 아닌 해당 특성의 Z 점수를 기반으로 학습합니다.

자세한 내용은 머신러닝 단기집중과정의 숫자 데이터: 정규화를 참고하세요.

머신러닝 용어집 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.

A

절제

A/B 테스트

액셀러레이터 칩

정확성

정확도 및 클래스 불균형 데이터 세트에 관한 세부정보를 보려면 아이콘을 클릭하세요.

행동

action

action space(작업 공간)

활성화 함수

아이콘을 클릭하여 예를 확인하세요.

능동적 학습

AdaGrad

적응

에이전트

대리적/대리자적

에이전트 루프

에이전트형 워크플로

에이전트 조정

병합형 군집화

AI 슬롭

이상 감지

AR

PR 곡선 아래 영역

ROC 곡선 아래 영역

범용 인공지능

인공지능

Attention,

속성

속성 샘플링

AUC (ROC 곡선 아래 영역)

아이콘을 클릭하여 AUC와 ROC 곡선 간의 관계를 알아보세요.

AUC의 보다 공식적인 정의를 보려면 아이콘을 클릭하세요.

증강 현실

autoencoder

자동 평가

자동화 편향

AutoML

자율 에이전트

자동 평가 도구 평가

자기 회귀 모델

보조 손실

k에서의 평균 정밀도

아이콘을 클릭하여 예시를 확인하세요.

축 정렬 조건

B

역전파

bagging

단어 집합

기준

기본 모델

일괄

일괄 추론

배치 정규화

배치 크기

베이즈 신경망

Bayesian 최적화

벨만 방정식

BERT (Bidirectional Encoder Representations from Transformers)

편향(bias)(윤리학/공정성)

편향(bias)(수학) 또는 편향 항

양방향

양방향 언어 모델

바이그램

이진 분류

이진 조건

비닝

블랙박스 모델

BLEU (Bilingual Evaluation Understudy)

BLEURT (Bilingual Evaluation Understudy from Transformers)

불리언 질문 (BoolQ)

BoolQ

부스팅

경계 상자

방송

아이콘을 클릭하여 예시를 확인하세요.

버킷팅,

아이콘을 클릭하여 추가 메모를 확인하세요.

C

머신러닝 용어집