머신러닝 용어집

이 용어집에는 일반적인 머신러닝 용어와 TensorFlow 관련 용어가 정의되어 있습니다.

A

절제

모델에서 일시적으로 삭제하여 구성요소의 특성 또는 구성요소의 중요도를 평가하는 기술입니다. 그런 다음 해당 특성이나 구성요소가 없는 모델을 다시 학습시킵니다. 다시 학습된 모델의 성능이 상당히 나빠지면 삭제된 특성 또는 구성요소가 중요했을 가능성이 높습니다.

예를 들어 10개의 특성에 대해 분류 모델을 학습시키고 테스트 세트에서 88% 의 정밀도를 달성한다고 가정해 보겠습니다. 첫 번째 특성의 중요도를 확인하려면 9개의 다른 특성만 사용하여 모델을 다시 학습시키면 됩니다. 재학습된 모델의 성능이 상당히 나쁘다면 (예: 정밀도 55%) 삭제된 특성이 중요했을 수 있습니다. 반대로 재학습된 모델의 성능이 동등하다면 해당 특성은 그다지 중요하지 않을 수 있습니다.

절제술은 다음 사항의 중요성을 판단하는 데에도 도움이 될 수 있습니다.

  • 대규모 구성요소(예: 대규모 ML 시스템의 전체 하위 시스템)
  • 프로세스 또는 기술(예: 데이터 전처리 단계)

두 경우 모두 구성요소를 삭제한 후 시스템의 성능이 어떻게 변경되는지 (또는 변경되지 않는지) 관찰할 수 있습니다.

A/B 테스트

두 가지 이상의 기법, 즉 AB를 통계적으로 비교하는 방법입니다. 일반적으로 A는 기존 기법이고 B는 새로운 기법입니다. A/B 테스트는 성능이 더 우수한 기법뿐만 아니라 그 차이가 통계적으로 유의미한지도 확인합니다.

A/B 테스팅에서는 일반적으로 두 기법에서 단일 측정항목을 비교합니다. 예를 들어 두 기법의 모델 정확도는 어떻게 다른가요? 그러나 A/B 테스트를 통해 한정된 수의 측정항목을 비교할 수도 있습니다.

가속기 칩

#GoogleCloud

딥 러닝 알고리즘에 필요한 주요 계산을 실행하도록 설계된 특수 하드웨어 구성요소 카테고리입니다.

가속기 칩 (또는 간단히 가속기)은 범용 CPU에 비해 학습 및 추론 작업의 속도와 효율성을 크게 향상시킬 수 있습니다. 신경망 및 컴퓨팅 집약적인 유사 작업을 학습시키는 데 이상적입니다.

가속기 칩의 예는 다음과 같습니다.

  • 딥 러닝 전용 하드웨어를 갖춘 Google의 Tensor Processing Unit (TPU)
  • NVIDIA의 GPU는 처음에 그래픽 처리용으로 설계되었지만 병렬 처리가 가능해 처리 속도를 크게 높일 수 있습니다.

정확성

#fundamentals

정확한 분류 예측 수를 총 예측 수로 나눈 값입니다. 이는 다음과 같은 의미입니다.

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

예를 들어 올바른 예측을 40번, 예측을 10번 잘못 한 모델의 정확도는 다음과 같습니다.

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

이진 분류올바른 예측잘못된 예측의 여러 카테고리에 대해 구체적인 이름을 제공합니다. 따라서 이진 분류의 정확도 공식은 다음과 같습니다.

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

각 매개변수는 다음과 같습니다.

  • TP는 참양성 (올바른 예측)의 수입니다.
  • TN은 참음성 (올바른 예측)의 수입니다.
  • FP는 거짓양성 (잘못된 예측)의 수입니다.
  • FN은 거짓음성 (잘못된 예측)의 수입니다.

정확성을 정밀도재현율과 비교 및 대조합니다.

작업

#rl

강화 학습에서 에이전트환경상태 간에 전환하는 메커니즘입니다. 에이전트는 정책을 사용하여 작업을 선택합니다.

활성화 함수

#fundamentals

신경망이 특성과 라벨 간의 비선형 (복잡한) 관계를 학습할 수 있도록 하는 함수입니다.

인기 있는 활성화 함수는 다음과 같습니다.

활성화 함수의 도표는 단일 직선이 아닙니다. 예를 들어 ReLU 활성화 함수의 플롯은 두 개의 직선으로 구성됩니다.

두 줄의 데카르트 도표입니다. 첫 번째 줄은 상수 y 값 0을 가지며 x축을 따라 -infinity,0에서 0,-0까지 이어집니다.
          두 번째 줄은 0,0에서 시작합니다. 이 선의 기울기는 +1이므로
          0,0에서 +무한대,+무한대까지 이어집니다.

시그모이드 활성화 함수의 플롯은 다음과 같습니다.

도메인 -무한대에서 +양까지의 x값을
          포함하는 2차원 곡선 도표이며, y 값의 범위는
          거의 0에서 거의 1입니다. x가 0일 때 y는 0.5입니다. 곡선의 기울기는 항상 양수이며 0,0.5에서 가장 높은 기울기가 x의 절댓값이 증가함에 따라 점진적으로 감소합니다.

능동적 학습

알고리즘이 학습하는 데이터의 일부를 선택하는 학습 접근 방식입니다. 능동적 학습은 라벨이 지정된 예를 구하기가 드물거나 비용이 많이 드는 경우에 특히 유용합니다. 능동적 학습 알고리즘은 라벨이 지정된 다양한 범위의 예를 맹목적으로 탐색하는 대신 학습에 필요한 특정 범위의 예를 선택적으로 찾습니다.

AdaGrad

매개변수의 경사를 재조정하여 효과적으로 각 매개변수에 독립적인 학습률을 부여하는 정교한 경사하강법 알고리즘입니다. 자세한 설명은 이 AdaGrad 논문을 참조하세요.

에이전트

#rl

강화 학습에서 정책을 사용하여 환경상태 간 전환에서 얻은 예상 수익을 극대화하는 항목입니다.

보다 일반적으로 에이전트란 환경 변화에 적응할 수 있는 기능을 갖추고 목표에 따라 일련의 작업을 자율적으로 계획하고 실행하는 소프트웨어입니다. 예를 들어 LLM 기반 에이전트는 강화 학습 정책을 적용하는 대신 LLM을 사용하여 계획을 생성할 수 있습니다.

응집적 군집화

#clustering

계층적 군집화를 참조하세요.

이상 감지

이상점을 식별하는 과정입니다. 예를 들어 특정 특성의 평균이 100이고 표준 편차가 10이면 이상 감지 기능에서 200을 의심스러운 값으로 신고해야 합니다.

AR

증강 현실의 약어입니다.

PR 곡선 아래 영역

PR AUC (PR 곡선 아래 영역)를 참고하세요.

ROC 곡선 아래 영역

AUC (ROC 곡선 아래 영역)를 참고하세요.

인공지능

광범위한 문제 해결, 창의성, 적응성을 보여주는 인간이 아닌 메커니즘입니다. 예를 들어 인공지능을 보여주는 프로그램은 텍스트를 번역하고 교향곡을 작곡하며 또한 아직 발명되지 않은 게임에 뛰어난 능력을 발휘할 수 있습니다.

오해가 있는데

#fundamentals

정교한 작업을 해결할 수 있는 사람이 만들지 않은 프로그램 또는 model입니다. 예를 들어 텍스트를 번역하는 프로그램이나 모델, 방사선 이미지에서 질병을 식별하는 프로그램이나 모델은 모두 인공지능을 나타냅니다.

공식적으로 머신러닝은 인공지능의 하위 분야입니다. 하지만 최근 몇 년 동안 일부 조직에서는 인공지능머신러닝이라는 용어를 같은 의미로 사용하기 시작했습니다.

Attention,

#language

신경망에서 특정 단어 또는 단어의 일부의 중요도를 나타내는 데 사용되는 메커니즘입니다. 주목을 사용하면 모델이 다음 토큰/단어를 예측하는 데 필요한 정보의 양이 압축됩니다. 일반적인 어텐션 메커니즘은 입력 세트에 대한 가중 합계로 구성될 수 있으며, 여기서 각 입력의 가중치는 신경망의 다른 부분에서 계산됩니다.

Transformer의 구성요소인 셀프 어텐션멀티 헤드 셀프 어텐션도 참조하세요.

속성

#fairness

기능의 동의어입니다.

머신러닝 공정성에서 속성은 종종 개인과 관련된 특성을 나타냅니다.

속성 샘플링

#df

결정 트리조건을 학습할 때 가능한 특성의 무작위 하위 집합만 고려하는 결정 포레스트 학습 전략입니다. 일반적으로 노드마다 서로 다른 특성 하위 집합이 샘플링됩니다. 반면에 속성 샘플링 없이 결정 트리를 학습시키는 경우 각 노드에서 가능한 모든 특성이 고려됩니다.

AUC (ROC 곡선 아래 영역)

#fundamentals

이진 분류 모델이 포지티브 클래스네거티브 클래스를 구분하는 능력을 나타내는 0.0과 1.0 사이의 숫자입니다. AUC가 1.0에 가까울수록 모델의 클래스 간 분리 능력이 좋습니다.

예를 들어 다음 그림은 포지티브 클래스 (녹색 타원)와 네거티브 클래스(보라색 직사각형)를 완벽하게 분리하는 분류기 모델을 보여줍니다. 비현실적으로 완벽한 이 모델의 AUC는 1.0입니다.

한 쪽에는 긍정적인 예 8개가 있고 다른 쪽에는 부정적인 예 9개가 있는 숫자 선

반대로 다음 그림은 임의의 결과를 생성한 분류 기준 모델의 결과를 보여줍니다. 이 모델의 AUC는 0.5입니다.

긍정적인 예 6개와 부정적인 예 6개가 있는 숫자 선입니다.
          예시 시퀀스는 양수, 음의, 양성, 음의, 양성, 음의, 양성, 음의, 양성, 양성, 음성입니다.

예, 이전 모델의 AUC는 0.0이 아닌 0.5입니다.

대부분의 모델은 두 극단 사이의 어딘가에 있습니다. 예를 들어 다음 모델은 양성과 음성이 어느 정도 분리되므로 AUC는 0.5~1.0입니다.

긍정적인 예 6개와 부정적인 예 6개가 있는 숫자 선입니다.
          예시 시퀀스는 음수, 음의, 부정적, 네거티브, 긍정, 음의, 긍정, 긍정, 부정적, 긍정, 긍정, 긍정의 순서로 되어 있습니다.

AUC는 분류 임계값에 설정한 모든 값을 무시합니다. 대신 AUC는 가능한 모든 분류 임곗값을 고려합니다.

증강 현실

#image

컴퓨터 생성 이미지를 사용자가 보는 실제 환경에 중첩하여 합성 뷰를 제공하는 기술입니다.

오토인코더

#language
#image

입력에서 가장 중요한 정보를 추출하도록 학습하는 시스템입니다. 자동 인코더는 인코더디코더의 조합입니다. 자동 인코더는 다음과 같은 2단계 프로세스를 사용합니다.

  1. 인코더는 입력을 (일반적으로) 손실이 있는 저차원(중간) 형식으로 매핑합니다.
  2. 디코더는 저차원 형식을 원래의 고차원 입력 형식에 매핑하여 원래 입력의 손실 버전을 빌드합니다.

자동 인코더는 디코더가 인코더의 중간 형식에서 원래 입력을 최대한 유사하게 재구성하려고 시도하도록 하여 엔드 투 엔드로 학습됩니다. 중간 형식은 원본 형식보다 작기 때문에(저차원) 자동 인코더는 입력의 어떤 정보가 필수적인지 학습해야 하며 출력이 입력과 완전히 동일하지 않습니다.

예를 들면 다음과 같습니다.

  • 입력 데이터가 그래픽인 경우 정확하지 않은 사본이 원본 그래픽과 유사하지만 약간 수정됩니다. 정확하지 않은 사본이 원본 그래픽에서 노이즈를 제거하거나 누락된 일부 픽셀을 채울 수 있습니다.
  • 입력 데이터가 텍스트이면 오토인코더는 원본 텍스트를 모방하지만 동일하지는 않은 새 텍스트를 생성합니다.

변분 자동 인코더도 참고하세요.

자동화 편향

#fairness

의사 결정권자가 자동화된 의사결정 시스템에 오류가 있더라도 자동화 없이 생성된 정보보다 자동화된 의사결정 시스템이 제공하는 권장사항을 선호하는 경우입니다.

AutoML

머신러닝 모델 빌드를 위한 자동화된 프로세스. AutoML은 다음과 같은 작업을 자동으로 수행할 수 있습니다.

  • 가장 적절한 모델을 검색합니다.
  • 초매개변수를 조정합니다.
  • 데이터 준비 (특성 추출 실행 포함)
  • 결과 모델을 배포합니다.

AutoML은 머신러닝 파이프라인 개발에 드는 시간과 노력을 절감하고 예측 정확도를 높일 수 있으므로 데이터 과학자에게 유용합니다. 복잡한 머신러닝 작업의 접근성을 높여 비전문가도 유용합니다.

자동 회귀 모델

#language
#image
#생성형AI

자체 이전 예측을 기반으로 예측을 추론하는 model입니다. 예를 들어 자동 회귀 언어 모델은 이전에 예측된 토큰을 기반으로 다음 토큰을 예측합니다. 모든 Transformer 기반 대규모 언어 모델은 자동 회귀를 지원합니다.

반대로 GAN 기반 이미지 모델은 단계를 반복하지 않고 단일 정방향 전달로 이미지를 생성하므로 일반적으로 자동 회귀성이 없습니다. 그러나 특정 이미지 생성 모델은 이미지를 단계적으로 생성하기 때문에 자동 회귀가 가능합니다.

보조 손실

신경망 모델의 기본 손실 함수와 함께 사용되는 손실 함수: 가중치가 무작위로 초기화되는 초기 반복 중에 학습을 가속화하는 데 도움이 됩니다.

보조 손실 함수는 유효한 경사를 이전 레이어로 푸시합니다. 이는 경사 소실 문제를 해결하여 학습수렴을 용이하게 합니다.

평균 정밀도

순위가 지정된 결과 시퀀스의 실적을 요약하기 위한 측정항목입니다. 평균 정밀도는 관련된 각 결과 (각 결과에 비해 재현율이 이전 결과에 비해 증가하는 순위 목록의 각 결과)의 정밀도 값의 평균을 사용하여 계산됩니다.

PR 곡선 아래 영역도 참조하세요.

축 정렬 조건

#df

결정 트리에서 하나의 특성만 포함된 조건 예를 들어 영역이 지형지물인 경우 축 정렬 조건은 다음과 같습니다.

area > 200

경사 조건과 대비되는 개념입니다.

B

역전파

#fundamentals

신경망에서 경사하강법을 구현하는 알고리즘입니다.

신경망을 학습시키려면 다음과 같은 2통과 주기를 여러 번 반복해야 합니다.

  1. 정방향 패스 중에 시스템은 배치를 처리하여 예측을 생성합니다. 시스템은 각 예측을 각 label 값과 비교합니다. 이 예에서 예측과 라벨 값의 차이는 손실입니다. 시스템은 모든 예시의 손실을 집계하여 현재 배치의 총 손실을 계산합니다.
  2. 역전파(역전파) 과정에서 시스템은 모든 히든 레이어에 있는 모든 뉴런의 가중치를 조정하여 손실을 줄입니다.

신경망은 여러 히든 레이어에 걸쳐 다수의 뉴런을 포함하는 경우가 많습니다. 이러한 각 뉴런은 서로 다른 방식으로 전체 손실에 기여합니다. 역전파는 특정 뉴런에 적용되는 가중치를 늘리거나 줄일지 결정합니다.

학습률은 각 역방향 전달에서 각 가중치가 증가하거나 감소하는 정도를 제어하는 승수입니다. 학습률이 클수록 각 가중치가 작은 학습률보다 더 많이 증가하거나 감소합니다.

미적분학에서 역전파는 미적분에서 체인 규칙을 구현합니다. 즉, 역전파는 각 매개변수를 기준으로 오차의 편미분을 계산합니다.

몇 년 전만 해도 ML 실무자는 역전파를 구현하기 위해 코드를 작성해야 했습니다. 이제 TensorFlow와 같은 최신 ML API에서 역전파를 구현할 수 있습니다. 다양한 혜택이 마음에 드셨나요?

배깅

#df

앙상블학습하는 방법입니다. 이때 각 구성요소 모델대체로 샘플링된 학습 예의 무작위 하위 집합에서 학습합니다. 예를 들어 랜덤 포레스트는 배깅을 통해 학습된 결정 트리 모음입니다.

배깅이라는 용어는 스트랩 집계의 줄임말입니다.

단어 집합

#language

순서와 관계없이 단어를 구 또는 구절로 표현합니다. 예를 들어 단어 집합은 다음 세 문구를 동일하게 나타냅니다.

  • 점프하는
  • 개 점프
  • 점프하는 개

각 단어는 희소 벡터의 색인에 매핑되며 벡터에는 어휘의 모든 단어에 대한 색인이 있습니다. 예를 들어 the dog 현황은 특성 벡터에 매핑되며 the, dog, jumps 단어에 해당하는 세 개의 색인에 0이 아닌 값이 포함됩니다. 0이 아닌 값은 다음 중 하나일 수 있습니다.

  • 1은 단어가 있음을 나타냅니다.
  • 가방에 단어가 나타나는 횟수입니다. 예를 들어 the maroon dog is a dog with maroon fur라는 문구가 있으면 maroondog는 모두 2로 표시되고 다른 단어는 1로 표시됩니다.
  • 다른 값(예: 단어가 가방에 표시되는 횟수의 로그)입니다.

기준

다른 모델 (일반적으로 더 복잡한 모델)의 성능을 비교하는 기준점으로 사용되는 model입니다. 예를 들어 로지스틱 회귀 모델심층 모델의 좋은 기준 역할을 할 수 있습니다.

특정 문제의 경우 기준은 모델 개발자가 새 모델이 유용하려면 새 모델이 달성해야 하는 최소 예상 성능을 수량화하는 데 도움이 됩니다.

일괄

#fundamentals

하나의 학습 반복에 사용된 예시 집합입니다. 배치 크기는 배치 하나에 포함되는 예의 수를 결정합니다.

배치와 에포크의 관계에 대한 설명은 에포크를 참조하세요.

일괄 추론

#TensorFlow
#GoogleCloud

라벨이 없는 여러 예에서 더 작은 하위 집합 ('배치')으로 나눈 여러 개의 예측을 추론하는 프로세스입니다.

일괄 추론은 가속기 칩의 동시 로드 기능을 활용할 수 있습니다. 즉, 여러 액셀러레이터가 라벨이 지정되지 않은 예의 서로 다른 배치에서 예측을 동시에 추론할 수 있어 초당 추론 횟수가 급격히 증가합니다.

배치 정규화

히든 레이어활성화 함수의 입력 또는 출력을 정규화합니다. 배치 정규화는 다음과 같은 이점을 제공합니다.

배치 크기

#fundamentals

배치의 개수입니다. 예를 들어 배치 크기가 100이면 모델은 반복당 100개의 예를 처리합니다.

많이 사용되는 배치 크기 전략은 다음과 같습니다.

  • 확률적 경사하강법 (SGD): 배치 크기가 1입니다.
  • 전체 배치: 배치 크기가 전체 학습 세트에 있는 예의 개수입니다. 예를 들어 학습 세트에 예시가 백만 개 있다면 배치 크기는 예시 백만 개가 됩니다. 전체 배치는 일반적으로 비효율적인 전략입니다.
  • 미니 배치: 배치 크기가 일반적으로 10~1,000입니다. 일반적으로 미니 배치가 가장 효율적인 전략입니다.

베이즈 신경망

가중치와 출력의 불확실성을 설명하는 확률적 신경망입니다. 표준 신경망 회귀 모델은 일반적으로 스칼라 값을 예측합니다. 예를 들어 표준 모델은 주택 가격을 853,000으로 예측합니다. 반면에 베이즈 신경망은 값의 분포를 예측합니다. 예를 들어 베이즈 모델은 표준 편차가 67,200인 주택 가격을 853,000으로 예측합니다.

베이즈 신경망은 베이즈의 정리에 따라 가중치와 예측으로 불확실성을 계산합니다. 베이즈 신경망은 제약 관련 모델에서처럼 불확실성을 정량화하는 것이 중요할 때 유용합니다. 또한 확률적 신경망은 과적합을 방지하는 데 도움이 됩니다.

베이즈 최적화

베이즈 학습 기법을 사용하여 불확실성을 정량화하는 서로게이트를 최적화하여 계산 비용이 많이 드는 목표 함수를 최적화하는 확률적 회귀 모델 기법입니다. Bayesian 최적화는 그 자체로 비용이 매우 많이 들기 때문에 일반적으로 초매개변수 선택과 같이 매개변수가 적은 평가 비용이 많이 드는 작업을 최적화하는 데 사용됩니다.

벨만 방정식

#rl

강화 학습에서는 다음과 같은 항등원이 최적의 Q-함수에 의해 충족됩니다.

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

강화 학습 알고리즘은 이 ID를 적용하여 다음 업데이트 규칙을 통해 Q-learning을 만듭니다.

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

벨만 방정식은 강화 학습 외에도 동적 프로그래밍에도 적용할 수 있습니다. 벨만 방정식에 관한 위키백과 항목을 참고하세요.

BERT (Bidirectional Encoder Representations from Transformers)

#language

텍스트 표현을 위한 모델 아키텍처 학습된 BERT 모델은 텍스트 분류 또는 기타 ML 태스크에서 더 큰 모델의 일부로 작동할 수 있습니다.

BERT의 특징은 다음과 같습니다.

BERT의 변종은 다음과 같습니다.

BERT 개요는 오픈소싱 BERT: 자연어 처리를 위한 최신 사전 학습을 참조하세요.

편향 (윤리/공정성)

#fairness
#fundamentals

1. 어떤 사물, 사람 또는 집단에 대한 정형화, 편견 또는 편애를 말합니다. 이러한 편향은 데이터 수집 및 해석, 시스템 설계, 사용자가 시스템과 상호작용하는 방식에 영향을 미칠 수 있습니다. 이러한 유형의 편향의 형태는 다음과 같습니다.

2. 샘플링 또는 보고 절차로 인해 발생하는 계통 오차입니다. 이러한 유형의 편향의 형태는 다음과 같습니다.

머신러닝 모델의 바이어스 항 또는 예측 편향과 혼동하지 마시기 바랍니다.

편향 (수학) 또는 편향 항

#fundamentals

원점을 기준으로 한 절편 또는 오프셋입니다. 편향은 머신러닝 모델에서 매개변수로, 다음 중 하나로 기호화됩니다.

  • b
  • 0

예를 들어 다음 수식에서 편향은 b입니다.

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

간단한 2차원 선에서 편향은 'y절편'을 의미합니다. 예를 들어 다음 그림에서 선의 편향은 2입니다.

기울기가 0.5이고 편향 (y절편)이 2인 선의 플롯

편향이 존재하는 이유는 일부 모델이 원점 (0,0)에서 시작하는 것은 아니기 때문입니다. 예를 들어 놀이공원의 입장료가 2유로이고 고객이 숙박할 때마다 1시간에 0.5유로가 추가된다고 가정해 보겠습니다. 따라서 총 비용을 매핑하는 모델은 최저 비용이 2유로이므로 편향이 2가 됩니다.

편향을 윤리 및 공정성의 편향 또는 예측 편향과 혼동해서는 안 됩니다.

양방향

#language

텍스트의 타겟 섹션 뒤에 오는 텍스트를 평가하는 시스템을 설명하는 데 사용되는 용어 반대로 단방향 시스템은 텍스트의 타겟 섹션 에 있는 텍스트만 평가합니다.

예를 들어 다음 질문에서 밑줄을 나타내는 단어의 확률을 결정해야 하는 마스크된 언어 모델이 있다고 가정해 보겠습니다.

당신과 함께 있는 _____은(는) 무엇인가?

단방향 언어 모델은 '무엇을', 'is', 'the'라는 단어가 제공하는 컨텍스트만 기반으로 해야 합니다. 반면에 양방향 언어 모델은 'with'와 'you'로부터 컨텍스트를 얻을 수도 있으므로 모델이 더 나은 예측을 생성하는 데 도움이 될 수 있습니다.

양방향 언어 모델

#language

언어 모델: 이전 텍스트와 다음 텍스트를 기반으로 텍스트 발췌 부분의 지정된 위치에 토큰이 존재할 확률을 판단합니다.

Bigram

#seq
#language

N=2인 N-그램입니다.

이진 분류

#fundamentals

상호 배타적인 두 클래스 중 하나를 예측하는 분류 작업의 한 유형입니다.

예를 들어 다음 두 머신러닝 모델은 각각 이진 분류를 수행합니다.

  • 이메일 메시지가 스팸 (포지티브 클래스)인지 스팸이 아닌 (네거티브 클래스)인지를 결정하는 모델입니다.
  • 의학적 증상을 평가하여 사람에게 특정 질병이 있는지 (양성 클래스) 또는 해당 질환이 없는지 (네거티브 클래스) 판단하는 모델입니다.

다중 클래스 분류와 대비되는 개념입니다.

로지스틱 회귀분류 임계값도 참조하세요.

바이너리 조건

#df

결정 트리에서 가능한 결과가 두 가지(일반적으로 yes 또는 no)만 있는 조건. 예를 들어 다음은 바이너리 조건입니다.

temperature >= 100

논바이너리 조건과 대비되는 개념입니다.

비닝

버케팅의 동의어입니다.

BLEU (Bilingual Evaluation Understudy)

#language

인간의 두 언어 (예: 영어와 러시아어) 간의 번역 품질을 나타내는 0.0~1.0 사이의 점수입니다. BLEU 점수가 1.0이면 번역이 완벽함을 나타내고 0.0은 번역 품질이 좋지 않음을 나타냅니다.

부스팅

모델이 현재 잘못 분류하고 있는 예를 가중치를 부여하여 단순하지만 정확하지 않은 분류기('약한' 분류기라고 함) 집합을 정확성이 높은 분류기('강한' 분류기)로 반복적으로 결합하는 머신러닝 기법입니다.

경계 상자

#image

이미지에서 관심 영역(예: 아래 이미지에 나온 강아지)을 둘러싼 직사각형의 (x, y) 좌표입니다.

소파에 앉아 있는 강아지 사진 왼쪽 상단 좌표가 (275, 1271)이고 오른쪽 하단 좌표가 (2954, 2761)인 녹색 경계 상자가 강아지의 몸을 둘러싸고 있습니다.

브로드캐스팅

행렬 수학 연산에서 피연산자의 모양을 해당 연산과 호환되는 차원으로 확장합니다. 예를 들어 선형 대수에서는 행렬 덧셈 연산의 두 피연산자의 차원이 동일해야 합니다. 결과적으로 길이가 n인 벡터에 (m, n) 모양 행렬을 추가할 수 없습니다. 브로드캐스트는 각 열 아래에 동일한 값을 복제하여 길이가 n인 벡터를 (m, n) 형태의 행렬로 가상으로 확장하여 이 연산을 가능하게 합니다.

예를 들어 다음 정의에서 A와 B의 차원이 다르기 때문에 선형 대수학에서는 A+B를 금지합니다.

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

그러나 브로드캐스팅하면 B를 다음과 같이 확장하여 A+B 연산이 가능합니다.

 [[2, 2, 2],
  [2, 2, 2]]

따라서 A+B는 이제 유효한 연산입니다.

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

자세한 내용은 다음 NumPy의 브로드캐스팅 설명을 참고하세요.

버킷팅

#fundamentals

일반적으로 값 범위를 기반으로 단일 특성버킷 또는 이라고 하는 여러 바이너리 특성으로 변환합니다. 잘린 특성은 일반적으로 연속 특성입니다.

예를 들어 온도를 단일 연속 부동 소수점 특성으로 표현하는 대신 온도 범위를 다음과 같이 별개의 버킷으로 나눌 수 있습니다.

  • 섭씨 10도 이하는 '콜드' 버킷이 됩니다.
  • 섭씨 11~24도는 '온대' 양동이가 될 것입니다.
  • 섭씨 25도 이상은 '따뜻한' 버킷이 됩니다.

모델은 동일한 버킷의 모든 값을 동일하게 취급합니다. 예를 들어 값 1322은 모두 임시 버킷에 있으므로 모델이 두 값을 동일하게 취급합니다.

C

캘리브레이션 레이어

일반적으로 예측 편향을 보정하기 위한 예측 후 조정입니다. 조정된 예측 및 확률은 관찰된 라벨 집합의 분포와 일치해야 합니다.

후보군 생성

#recsystems

추천 시스템에서 선택하는 초기 추천 모음입니다. 예를 들어 10만 권의 책을 판매하는 서점이 있다고 가정해 보겠습니다. 후보군 생성 단계에서는 특정 사용자에게 적합한 도서 목록을 훨씬 적게 만듭니다(예: 500권). 하지만 500권도 사용자에게 추천하기에는 너무 많습니다. 이어서 더 많은 비용이 드는 추천 시스템 단계 (예: 채점순위 재지정)에서는 이러한 500개 항목을 훨씬 작고 유용한 추천 집합으로 축소합니다.

후보 샘플링

예를 들어 소프트맥스를 사용하여 모든 양성 라벨의 확률을 계산하는 학습 시간 최적화입니다. 단, 음수 라벨의 무작위 샘플에 대한 확률만 계산합니다. 예를 들어 비글라는 라벨이 지정된 예의 경우 후보 샘플링은 다음에 대해 예측 확률과 해당 손실 항을 계산합니다.

  • 비글
  • 나머지 네거티브 클래스의 무작위 하위 집합 (예: 고양이, 롤리팝, 펜스)

네거티브 클래스양성 클래스가 항상 적절한 포지티브 강화를 받는 한 덜 자주 발생하는 음의 강화로부터 학습할 수 있으며, 이는 실제로 경험적으로 관찰됩니다.

후보 샘플링은 특히 네거티브 클래스 수가 매우 많은 경우 모든 네거티브 클래스에 대한 예측을 계산하는 학습 알고리즘보다 계산 효율성이 높습니다.

범주형 데이터

#fundamentals

가능한 값의 특정 집합을 갖는 특성입니다. 예를 들어 다음 세 가지 값 중 하나만 가질 수 있는 traffic-light-state이라는 범주형 특성이 있다고 가정해 보겠습니다.

  • red
  • yellow
  • green

traffic-light-state를 범주형 특성으로 표현하면 모델은 red, green, yellow가 드라이버 동작에 미치는 다양한 영향을 학습할 수 있습니다.

범주형 특성을 불연속 특성이라고도 합니다.

숫자 데이터와 대비되는 개념입니다.

인과적 언어 모델

#language

단방향 언어 모델의 동의어입니다.

언어 모델링의 여러 방향성 접근 방식을 대조하려면 양방향 언어 모델을 참고하세요.

centroid

#clustering

k-평균 또는 k-중앙값 알고리즘으로 결정되는 클러스터의 중심입니다. 예를 들어 k가 3이면 k-평균 또는 k-중앙값 알고리즘은 3개의 중심을 찾습니다.

중심 기반 군집화

#clustering

데이터를 비계층적 클러스터로 정리하는 클러스터링 알고리즘의 카테고리입니다. k-평균은 가장 널리 사용되는 중심 기반 클러스터링 알고리즘입니다.

계층적 군집화 알고리즘과 대비되는 개념입니다.

사고 사슬 프롬프팅

#language
#생성형AI

대규모 언어 모델 (LLM)이 이유를 단계별로 설명하도록 유도하는 프롬프트 엔지니어링 기법입니다. 예를 들어 두 번째 문장에 특히 주의를 기울이며 다음 프롬프트를 살펴보겠습니다.

시속 0마일에서 60마일까지 7초 내에 운행하는 자동차에서 운전자가 경험하는 중력은 얼마인가요? 답에 모든 관련 계산을 표시합니다.

LLM의 응답은 다음과 같을 수 있습니다.

  • 일련의 물리 공식을 표시하고 적절한 위치에 값 0, 60, 7을 연결합니다.
  • 왜 그런 공식을 선택했는지, 다양한 변수들이 무엇을 의미하는지 설명하십시오.

일련의 사고 프롬프팅을 통해 LLM은 모든 계산을 수행해야 하므로 보다 정확한 답을 얻을 수 있습니다. 또한 생각 사슬 프롬프팅을 통해 사용자는 LLM의 단계를 검토하여 답변이 적절한지 판단할 수 있습니다.

채팅

#language
#생성형AI

ML 시스템과의 대화를 주고받는 내용(일반적으로 대규모 언어 모델) 채팅의 이전 상호작용(입력한 내용 및 대규모 언어 모델의 응답 방식)이 채팅의 후속 부분에 대한 컨텍스트가 됩니다.

챗봇은 대규모 언어 모델의 애플리케이션입니다.

checkpoint

특정 학습 반복에서 모델의 매개변수 상태를 캡처하는 데이터입니다. 체크포인트를 사용하면 모델 가중치를 내보내거나 여러 세션에서 학습을 수행할 수 있습니다. 또한 체크포인트를 통해 과거의 오류 (예: 작업 선점)를 계속할 수 있습니다.

미세 조정 시 새 모델학습선행 학습된 모델의 특정 체크포인트가 됩니다.

클래스

#fundamentals

라벨이 속할 수 있는 카테고리입니다. 예를 들면 다음과 같습니다.

  • 스팸을 감지하는 이진 분류 모델에서 두 클래스는 스팸일 수 있고 스팸이 아닌 클래스일 수 있습니다.
  • 개의 품종을 식별하는 다중 클래스 분류 모델에서 클래스는 푸들, 비글, 퍼그 등일 수 있습니다.

분류 모델은 클래스를 예측합니다. 반대로 회귀 모델은 클래스가 아닌 숫자를 예측합니다.

분류 모델

#fundamentals

예측이 modelmodel입니다. 예를 들어 다음은 모두 분류 모델입니다.

  • 입력 문장의 언어 (프랑스어? 스페인어? 이탈리아어?).
  • 수종을 예측하는 모델 (단풍나무? Oak? Baobab?).
  • 특정 질환의 양성 또는 음성 클래스를 예측하는 모델입니다.

반대로 회귀 모델은 클래스가 아닌 숫자를 예측합니다.

분류 모델의 두 가지 일반적인 유형은 다음과 같습니다.

분류 임계값

#fundamentals

이진 분류에서 로지스틱 회귀 모델의 원시 출력을 포지티브 클래스 또는 네거티브 클래스의 예측으로 변환하는 0과 1 사이의 숫자입니다. 분류 임곗값은 모델 학습에 의해 선택된 값이 아니라 인간이 선택하는 값입니다.

로지스틱 회귀 모델은 0과 1 사이의 원시 값을 출력합니다. 그런 다음 아래를 실행합니다.

  • 이 원시 값이 분류 임계값보다 경우 포지티브 클래스가 예측됩니다.
  • 이 원시 값이 분류 임계값보다 작으면 네거티브 클래스가 예측됩니다.

예를 들어 분류 임계값이 0.8이라고 가정해 보겠습니다. 원시 값이 0.9이면 모델이 포지티브 클래스를 예측합니다. 원시 값이 0.7이면 모델이 네거티브 클래스를 예측합니다.

분류 임곗값의 선택은 거짓양성거짓음성 수에 큰 영향을 미칩니다.

클래스 불균형 데이터 세트

#fundamentals

각 클래스의 총 라벨 수가 크게 다른 분류 문제의 데이터 세트입니다. 예를 들어 두 라벨이 다음과 같이 나뉘는 이진 분류 데이터 세트가 있다고 가정해 보겠습니다.

  • 제외 라벨 1,000,000개
  • 양수 라벨 10개

음성 라벨 대 양성 라벨의 비율은 100,000 대 1이므로 클래스 불균형 데이터 세트입니다.

반면에 다음 데이터 세트는 양성 라벨에 대한 음성 라벨의 비율이 상대적으로 1에 가까우므로 클래스 불균형이 아닙니다.

  • 제외 라벨 517개
  • 양성 라벨 483개

다중 클래스 데이터 세트는 클래스 불균형일 수도 있습니다. 예를 들어 다음 다중 클래스 분류 데이터 세트도 클래스 불균형을 야기합니다. 한 라벨에 다른 두 라벨보다 예가 훨씬 많기 때문입니다.

  • 'green' 클래스가 포함된 라벨 1,000,000개
  • '보라색' 클래스가 있는 라벨 200개
  • 'orange' 클래스가 포함된 라벨 350개

엔트로피, 주류 클래스, 다수 클래스도 참고하세요.

클리핑

#fundamentals

다음 중 하나 또는 둘 다를 실행하여 이상점을 처리하는 기술입니다.

  • 최대 임곗값보다 큰 feature 값을 해당 최대 임곗값까지 줄입니다.
  • 최소 임곗값보다 작은 특성 값을 해당 최소 임곗값까지 늘립니다.

예를 들어 특정 특성 값 중 0.5% 미만이 40~60 범위를 벗어났다고 가정해 보겠습니다. 이 경우 다음을 수행할 수 있습니다.

  • 60 (최대 임곗값)을 초과하는 모든 값을 정확히 60으로 자릅니다.
  • 40 (최소 기준) 미만의 모든 값을 정확히 40으로 자릅니다.

이상점은 모델에 손상을 주어 학습 중에 가중치가 오버플로될 수 있습니다. 또한 일부 이상치는 정확성과 같은 측정항목을 크게 망칠 수 있습니다. 클리핑은 피해를 제한하는 일반적인 기법입니다.

그라데이션 클리핑은 학습 중에 경사 값을 지정된 범위 내로 강제 적용합니다.

Cloud TPU

#TensorFlow
#GoogleCloud

Google Cloud에서 머신러닝 워크로드의 속도를 높이도록 설계된 특수 하드웨어 가속기입니다

클러스터링

#clustering

특히 비지도 학습 과정에서 관련 예시 그룹화 모든 예가 그룹화되면 인간은 선택적으로 각 클러스터에 의미를 제공할 수 있습니다.

클러스터링 알고리즘이 많이 있습니다. 예를 들어 다음 다이어그램과 같이 k-평균 알고리즘 클러스터 예시는 중심에 대한 근접성을 기준으로 합니다.

x축에 트리 너비 라벨이 지정되고 y축에 트리 높이 라벨이 지정된 2차원 그래프입니다. 그래프에는 두 개의 중심과 수십 개의 데이터 포인트가 있습니다. 데이터 포인트는 근접성을 기준으로 분류됩니다. 즉, 한 중심에 가장 가까운 데이터 포인트는 클러스터 1로 분류되고 다른 중심에 가장 가까운 데이터 포인트는 클러스터 2로 분류됩니다.

그런 다음 연구원이 클러스터를 검토하고 클러스터 1에는 '난쟁이나무', 클러스터 2에는 '원본 크기의 나무'로 라벨을 지정할 수 있습니다.

또 다른 예로, 다음과 같이 중심점으로부터 예의 거리를 기반으로 하는 클러스터링 알고리즘을 가정해 보겠습니다.

수십 개의 데이터 포인트가 다트판 중앙을 둘러싼 구멍과 비슷한 동심원으로 배열되어 있습니다. 데이터 포인트의 가장 안쪽 링은 클러스터 1로, 가운데 링은 클러스터 2로, 가장 바깥쪽 링은 클러스터 3으로 분류됩니다.

공동 적응

뉴런이 네트워크 전체의 행동에 의존하지 않고 다른 특정 뉴런의 출력에만 의존하여 학습 데이터의 패턴을 예측하는 경우입니다. 공동 적응을 유발하는 패턴이 유효성 검사 데이터에 없는 경우 공동 조정은 과적합을 야기합니다. 드롭아웃은 뉴런이 다른 특정 뉴런에만 의존할 수 없도록 하므로 드롭아웃 정규화는 동시 적응을 줄입니다.

협업 필터링

#recsystems

다른 여러 사용자의 관심분야를 바탕으로 한 사용자의 관심분야를 예측하는 경우 협업 필터링은 추천 시스템에서 자주 사용됩니다.

개념 드리프트

특성과 라벨 간의 관계 변화 시간이 지남에 따라 개념 드리프트가 발생하면 모델의 품질이 저하됩니다.

학습 중에 모델은 학습 세트에 있는 특성과 라벨 간의 관계를 학습합니다. 학습 세트의 라벨이 실제 환경에 적합한 프록시라면 모델은 적절한 실제 예측을 수행해야 합니다. 그러나 개념 드리프트로 인해 시간이 지남에 따라 모델의 예측이 저하되는 경향이 있습니다

예를 들어 특정 자동차 모델이 '연료 효율'인지 예측하는 이진 분류 모델을 가정해 보겠습니다. 즉, 특성은 다음과 같을 수 있습니다.

  • 자동차 무게
  • 엔진 압축
  • 전송 유형

라벨은 다음 중 하나입니다.

  • 연비
  • 연비 효율이 낮음

그러나 '고연비 자동차'라는 개념은 계속 바뀌고 있습니다. 1994년에 연비 효율이라는 라벨이 지정된 자동차 모델은 2024년에 연비 효율이 아님 라벨이 지정된 것이 거의 확실합니다. 개념 드리프트가 있는 모델은 시간이 지나면서 예측의 유용성이 떨어지는 경향이 있습니다.

비고정성과 비교 및 대조합니다.

condition

#df

결정 트리에서 표현식을 평가하는 모든 노드. 예를 들어 결정 트리의 다음 부분에는 두 가지 조건이 포함됩니다.

(x > 0) 및 (y > 0)의 두 조건으로 구성된 결정 트리

조건을 분할 또는 테스트라고도 합니다.

조건을 leaf와 대조합니다.

관련 주제에 대한 추가 정보

말하다

#language

할루시네이션의 동의어입니다.

공화는 아마도 할루시네이션보다 기술적으로 더 정확한 용어일 것입니다. 그러나 할루시네이션이 먼저 인기를 끌게 되었습니다.

구성

다음을 포함하여 모델 학습에 사용되는 초기 속성 값을 할당하는 프로세스입니다.

머신러닝 프로젝트에서는 특수 구성 파일이나 다음과 같은 구성 라이브러리를 사용하여 구성할 수 있습니다.

확증 편향

#fairness

기존의 믿음이나 가설을 확신하는 방식으로 정보를 검색, 해석, 선호, 기억하는 경향입니다. 머신러닝 개발자가 자신의 기존 신념을 뒷받침하는 결과에 영향을 미치는 방식으로 의도치 않게 데이터를 수집하거나 라벨을 지정할 수 있습니다. 확증 편향은 내재적 편향의 한 형태입니다.

실험자 편향은 기존 가설이 확인될 때까지 실험자가 모델 학습을 계속하는 일종의 확증 편향입니다.

혼동 행렬

#fundamentals

분류 모델의 올바른 예측과 잘못된 예측의 수를 요약한 NxN 표입니다. 예를 들어 이진 분류 모델에서 다음 혼동 행렬을 고려해 보세요.

종양 (예측) 비종양 (예측됨)
종양 (정답) 18 (TP) 1 (FN)
비종양 (정답) 6 (FP) 452 (TN)

앞의 혼동 행렬은 다음을 보여줍니다.

  • 정답이 Tumor인 예측 19건 중 모델은 18건을 올바르게 분류하고 1건을 잘못 분류했습니다.
  • 모델은 정답이 비종양이었던 458건의 예측 중에서 452개를 올바르게 분류하고 6개를 잘못 분류했습니다.

다중 클래스 분류 문제의 혼동 행렬은 오류 패턴을 식별하는 데 도움이 될 수 있습니다. 예를 들어 세 가지 붓꽃 유형(Virginica, Versicolor, Setosa)을 분류하는 3클래스 다중 클래스 분류 모델에 대한 다음 혼동 행렬을 생각해 보세요. 정답이 버지니카인 경우 혼동 행렬은 모델이 Setosa보다 Versicolor를 잘못 예측할 가능성이 훨씬 높음을 보여줍니다.

  Setosa (예측) Versicolor (예측됨) 버지니카 (예상)
세토사 (정답) 88 12 0
Versicolor (정답) 6 141 7
버지니카 (정답) 2 27 109

또 다른 예로, 혼동 행렬은 손으로 쓴 숫자를 인식하도록 학습된 모델이 4가 아닌 9를 잘못 예측하거나 7이 아닌 1을 잘못 예측하는 경향이 있음을 발견할 수 있습니다.

혼동 행렬에는 정밀도, 재현율 등 다양한 성능 측정항목을 계산하기에 충분한 정보가 포함되어 있습니다.

선거구 파싱

#language

한 문장을 더 작은 문법적 구조 ('구성 요소')로 나누기 자연어 이해 모델과 같은 ML 시스템의 후반부에서는 원래 문장보다 더 쉽게 구성요소를 파싱할 수 있습니다. 예를 들어 다음 문장을 생각해 보세요.

제 친구는 고양이 두 마리를 입양했습니다.

구성요소 파서는 이 문장을 다음과 같은 두 가지 구성요소로 나눌 수 있습니다.

  • 내 친구는 명사구입니다.
  • adopted two cats는 동사구입니다.

이러한 구성 요소는 더 작은 구성 요소로 더 세분화될 수 있습니다. 예를 들어 동사구는

고양이 두 마리를 입양했습니다.

다시 세분화할 수 있습니다.

  • adopted는 동사입니다.
  • two cats는 또 다른 명사구입니다.

문맥화된 언어 임베딩

#language
#생성형AI

원어민이 할 수 있는 방식으로 단어와 구문을 '이해'하는 임베딩입니다. 컨텍스트화된 언어 임베딩은 복잡한 구문, 시맨틱스, 컨텍스트를 이해할 수 있습니다.

예를 들어 영어 단어 cow의 임베딩을 고려해 보겠습니다. word2vec와 같은 이전 임베딩은 에서 황소까지의 임베딩 공간에서 ewe (암컷 양)에서 ram (수 양)까지의 거리 또는 암컷에서 수컷까지의 거리와 유사한 영어 단어를 나타낼 수 있습니다. 문맥화된 언어 임베딩은 한 걸음 더 나아가 영어 사용자가 종종 소 또는 황소를 의미하는 cow라는 단어를 사용한다는 점을 인지합니다.

환경설정 기간

#language
#생성형AI

모델이 지정된 프롬프트에서 처리할 수 있는 토큰 수입니다. 컨텍스트 기간이 클수록 모델이 프롬프트에 일관되고 일관된 응답을 제공하는 데 사용할 수 있는 정보가 더 많아집니다.

연속 특성

#fundamentals

온도나 무게와 같은 가능한 값의 무한 범위를 갖는 부동 소수점 특성

불연속 특성과 대비되는 개념입니다.

간편 샘플링

빠른 실험을 위해 과학적으로 수집되지 않은 데이터 세트를 사용합니다. 나중에 과학적으로 수집된 데이터 세트로 전환해야 합니다

수렴

#fundamentals

반복에서 손실 값이 거의 또는 전혀 변경되지 않는 경우에 도달한 상태입니다. 예를 들어 다음 손실 곡선은 약 700회 반복에서 수렴을 나타냅니다.

데카르트 도표 X축은 손실입니다. Y축은 학습 반복 횟수입니다. 처음 몇 번의 반복에서는 손실이 매우 높지만 급격하게 감소합니다. 약 100번의 반복 후에 손실은 여전히 하강하지만 훨씬 더 점진적으로
          감소합니다. 약 700번의 반복 후에 손실이 일정하게 유지됩니다.

추가 학습으로도 모델이 개선되지 않으면 모델이 수렴합니다.

딥 러닝에서는 손실 값이 일정하게 유지되거나 수차례 반복할 때 최종적으로 내림차순으로 유지되기도 합니다. 일정한 손실 값이 지속되는 동안 일시적으로 잘못된 수렴을 느낄 수 있습니다.

조기 중단도 참조하세요.

볼록 함수

함수 그래프의 위쪽 영역이 볼록 집합인 함수입니다. 볼록 함수의 전형적인 예는 U자 모양의 함수입니다. 예를 들어 다음은 모두 볼록 함수입니다.

U자형 곡선으로, 각각 하나의 최소점이 있습니다.

반면에 다음 함수는 볼록 함수가 아닙니다. 그래프 위의 영역이 볼록 집합이 아닌 것을 볼 수 있습니다.

두 개의 서로 다른 국소 최저점이 있는 W 모양의 곡선입니다.

순 볼록 함수는 국소 최저점이 정확히 하나이며, 이것이 전역 최저점이기도 합니다. 전통적인 U자형 함수는 순볼록 함수입니다. 하지만 직선과 같은 볼록 함수는 U자형이 아닙니다.

볼록 최적화

경사하강법과 같은 수학적 기법을 사용하여 볼록 함수의 최솟값을 구하는 프로세스입니다. 볼록 최적화 문제로 다양한 문제를 정립하고 이러한 문제를 더 효율적으로 해결하는 데 중점을 둔 머신러닝 연구가 많이 있습니다.

자세한 내용은 Boyd와 Vandenberghe의 볼록 최적화를 참조하세요.

볼록 집합

유클리드 공간의 하위 집합으로, 부분 집합의 두 점 사이에 그려진 선이 하위 집합 내에 완전히 포함됩니다. 예를 들어 다음 두 도형은 볼록 집합입니다.

직사각형의 일러스트레이션입니다. 타원의 다른 그림입니다.

반면에 다음 두 도형은 볼록 집합이 아닙니다.

슬라이스가 누락된 원형 차트의 일러스트입니다.
          매우 불규칙한 다각형을 보여주는 또 다른 그림입니다.

컨볼루션

#image

수학적으로 간단히 말하면 두 가지 함수가 혼합된 것입니다. 머신러닝에서 컨볼루션은 가중치를 학습시키기 위해 컨볼루셔널 필터와 입력 행렬을 혼합합니다.

머신러닝에서 '컨볼루션'이라는 용어는 주로 컨볼루셔널 연산 또는 컨볼루셔널 레이어를 축약하여 지칭합니다.

컨볼루션이 없으면 머신러닝 알고리즘이 대형 텐서의 모든 셀에 대해 별도의 가중치를 학습해야 합니다. 예를 들어 2K x 2K 이미지를 학습하는 머신러닝 알고리즘에서는 400만 개의 개별 가중치를 찾아야 합니다. 컨볼루션 덕분에 머신러닝 알고리즘은 컨볼루셔널 필터에 있는 모든 셀의 가중치만 찾으면 되므로 모델 학습에 필요한 메모리가 크게 줄어듭니다. 컨볼루셔널 필터는 여러 셀에 걸쳐 복제되므로 각 셀에 필터가 곱해집니다.

컨볼루셔널 필터

#image

컨볼루셔널 연산에서 사용되는 두 가지 중 하나입니다. 다른 하나는 입력 행렬의 슬라이스입니다. 컨볼루셔널 필터는 입력 행렬과 순위는 같지만 모양은 더 작은 행렬입니다. 예를 들어 28x28 입력 행렬이 있는 경우 필터는 28x28보다 작은 모든 2차원 행렬이 될 수 있습니다.

사진 조작에서 컨볼루셔널 필터의 모든 셀은 일반적으로 1과 0의 일정한 패턴으로 설정됩니다. 머신러닝에서 컨볼루셔널 필터는 일반적으로 랜덤 숫자로 지정되며 네트워크는 이상적인 값을 학습합니다.

컨볼루셔널 레이어

#image

입력 행렬을 따라 컨볼루셔널 필터가 전달되는 심층신경망의 레이어입니다. 예를 들어 다음과 같은 3x3 컨볼루셔널 필터를 고려해 보세요.

다음 값을 갖는 3x3 행렬: [[0,1,0], [1,0,1], [0,1,0]]

다음 애니메이션은 5x5 입력 행렬과 관련된 9개의 컨볼루셔널 연산으로 구성된 컨볼루셔널 레이어를 보여줍니다. 각 컨볼루셔널 연산은 입력 행렬의 서로 다른 3x3 슬라이스에서 작동합니다. 그 결과로 생성되는 3x3 행렬 (오른쪽)은 9개의 컨볼루셔널 연산 결과로 구성됩니다.

두 행렬을 보여주는 애니메이션 첫 번째 행렬은 5x5 행렬입니다. [[128,97,53,201,198], [35,22,25,200,195],
 [37,24,28,197,182], [33,28,92,195,131],0],
          두 번째 행렬은 3x3 행렬입니다.
          [[181,303,618], [115,338,605], [169,351,560]].
          두 번째 행렬은 5x5 행렬의 서로 다른 3x3 하위 집합에
          컨볼루셔널 필터 [[0, 1, 0], [1, 0, 1], [0, 1, 0]] 을 적용하여
          계산됩니다.

컨볼루셔널 신경망

#image

적어도 하나의 레이어가 컨볼루셔널 레이어신경망입니다. 일반적인 컨볼루셔널 신경망은 다음 레이어의 조합으로 구성됩니다.

컨볼루셔널 신경망은 이미지 인식과 같은 특정 종류의 문제에서 큰 성공을 거두었습니다.

컨볼루셔널 연산

#image

다음은 2단계 수학 연산입니다.

  1. 컨볼루셔널 필터 및 입력 행렬의 슬라이스 등 요소별 곱셈입니다. 입력 행렬의 슬라이스는 컨볼루셔널 필터와 순위 및 크기가 동일합니다.
  2. 곱셈의 결과로 얻어지는 행렬 내 모든 값의 합계입니다.

예를 들어 다음과 같은 5x5 입력 행렬을 생각해 보세요.

5x5 행렬: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179], [31,77]

이제 다음과 같은 2x2 컨볼루셔널 필터가 있다고 가정해 보겠습니다.

2x2 행렬: [[1, 0], [0, 1]]

각 컨볼루셔널 연산에는 입력 행렬의 단일 2x2 슬라이스가 포함됩니다. 예를 들어 입력 행렬의 왼쪽 상단에 있는 2x2 슬라이스를 사용한다고 가정해 보겠습니다. 이 슬라이스의 컨볼루션 연산은 다음과 같습니다.

입력 행렬의 왼쪽 상단 2x2 섹션인 [[128,97], [35,22]] 에 컨볼루셔널 필터 [[1, 0], [0, 1]]을 적용합니다.
          컨볼루셔널 필터는 128과 22를 그대로 두고 97과 35를 0으로 만듭니다. 결과적으로 컨볼루션 연산에서는
          150 (128+22)이라는 값이 나옵니다.

컨볼루셔널 레이어는 일련의 컨볼루셔널 연산으로 구성되며, 각 연산은 입력 행렬의 서로 다른 슬라이스에 적용됩니다.

비용

손실의 동의어입니다.

공동 학습

준지도 학습 접근 방식은 다음 조건이 모두 충족될 때 특히 유용합니다.

공동 학습은 기본적으로 독립적인 신호를 더 강력한 신호로 증폭합니다. 예를 들어 개별 중고차를 좋음 또는 나쁨으로 분류하는 분류 모델을 생각해 보세요. 한 예측 특성 세트는 자동차의 연식, 제조사, 모델과 같은 집계된 특성에 중점을 둘 수 있습니다. 다른 예측 특성 세트는 이전 소유자의 운전 기록과 자동차의 유지보수 이력에 중점을 둘 수 있습니다.

공동 학습에 대한 주요 자료는 Blum과 Mitchell의 Combining Labeled and Unlabeled Data with Co-Training(라벨이 지정된 데이터와 라벨이 지정되지 않은 데이터를 공동 학습과 결합)입니다.

반사실적 공정성

#fairness

분류기가 한 개인에 관해서와 동일한 결과를 생성하는 다른 개인과 동일한 결과를 생성하는지 확인하는 공정성 측정항목입니다. 단, 하나 이상의 민감한 속성은 예외입니다. 분류기에 반사실적인 공정성을 평가하는 것은 모델에서 편향의 잠재적 원인을 찾아내기 위한 한 가지 방법입니다.

반사실적 공정성에 관한 자세한 내용은 '세계가 충돌할 때: 다양한 반사실적 가정을 공정성으로 통합하기'를 참고하세요.

포함 편향

#fairness

표본 선택 편향을 참고하세요.

중의적 구문

#language

의미가 모호한 문장이나 구문입니다. 중의적 구문은 자연어 이해에서 중대한 문제를 야기합니다. 예를 들어 Red Tape Holds Up Skyscraper라는 광고 제목은 NLU 모델에서 헤드라인을 문자 그대로 또는 비유적으로 해석할 수 있으므로 중의적 구문입니다.

비평가

#rl

Deep Q-Network의 동의어입니다.

교차 엔트로피

로그 손실다중 클래스 분류 문제로 일반화합니다. 교차 엔트로피는 두 확률 분포 간의 차이를 수량화합니다. 퍼플렉시티를 참고하세요.

교차 검증

model에서 보류된 하나 이상의 겹치지 않는 데이터 하위 집합에 대해 모델을 테스트하여 model이 새 데이터로 얼마나 잘 일반화될지 예측하는 메커니즘입니다.

누적 분포 함수 (CDF)

목표 값보다 작거나 같은 샘플의 빈도를 정의하는 함수입니다. 예를 들어 연속된 값의 정규 분포를 생각해 보겠습니다. CDF에 따르면 샘플의 약 50% 는 평균보다 작거나 같아야 하고, 샘플의 약 84% 는 평균의 1 표준 편차보다 작거나 같아야 합니다.

D

데이터 분석

샘플, 측정, 시각화를 고려하여 데이터를 이해합니다. 데이터 분석은 첫 번째 model을 빌드하기 전 데이터 세트를 처음 수신할 때 특히 유용합니다. 또한 실험을 이해하고 시스템의 문제를 디버깅하는 데에도 중요합니다.

데이터 증강

#image

기존 를 변환하여 추가 예를 만들어 학습 예의 범위와 수를 인위적으로 늘림 예를 들어 이미지가 특성 중 하나이지만 모델이 유용한 연결을 학습하기에 충분한 이미지 예가 데이터 세트에 포함되어 있지 않다고 가정해 보겠습니다. 모델이 제대로 학습할 수 있도록 데이터 세트에 라벨이 지정된 이미지를 충분히 추가하는 것이 좋습니다. 그렇게 할 수 없는 경우 데이터 증강을 통해 각 이미지를 회전, 확대, 반사하여 원본 사진의 많은 변형을 생성할 수 있으며, 이를 통해 우수한 학습을 가능하게 하는 충분한 라벨이 지정된 데이터를 생성할 수 있습니다.

DataFrame

#fundamentals

메모리에서 데이터 세트를 표현하는 데 널리 사용되는 Pandas 데이터 유형입니다.

DataFrame은 표 또는 스프레드시트와 유사합니다. DataFrame의 각 열에는 이름 (헤더)이 있으며 각 행은 고유한 숫자로 식별됩니다.

DataFrame의 각 열은 2D 배열처럼 구조화되어 있지만, 각 열에 자체 데이터 유형을 할당할 수 있다는 점이 다릅니다.

공식 pandas.DataFrame 참조 페이지도 확인하세요.

데이터 동시 로드

전체 모델을 여러 기기에 복제한 다음 입력 데이터의 하위 집합을 각 기기에 전달하는 학습 또는 추론을 확장하는 방법입니다. 데이터 병렬 처리는 매우 큰 배치 크기에서 학습 및 추론을 가능하게 할 수 있습니다. 그러나 데이터 동시 로드를 사용하려면 모델이 모든 기기에 맞도록 충분히 작아야 합니다.

데이터 병렬 처리는 일반적으로 학습 및 추론의 속도를 높입니다.

모델 동시 로드를 참조하세요.

데이터 세트 또는 데이터 세트

#fundamentals

원시 데이터 모음으로, 일반적으로 다음 형식 중 하나로 구성됩니다 (전적으로 독점적으로 구성되지는 않음).

  • 스프레드시트
  • CSV (쉼표로 구분된 값) 형식의 파일

Dataset API (tf.data)

#TensorFlow

데이터를 읽고 머신러닝 알고리즘에 필요한 형식으로 변환하는 고급 TensorFlow API입니다. tf.data.Dataset 객체는 각 요소에 하나 이상의 텐서가 포함된 요소 시퀀스를 나타냅니다. tf.data.Iterator 객체는 Dataset의 요소에 액세스할 수 있는 권한을 제공합니다.

Dataset API에 대한 자세한 내용은 TensorFlow 프로그래머 가이드tf.data: TensorFlow 입력 파이프라인 빌드를 참조하세요.

결정 경계

바이너리 클래스 또는 다중 클래스 분류 문제모델이 학습한 클래스 사이의 구분선입니다. 예를 들어 이진 분류 문제를 나타내는 다음 이미지에서 결정 경계는 주황색 클래스와 파란색 클래스 사이의 경계선입니다.

한 클래스와 다른 클래스 사이의 잘 정의된 경계

결정 포레스트

#df

여러 결정 트리에서 생성된 모델 결정 포레스트는 결정 트리의 예측을 집계하여 예측합니다. 인기 있는 결정 포레스트 유형에는 랜덤 포레스트그라데이션 부스티드 트리가 있습니다.

결정 임계값

분류 임계값의 동의어입니다.

결정 트리

#df

계층적으로 구성된 일련의 conditionsconditions로 구성된 지도 학습 모델입니다. 예를 들어 다음은 결정 트리입니다.

계층적으로 정렬된 4개의 조건으로 구성된 결정 트리로, 5개의 리프가 생성됩니다.

decoder

#language

일반적으로 처리된 표현, 밀집 표현, 내부 표현에서 보다 원시적인 희소 표현 또는 외부 표현으로 변환되는 모든 ML 시스템입니다

디코더는 종종 더 큰 모델의 구성요소이며 인코더와 페어링되는 경우가 많습니다.

시퀀스-시퀀스 작업에서 디코더는 인코더가 생성한 내부 상태로 시작하여 다음 시퀀스를 예측합니다.

Transformer 아키텍처 내의 디코더 정의는 Transformer를 참조하세요.

심층 모델

#fundamentals

2개 이상의 히든 레이어가 포함된 신경망.

심층 모델을 심층신경망이라고도 합니다.

와이드 모델과 대비되는 개념입니다.

심층신경망

심층 모델의 동의어입니다.

DQN (Deep Q-Network)

#rl

Q-러닝에서 Q-함수를 예측하는 심층 신경망

비평가는 Deep Q-Network의 동의어입니다.

인구통계학적 동등성

#fairness

모델 분류 결과가 지정된 민감한 속성에 종속되지 않는 경우 충족되는 공정성 측정항목입니다.

예를 들어 난쟁이와 브로브딩나기인 모두 글루브더브드리브 대학교에 지원한 경우 한 그룹이 평균적으로 다른 그룹보다 적격한지에 관계없이 입학 합격자의 비율이 브로브딩나기인의 비율과 동일하면 인구통계 동등성이 달성됩니다.

등분 확률기회의 균등과 대비되는 이 방식은 집계 결과를 집계하여 민감한 속성에 의존하도록 허용하지만 지정된 특정 정답 라벨의 분류 결과가 민감한 속성에 종속되도록 허용하지는 않습니다. 인구통계 동등성에 맞게 최적화할 때의 절충사항을 살펴보는 시각화는 '더 스마트한 머신러닝으로 차별하기'를 참고하세요.

노이즈 제거

#language

자기 지도 학습의 일반적인 접근 방식은 다음과 같습니다.

  1. 노이즈는 데이터 세트에 인위적으로 추가됩니다.
  2. model이 노이즈를 제거하려고 시도합니다.

노이즈 제거를 통해 라벨이 없는 예에서 학습할 수 있습니다. 원본 데이터 세트는 대상 또는 라벨 역할을 하고 노이즈 데이터가 입력으로 사용됩니다.

일부 마스크된 언어 모델은 다음과 같이 노이즈 제거를 사용합니다.

  1. 일부 토큰을 마스킹하여 라벨이 지정되지 않은 문장에 인위적으로 노이즈를 추가합니다.
  2. 모델은 원본 토큰을 예측하려고 시도합니다.

밀집 특성

#fundamentals

대부분의 값 또는 모든 값이 0이 아닌 특성. 일반적으로 부동 소수점 값의 텐서입니다. 예를 들어 다음 10개의 요소를 갖는 텐서는 값 중 9개가 0이 아니기 때문에 밀도가 높습니다.

8 3 7 5 2 4 0 4 9 6

희소 특성과 대비되는 개념입니다.

밀집 레이어

완전 연결 레이어의 동의어입니다.

깊이

#fundamentals

신경망에서 다음 값의 합:

예를 들어 히든 레이어 5개와 출력 레이어 1개가 있는 신경망의 깊이는 6입니다.

입력 레이어는 깊이에 영향을 미치지 않습니다.

깊이별 분리 가능한 컨볼루셔널 신경망 (sepCNN)

#image

컨볼루셔널 신경망 아키텍처는 Inception을 기반으로 하지만 여기서 Inception 모듈은 깊이별로 분리 가능한 컨볼루션으로 대체됩니다. Xception이라고도 합니다.

깊이별 분리 가능한 컨볼루션 (분리 가능한 컨볼루션이라고도 함)은 표준 3D 컨볼루션을 계산 효율성이 높은 두 개의 개별 컨볼루션 연산으로 분류합니다. 첫 번째는 깊이별 컨볼루션, 즉 깊이 1 (nx제곱, 두 번째 컨볼루션, 1점, 두 번째 컨볼루션, 1의 깊이, 두 번째 컨볼루션: 1 (n x n x x 1 포인트)

자세한 내용은 Xception: 심도별 분리 가능한 변환을 사용한 딥 러닝을 참조하세요.

파생 라벨

프록시 라벨의 동의어입니다.

기기

#TensorFlow
#GoogleCloud

다음과 같은 두 가지 정의가 있는 중복으로 정의된 용어입니다.

  1. CPU, GPU, TPU 등 TensorFlow 세션을 실행할 수 있는 하드웨어 카테고리입니다.
  2. 가속기 칩(GPU 또는 TPU)에서 ML 모델을 학습시킬 때, 이는 시스템에서 텐서임베딩을 실제로 조작하는 부분입니다. 기기가 가속기 칩에서 실행됩니다. 반면에 호스트는 일반적으로 CPU에서 실행됩니다.

개인 정보 차등 보호

머신러닝에서는 모델의 학습 세트에 포함된 민감한 정보(예: 개인의 개인 정보)가 노출되지 않도록 보호하기 위한 익명처리 방식입니다. 이 접근 방식을 사용하면 model이 특정 개인에 대해 많이 학습하거나 기억하지 않습니다. 모델 학습 중에 샘플링하고 노이즈를 추가하여 개별 데이터 포인트를 모호하게 처리하여 민감한 학습 데이터가 노출될 위험을 줄입니다.

개인 정보 차등 보호는 머신러닝 외부에서도 사용됩니다. 예를 들어 데이터 과학자는 다양한 인구통계에 대한 제품 사용 통계를 계산할 때 개인 정보 차등 보호를 사용하여 개별 개인 정보를 보호하는 경우가 있습니다.

차원 축소

일반적으로 임베딩 벡터로 변환하여 특징 벡터에서 특정 특성을 나타내는 데 사용되는 차원 수를 줄입니다.

측정기준

다음과 같은 정의로 중복 정의된 용어입니다.

  • 텐서의 좌표 수준 수입니다. 예를 들면 다음과 같습니다.

    • 스칼라에는 0개의 차원이 있습니다(예: ["Hello"]).
    • 벡터에는 1개의 차원(예: [3, 5, 7, 11])이 있습니다.
    • 행렬에는 2개의 차원(예: [[2, 4, 18], [5, 7, 14]])이 있습니다.

    좌표가 하나인 1차원 벡터에서 특정 셀을 고유하게 지정할 수 있습니다. 2차원 행렬에서 특정 셀을 고유하게 지정하려면 두 개의 좌표가 필요합니다.

  • 특징 벡터의 항목 수입니다.

  • 임베딩 레이어의 요소 수입니다.

직접 프롬프팅

#language
#생성형AI

제로샷 프롬프팅의 동의어입니다.

불연속 특성

#fundamentals

가능한 값의 유한 집합을 갖는 특성입니다. 예를 들어 값이 동물, 식물, 광물 중 하나여야 하는 특성은 불연속 (또는 범주형) 특성입니다.

연속 특성과 대비되는 개념입니다.

분류 모델

하나 이상의 model 집합에서 model을 예측하는 model. 보다 공식적으로 분류 모델은 특성과 가중치를 고려하여 출력의 조건부 확률을 정의합니다. 즉,

p(output | features, weights)

예를 들어 특성과 가중치에서 이메일이 스팸인지 여부를 예측하는 모델은 분류 모델입니다.

분류 및 회귀 모델을 비롯한 대부분의 지도 학습 모델은 분류 모델입니다.

생성 모델과 대비되는 개념입니다.

분류자

가 진짜인지 가짜인지 판단하는 시스템입니다.

또는 생성기에서 생성된 예가 진짜인지 가짜인지 결정하는 생성적 적대 신경망 내의 하위 시스템입니다.

이질적인 영향

#fairness

서로 다른 모집단 하위 그룹에 불균형적으로 영향을 미치는 사람에 대한 의사 결정 일반적으로 알고리즘에 기반한 의사 결정 프로세스가 일부 하위 그룹에 다른 하위 그룹보다 더 해롭거나 이득이 되는 상황을 나타냅니다.

예를 들어 Lilliputian의 미니어처 주택 담보 대출 자격을 결정하는 알고리즘이 우편 주소에 특정 우편번호가 포함된 경우 '부적격'으로 분류할 가능성이 높다고 가정해 보겠습니다. Big Endian Lilliputians가 Little Endian Lilliputians보다 이 우편번호를 사용하는 우편 주소를 가질 가능성이 더 높다면 이 알고리즘은 서로 다른 영향을 미칠 수 있습니다.

하위 그룹 특성이 알고리즘 의사결정 프로세스에 대한 명시적 입력일 때 발생하는 불일치에 초점을 맞춘 이상 처리와 대조됩니다.

이질적 대우

#fairness

서로 다른 하위 그룹을 다르게 취급하도록 대상의 민감한 속성을 알고리즘 의사결정 프로세스로 분해합니다.

예를 들어 대출 신청서에 제공된 데이터를 기반으로 Lilliputians의 미니어처 주택 대출 자격을 결정하는 알고리즘을 생각해 보겠습니다. 알고리즘이 Lilliputian의 제휴 관계를 Big Endian 또는 Little Endian으로 입력한다면 이는 해당 차원에 대해 서로 다른 처리를 시행하는 것입니다.

하위 그룹이 모델의 입력인지 여부와 관계없이 하위 그룹에 대한 알고리즘 결정이 사회적으로 미치는 영향의 불균형에 초점을 맞추는 상이한 영향과 대조됩니다.

정제

#생성형AI

model (model라고 함)의 크기를 원래 모델의 예측을 최대한 충실하게 에뮬레이션하는 더 작은 모델 (model이라고 함)로 줄이는 프로세스입니다. 작은 모델이 큰 모델 (교사)에 비해 두 가지 주요 이점이 있으므로 정제가 유용합니다.

  • 추론 시간 단축
  • 메모리 및 에너지 사용량 감소

그러나 학생의 예측은 일반적으로 교사의 예측만큼 좋지 않습니다.

정제는 학생 모델과 교사 모델의 예측 출력 간의 차이를 기반으로 손실 함수를 최소화하도록 학생 모델을 학습시킵니다.

정제와 다음 용어를 비교 및 대조하세요.

배포

특정 특성 또는 라벨에 대한 다양한 값의 빈도와 범위입니다. 분포는 특정 값이 얼마나 높은지 포착합니다.

다음 이미지는 두 가지 분포의 히스토그램을 보여줍니다.

  • 왼쪽 그림에는 권력 법칙에 따라 재산을 소유한 사람의 수 분포가 표시되어 있습니다.
  • 오른쪽 그림은 해당 키를 가진 사람 수 대비 키의 정규 분포를 나타낸 것입니다.

히스토그램 2개 한 히스토그램은 x축에 재산이 있고 그 재산을 보유한 사람 수가 y축에 표시된 멱의 법칙 분포를 보여줍니다. 대부분의 사람들은 부유한 사람이 적고 소수의 사람들은 부유층이 많습니다. 다른 히스토그램은 높이가 x축에 있고 해당 높이를 y축에 있는 사람들의 수인 정규 분포를 보여줍니다. 대부분의 사람들은 평균과 가까운 어딘가에 모여 있습니다.

각 특성과 라벨의 분포를 이해하면 값을 정규화하고 이상점을 감지하는 방법을 결정할 수 있습니다.

분산 불가라는 문구는 데이터 세트에 나타나지 않거나 매우 드물게 발생하는 값을 나타냅니다. 예를 들어 토성의 이미지는 고양이 이미지로 구성된 데이터 세트의 분포에서 제외됩니다.

분리형 군집화

#clustering

계층적 군집화를 참조하세요.

다운샘플링

#image

중복으로 정의된 용어로, 다음 중 하나를 의미할 수 있습니다.

  • 모델을 더 효율적으로 학습하기 위해 특성의 정보 양을 줄입니다. 예를 들어 영상 인식 모델을 학습시키기 전에 고해상도 이미지를 저해상도 형식으로 다운샘플링합니다.
  • 과소 표현된 클래스에 대한 모델 학습을 개선하기 위해 과대 표현된 클래스 예시의 불균형적으로 낮은 비율에 대한 학습 예를 들어 클래스 불균형 데이터 세트에서 모델은 주 구성원 클래스에 대해 많이 학습하는 경향이 있지만 소수 집단에 대해서는 충분히 학습하지 않습니다. 다운샘플링은 대다수 및 소수 클래스에 대한 학습량의 균형을 맞추는 데 도움이 됩니다.

DQN

#rl

Deep Q-Network의 약어입니다.

드롭아웃 정규화

신경망 학습에 유용한 정규화의 한 형태입니다. 드롭아웃 정규화는 단일 경사 단계에서 네트워크 레이어에서 고정된 수의 단위를 무작위로 선택하지 않습니다. 드롭아웃되는 유닛이 많을수록 정규화가 강력해집니다. 이는 소규모 네트워크의 기하급수적으로 큰 앙상블을 에뮬레이션하도록 네트워크를 학습시키는 것과 유사합니다. 자세한 내용은 드롭아웃: 신경망의 과적합을 방지하는 간단한 방법을 참조하세요.

동적

#fundamentals

자주 또는 지속적으로 이루어지는 일 동적온라인이라는 용어는 머신러닝에서 동의어입니다. 다음은 머신러닝에서 동적온라인의 일반적인 용도입니다.

  • 동적 모델 (또는 온라인 모델)은 자주 또는 지속적으로 재학습되는 모델입니다.
  • 동적 학습 (또는 온라인 학습)은 자주 또는 지속적으로 학습하는 프로세스입니다.
  • 동적 추론 (또는 온라인 추론)은 요청 시 예측을 생성하는 프로세스입니다.

동적 모델

#fundamentals

자주 (심지어 지속적으로) 재학습되는 model 동적 모델은 변화하는 데이터에 끊임없이 적응하는 '평생 학습자'입니다. 동적 모델을 온라인 모델이라고도 합니다.

정적 모델과 대비되는 개념입니다.

E

즉시 실행

#TensorFlow

operations이 즉시 실행되는 TensorFlow 프로그래밍 환경입니다. 반면에 그래프 실행에서 호출되는 작업은 명시적으로 평가될 때까지 실행되지 않습니다. 즉시 실행은 대부분의 프로그래밍 언어로 된 코드와 마찬가지로 명령형 인터페이스입니다. 즉시 실행 프로그램은 일반적으로 그래프 실행 프로그램보다 디버그하기 쉽습니다.

조기 중단

#fundamentals

학습 손실 감소가 완료되기 전에 학습을 종료하는 정규화 방법입니다. 조기 중단에서는 검증 데이터 세트의 손실이 증가하기 시작할 때, 즉 일반화 성능이 악화될 때 모델 학습을 의도적으로 중지합니다.

지구 이동자 거리 (EMD)

분포의 상대적 유사성을 나타내는 척도입니다. 지구 이동자의 거리가 짧을수록 분포가 더 유사합니다.

거리 수정

#language

두 텍스트 문자열이 서로 얼마나 비슷한지를 측정한 값입니다. 머신러닝에서 거리 수정은 계산이 간단하며 비슷한 것으로 알려진 두 문자열을 비교하거나 주어진 문자열과 유사한 문자열을 찾을 수 있는 효과적인 방법이므로 유용합니다.

수정 거리에는 여러 가지 정의가 있으며, 각 정의에는 서로 다른 문자열 연산이 사용됩니다. 예를 들어 Levenshtein 거리는 삭제, 삽입, 대체 작업이 가장 적은 것으로 간주합니다.

예를 들어 '하트'와 '다트'라는 단어 사이의 레벤슈타인 거리는 3입니다. 그 이유는 다음 세 번의 수정 횟수가 한 단어를 다른 단어로 변환하기 위한 가장 적은 변경사항이기 때문입니다.

  1. 하트 → deart('h'를 'd'로 대체)
  2. deart → dart('e' 삭제)
  3. 다트 → 다트('s' 삽입)

엔섬 표기법

텐서를 결합하는 방법을 설명하기 위한 효율적인 표기법입니다. 텐서는 한 텐서의 요소와 다른 텐서의 요소를 곱한 후 곱을 합산하여 결합합니다. Einsum 표기법은 기호를 사용하여 각 텐서의 축을 식별하고, 동일한 기호를 재배열하여 새로운 결과 텐서의 형태를 지정합니다.

NumPy는 일반적인 Einsum 구현을 제공합니다.

임베딩 레이어

#language
#fundamentals

저차원 임베딩 벡터를 점진적으로 학습하기 위해 고차원 범주형 특성에서 학습하는 특수 히든 레이어입니다. 임베딩 레이어를 사용하면 신경망이 고차원 범주형 특성으로 학습시키는 것보다 훨씬 효율적으로 학습시킬 수 있습니다.

예를 들어 지구는 현재 약 73,000종의 수종을 지원하고 있습니다. 트리 종은 모델의 특성이므로 모델의 입력 레이어에 73,000개의 요소 길이의 원-핫 벡터가 포함되어 있다고 가정해 보겠습니다. 예를 들어 baobab는 다음과 같이 표시될 수 있습니다.

73,000개 요소의 배열. 처음 6,232개 요소는 값이 0입니다. 다음 요소는 값 1을 보유합니다. 마지막 66,767개 요소는 값 0을 유지합니다.

요소가 73,000개인 배열은 매우 깁니다. 모델에 임베딩 레이어를 추가하지 않으면 72,999개의 0을 곱하기 때문에 학습에 시간이 매우 오래 걸릴 수 있습니다. 임베딩 레이어를 선택하여 12차원으로 구성할 수 있습니다 결과적으로 임베딩 레이어는 각 수종의 새로운 임베딩 벡터를 점진적으로 학습합니다.

특정 상황에서는 해싱이 임베딩 레이어의 합리적인 대안이 될 수 있습니다.

임베딩 공간

#language

고차원 벡터 공간의 특성이 매핑되는 d차원 벡터 공간입니다. 이상적으로 임베딩 공간에는 의미 있는 수학적 결과를 도출하는 구조가 포함됩니다. 예를 들어 이상적인 임베딩 공간에서 임베딩의 덧셈 및 뺄셈은 단어 비유 작업을 해결할 수 있습니다.

두 임베딩의 내적은 유사성의 척도입니다.

임베딩 벡터

#language

일반적으로 히든 레이어에 대한 입력을 설명하는 모든 히든 레이어에서 가져온 부동 소수점 수의 배열입니다. 임베딩 벡터는 임베딩 레이어에서 학습된 부동 소수점 수의 배열인 경우가 많습니다. 예를 들어 임베딩 레이어가 지구상의 73,000종의 수종별로 임베딩 벡터를 학습해야 한다고 가정해 보겠습니다. 다음 배열은 바오밥 나무의 임베딩 벡터일 수 있습니다.

각각 0.0~1.0의 부동 소수점 숫자를 포함하는 12개 요소의 배열.

임베딩 벡터는 무작위 숫자가 아닙니다. 임베딩 레이어는 학습 중에 신경망이 다른 가중치를 학습하는 방식과 유사하게 학습을 통해 이러한 값을 결정합니다. 배열의 각 요소는 수종의 일부 특성에 따른 평점입니다. 다음 중 수종의 특징을 나타내는 요소는 무엇인가요? 그것은 인간이 결정하기 매우 어렵습니다.

임베딩 벡터에서 수학적으로 주목할 만한 부분은 유사한 항목들도 부동 소수점 숫자의 집합이 유사하다는 것입니다. 예를 들어 유사한 수종은 유사하지 않은 수종보다 부동 소수점 수의 집합이 더 유사합니다. 삼나무와 세쿼이아는 서로 관련된 수종이므로 삼나무와 코코넛 야자수보다 부동 소수점 수가 더 유사합니다. 임베딩 벡터의 숫자는 동일한 입력으로 모델을 다시 학습시키더라도 모델을 재학습시킬 때마다 변경됩니다.

경험적 누적 분포 함수 (eCDF 또는 EDF)

실제 데이터 세트의 경험적 측정값을 기반으로 하는 누적 분포 함수입니다. X축의 어느 지점에서든 함수의 값은 데이터 세트에서 지정된 값보다 작거나 같은 관찰의 비율입니다.

경험적 위험 최소화 (ERM)

학습 세트에서 손실을 최소화하는 함수를 선택합니다. 구조적 위험 최소화와 대비되는 개념입니다.

인코더

#language

일반적으로 원시, 희소 또는 외부 표현에서 좀 더 처리되고 밀도가 높거나 내부적인 표현으로 변환하는 모든 ML 시스템입니다.

인코더는 종종 더 큰 모델의 구성요소로, 디코더와 페어링됩니다. 일부 Transformer는 인코더와 디코더를 페어링하지만, 인코더만 사용하거나 디코더만 사용하는 Transformer도 있습니다.

일부 시스템에서는 인코더의 출력을 분류 또는 회귀 네트워크의 입력으로 사용합니다.

시퀀스-시퀀스 작업에서 인코더는 입력 시퀀스를 가져와 내부 상태 (벡터)를 반환합니다. 그러면 디코더가 내부 상태를 사용하여 다음 시퀀스를 예측합니다.

Transformer 아키텍처의 인코더 정의는 Transformer를 참조하세요.

앙상블

독립적으로 학습된 모델의 모음으로, 예측이 평균화되거나 집계됩니다. 대부분의 경우 앙상블이 단일 모델보다 더 나은 예측을 생성합니다 예를 들어 랜덤 포레스트는 여러 결정 트리로 빌드된 앙상블입니다. 모든 결정 포레스트가 앙상블인 것은 아닙니다.

엔트로피

#df

정보 이론에서는 확률 분포를 예측할 수 없는 정도에 관한 설명입니다. 또는 각 에 포함된 정보의 양으로도 엔트로피를 정의합니다. 확률 변수의 모든 값이 동일할 때 분포에서 가능한 엔트로피가 가장 높습니다.

가능한 두 값 '0'과 '1'이 있는 집합의 엔트로피(예: 이진 분류 문제의 라벨)의 공식은 다음과 같습니다.

  H = -p 로그 p - q 로그 q = -p 로그 p - (1-p) * 로그 (1-p)

각 매개변수는 다음과 같습니다.

  • H는 엔트로피입니다.
  • p는 예 '1'의 비율입니다.
  • q는 '0'의 예에 대한 비율입니다. q = (1 - p)입니다.
  • log는 일반적으로 log2입니다. 이 경우 엔트로피 단위는 약간입니다.

예를 들어 다음을 가정합니다.

  • 값 '1'이 포함된 예시 100개
  • 값 '0'이 포함된 예시 300개

따라서 엔트로피 값은 다음과 같습니다.

  • p = 0.25
  • q = 0.75
  • H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 예당 0.81비트

완벽하게 균형 잡힌 집합 (예: 200개의 '0'과 200개의 '1')은 예시당 1.0비트의 엔트로피를 가집니다. 세트의 불균형이 더욱 커지면 엔트로피는 0.0을 향해 이동합니다.

결정 트리에서 엔트로피는 정보 획득을 공식화하여 스플리터가 분류 결정 트리가 성장하는 동안 조건을 선택하는 데 도움을 줍니다.

엔트로피 비교:

엔트로피는 섀넌의 엔트로피라고도 합니다.

환경

#rl

강화 학습에서 에이전트를 포함하고 에이전트가 해당 상태를 관찰할 수 있는 세계입니다. 예를 들어 표현된 세계는 체스와 같은 게임이나 미로와 같은 실제 세계일 수 있습니다. 에이전트가 환경에 작업을 적용하면 환경이 상태 간에 전환됩니다.

에피소드

#rl

강화 학습에서 에이전트환경 학습 시도는 매번 반복됩니다.

에포크

#fundamentals

전체 학습 세트를 통한 전체 학습 패스로, 각 예시는 한 번씩 처리됩니다.

에포크는 N/배치 크기 학습 반복을 나타냅니다. 여기서 N는 총 예시 수입니다.

예를 들어 다음과 같이 가정해 보겠습니다.

  • 데이터 세트는 1,000개의 예시로 구성됩니다.
  • 배치 크기는 예시 50개입니다.

따라서 단일 에포크는 20회의 반복이 필요합니다.

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

epsilon 그리디 정책

#rl

강화 학습에서 정책은 epsilon 확률과 함께 무작위 정책을 따르거나 그렇지 않으면 탐욕 정책을 따릅니다. 예를 들어 epsilon이 0.9이면 정책은 90% 는 무작위 정책을 따르고 10% 는 그리디 정책을 따릅니다.

연속된 에피소드에서 알고리즘은 임의의 정책을 따르는 것에서 탐욕적인 정책을 따르기 위해 epsilon의 값을 줄입니다. 에이전트는 정책을 이동하여 먼저 환경을 무작위로 탐색한 후 임의 탐색의 결과를 탐욕스럽게 악용합니다.

기회의 균등

#fairness

모델이 민감한 속성의 모든 값에 대해 바람직한 결과를 똑같이 잘 예측하고 있는지 평가하는 공정성 측정항목입니다. 즉, 모델에서 바람직한 결과가 포지티브 클래스라면 목표는 모든 그룹에서 참양성률을 동일하게 유지하는 것입니다.

기회의 균등은 균등한 확률과 관련이 있습니다. 즉, 참양성률과 거짓양성률모두 모든 그룹에 대해 동일해야 합니다.

글루브덥브립 대학교에서 난쟁이족과 브로브딩나기인을 모두 엄격한 수학 프로그램에 재학한다고 가정해 보겠습니다. Lilliputians의 중등학교는 탄탄한 수학 수업 커리큘럼을 제공하며 대다수의 학생이 대학 프로그램의 자격 요건을 갖추고 있습니다. 브로브딩나기인의 중고등학교는 전혀 수학 수업을 제공하지 않기 때문에 학력을 소지한 학생의 수가 훨씬 적습니다. 자격을 갖춘 학생들이 일류인인지 브로브딩나지안인지에 상관없이 입학이 가능한 경우 국적에 관해 선호되는 라벨인 '인정됨'에 대해 기회의 균등이 충족됩니다.

예를 들어 100명의 난쟁이와 100명의 브로브딩나기안이 글루브덥브드립 대학에 지원하는데 입학이 다음과 같이 결정된다고 가정해 보겠습니다.

표 1. 난민 신청자 (90% 가 적격)

  적격성 확인됨 자격 없음
수락함 45 3
거절됨 45 7
총계 90 10
합격한 학생 비율: 45/90 = 50%
자격 미충족 학생 비율: 7/10 = 70%
합격한 나일루스 출신 총생 비율: (45+3)/100 = 48%

 

표 2. 브로드딩나기 신청자 (10% 자격요건 충족):

  적격성 확인됨 자격 없음
수락함 5 9
거절됨 5 81
총계 10 90
합격한 학생 비율: 5/10 = 50%
부적격 학생 비율: 81/90 = 90%
합격한 브로브딩나그의 총 학생 비율: (5+9)/100 = 14%

자격이 있는 난쟁이와 브로브딩나기인 모두 합격 확률이 50% 이므로 앞의 예는 자격을 갖춘 학생을 수용할 수 있는 기회의 균등을 충족합니다.

기회의 균등은 충족되지만 다음 두 공정성 측정항목은 충족되지 않습니다.

  • 인구 평등: 난쟁이와 브로브딩나기인의 진학 비율이 서로 다릅니다. 난쟁이 학생의 48% 는 합격하지만 브로빙나기 학생 중 14% 만 합격했습니다.
  • 동등한 확률: 자격을 갖춘 나딘과 브로브딩나지안 학생 모두 입학 확률이 같지만 자격이 없는 난쟁이와 브로브딩나기인 모두 거절될 확률이 동일하다는 추가적인 제약은 충족되지 않습니다. 자격이 없는 난쟁이족의 거부율은 70% 인 반면 부적격한 브로브딩나기인의 거부율은 90% 입니다.

기회의 균등에 대한 자세한 내용은 '지도 학습에서의 기회의 균등'을 참조하세요. 또한 기회의 평등을 위해 최적화할 때의 절충사항을 살펴보는 시각화는 '더 스마트한 머신러닝으로 차별하기'를 참조하세요.

등호 확률

#fairness

모델이 한 클래스만 또는 다른 클래스만 배타적으로 사용하는 것이 아니라 포지티브 클래스네거티브 클래스를 모두 고려하여 민감한 속성의 모든 값에 대해 결과를 똑같이 잘 예측하는지 여부를 평가하는 공정성 측정항목입니다. 즉, 모든 그룹에서 참양성률거짓음성률이 동일해야 합니다.

균등화된 확률은 단일 클래스 (양수 또는 음수)의 오류율에만 초점을 맞추는 기회의 균등과 관련이 있습니다.

예를 들어 글루브더브드리브 대학교에서 난독교인과 브로딩나기인을 모두 엄격한 수학 프로그램에 재학한다고 가정해 보겠습니다. Lilliputians의 중등학교는 강력한 수학 수업 커리큘럼을 제공하며 대다수의 학생이 대학 프로그램의 자격 요건을 충족합니다. 브로브딩나기인의 중학교에서는 전혀 수학 수업을 하지 않기 때문에 학업을 공부하는 학생이 훨씬 적습니다. 신청자가 난민인지 브로브딩나지안인지 여부와 관계없이, 자격을 갖춘 경우 프로그램에 참여할 가능성과 자격이 없는 경우에도 거부될 가능성과 동등한 수준으로 균등한 승산이 충족됩니다.

100명의 난쟁이와 100명의 브로브딩나기안이 글루브덥브립 대학교에 지원했으며 입학 결정은 다음과 같이 내려진다고 가정해 보겠습니다.

표 3. 난민 신청자 (90% 가 적격)

  적격성 확인됨 자격 없음
수락함 45 2
거절됨 45 8
총계 90 10
합격한 학생 비율: 45/90 = 50%
자격 미충족 학생 비율: 8/10 = 80%
총 합격생 비율: (45+2)/100 = 47%

 

표 4. 브로드딩나기 신청자 (10% 자격요건 충족):

  적격성 확인됨 자격 없음
수락함 5 18
거절됨 5 72시간
총계 10 90
합격한 학생의 비율: 5/10 = 50%
부적격 학생 비율: 72/90 = 80%
합격한 브로브딩나그의 총 학생 비율: (5+18)/100 = 23%

자격을 갖춘 릴리푸치인과 브로브딩나기인 학생 모두 입학 확률이 50% 이고 자격이 없는 릴리푸티아와 브로브딩나기인은 거절될 확률이 80% 이므로 균등한 확률은 만족스럽습니다.

균등화된 확률은 공식적으로 '감독 학습에서의 기회의 균등'에서 다음과 같이 정의됩니다. '예측자 EXT가 보호된 속성 A와 결과 Y에 대해 균등한 확률을 충족한다. 이는 A와 A가 독립적이며 Y를 조건으로 하는 경우.'

에스티메이터

#TensorFlow

지원 중단된 TensorFlow API입니다. 에스티메이터 대신 tf.keras를 사용합니다.

평가

머신러닝 모델의 예측 품질을 측정하는 프로세스입니다. 모델을 개발하는 동안 일반적으로 평가 측정항목을 학습 세트뿐만 아니라 검증 세트테스트 세트에도 적용합니다. 평가 측정항목을 사용하여 서로 다른 모델을 서로 비교할 수도 있습니다

예를 들어 설명하겠습니다

#fundamentals

특성으로 구성된 한 행의 값 및 라벨일 수 있는 값입니다. 지도 학습의 예는 다음과 같은 두 가지 일반 카테고리로 나뉩니다.

  • 라벨이 있는 예는 하나 이상의 특성과 라벨로 구성됩니다. 라벨이 있는 예는 학습 중에 사용됩니다.
  • 라벨이 없는 예는 하나 이상의 특성으로 구성되지만 라벨은 없습니다. 라벨이 없는 예는 추론 중에 사용됩니다.

예를 들어 기상 조건이 학생 시험 점수에 미치는 영향을 판단하기 위해 모델을 학습시킨다고 가정해 보겠습니다. 라벨이 있는 예 3가지를 소개합니다.

기능 라벨
온도 습도 압력 테스트 점수
15 47 998 양호
19 34 1020 매우 좋음
18 92 1012 나쁨

다음은 라벨이 지정되지 않은 3가지 예입니다.

온도 습도 압력  
12 62 1014  
21 47 1017  
19 41 1021  

일반적으로 데이터 세트의 행은 예시의 원시 소스입니다. 즉, 하나의 예는 일반적으로 데이터 세트에 있는 열의 하위 집합으로 구성됩니다. 또한 예시의 특성은 특성 교차와 같은 합성 특성도 포함할 수 있습니다.

환경 다시보기

#rl

강화 학습에서 학습 데이터의 시간적 상관관계를 줄이는 데 사용되는 DQN 기법입니다. 에이전트재생 버퍼에 상태 전환을 저장한 다음 재생 버퍼에서 전환을 샘플링하여 학습 데이터를 만듭니다.

실험자 편향

#fairness

확증 편향을 참조하세요.

발산 경사 문제

#seq

심층신경망 (특히 순환 신경망)의 경사가 놀라울 정도로 가파르게 (높음)되는 경향입니다. 가파른 경사로 인해 심층신경망의 각 노드가중치가 크게 업데이트되는 경우가 많습니다.

경사 발산 문제가 있는 모델은 학습이 어렵거나 불가능해집니다. 그래디언트 클리핑으로 이 문제를 완화할 수 있습니다.

경사 소실 문제와 비교해 보세요.

F

F1

정밀도재현율을 모두 사용하는 '롤업' 이진 분류 측정항목입니다. 공식은 다음과 같습니다.

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

예를 들어 다음과 같습니다.

  • 정밀도 = 0.6
  • 재현율 = 0.4
$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

앞의 예에서처럼 정밀도와 재현율이 상당히 비슷하면 F1이 평균에 가깝습니다. 정밀도와 재현율이 크게 다를 경우 F1이 낮은 값에 가깝습니다. 예를 들면 다음과 같습니다.

  • 정밀도 = 0.9
  • 재현율 = 0.1
$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

공정성 제약 조건

#fairness
하나 이상의 공정성 정의가 충족되도록 알고리즘에 제약 조건을 적용합니다. 공정성 제약조건의 예는 다음과 같습니다.

공정성 측정항목

#fairness

측정 가능한 '공정성'의 수학적 정의입니다. 일반적으로 사용되는 공정성 측정항목은 다음과 같습니다.

많은 공정성 측정항목은 상호 배타적입니다. 공정성 측정항목의 비호환성을 참조하세요.

거짓음성 (FN)

#fundamentals

모델에서 네거티브 클래스를 잘못 예측하는 예입니다. 예를 들어 모델에서 특정 이메일 메시지가 스팸이 아닌(네거티브 클래스) 그 이메일 메시지가 실제로는 스팸이라고 예측할 수 있습니다.

거짓음성률

모델이 네거티브 클래스를 잘못 예측한 실제 양성 예의 비율입니다. 다음 수식은 거짓음성률을 계산합니다.

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

거짓양성 (FP)

#fundamentals

모델에서 포지티브 클래스를 잘못 예측하는 예입니다. 예를 들어 모델에서 특정 이메일 메시지가 스팸 (포지티브 클래스)이지만 그 이메일 메시지는 실제로는 스팸이 아님으로 예측합니다.

거짓양성률 (FPR)

#fundamentals

모델이 포지티브 클래스를 잘못 예측한 실제 음성 예시의 비율입니다. 다음 수식은 거짓양성률을 계산합니다.

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

거짓양성률은 ROC 곡선의 x축입니다.

특징

#fundamentals

머신러닝 모델의 입력 변수입니다. 는 하나 이상의 특성으로 구성됩니다. 예를 들어 기상 조건이 학생 시험 점수에 미치는 영향을 판별하도록 모델을 학습시킨다고 가정해 보겠습니다. 다음 표에는 세 가지 예가 나와 있으며 각 예에는 3개의 특성과 1개의 라벨이 포함됩니다.

기능 라벨
온도 습도 압력 테스트 점수
15 47 998 92
19 34 1020 84
18 92 1012 87

라벨과 대비되는 개념입니다.

특성 교차

#fundamentals

범주형 또는 버케팅된 특성을 '교차'하여 구성되는 합성 특성입니다.

예를 들어 다음 네 버킷 중 하나의 기온을 나타내는 '기분 예측' 모델이 있다고 가정해 보겠습니다.

  • freezing
  • chilly
  • temperate
  • warm

그리고 다음 세 가지 버킷 중 하나의 풍속을 나타냅니다.

  • still
  • light
  • windy

특성 교차가 없으면 선형 모델은 이전의 다양한 버킷 7개 각각에서 독립적으로 학습됩니다. 예를 들어 windy에 대한 학습과 별도로 freezing를 사용하여 모델을 학습시킵니다.

또는 온도와 풍속의 특성 교차를 만들 수 있습니다. 이 합성 특성은 다음과 같은 12개의 값을 가질 수 있습니다.

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

모델은 특성 교차를 통해 freezing-windy일과 freezing-still일 사이의 기분 차이를 학습할 수 있습니다.

각기 다른 버킷이 많은 두 특성에서 합성 특성을 만들면 특성 교차 결과 조합 수의 조합은 매우 많아집니다. 예를 들어 한 특성에 버킷이 1,000개 있고 다른 특성에 버킷이 2,000개 있으면 결과 특성 교차에 버킷이 2,000,000개가 있습니다.

공식적으로 교차는 데카르트 곱입니다.

특성 교차는 대부분 선형 모델에서 사용되며 신경망에서는 거의 사용되지 않습니다.

특성 추출 단계를 포함합니다

#fundamentals
#TensorFlow

다음 단계가 포함된 프로세스입니다.

  1. 모델 학습에 유용할 특성 결정
  2. 데이터 세트의 원시 데이터를 이러한 특성의 효율적인 버전으로 변환

예를 들어 temperature가 유용한 기능이라고 판단할 수 있습니다. 그런 다음 버케팅을 실험하여 모델이 다양한 temperature 범위에서 학습할 수 있는 내용을 최적화할 수 있습니다.

특성 추출을 특성 추출 또는 특성화라고도 합니다.

특성 추출

다음 정의 중 하나로 중복 정의된 용어입니다.

특성 중요도

#df

변수 중요도의 동의어입니다.

특성 세트

#fundamentals

머신러닝 모델에서 학습하는 특성 그룹입니다. 예를 들어 우편번호, 부동산 규모, 부동산 조건으로 주택 가격을 예측하는 모델에 대한 간단한 특성 세트가 구성될 수 있습니다.

특성 사양

#TensorFlow

tf.Example 프로토콜 버퍼에서 특성 데이터를 추출하는 데 필요한 정보를 설명합니다. tf.Example 프로토콜 버퍼는 데이터의 컨테이너이므로 다음을 지정해야 합니다.

  • 추출할 데이터 (특성의 키)
  • 데이터 유형 (예: float 또는 int)
  • 길이 (고정 또는 가변)

특성 벡터

#fundamentals

를 구성하는 feature 값의 배열입니다. 특성 벡터는 학습추론 중에 입력됩니다. 예를 들어 두 개의 불연속 특성이 있는 모델의 특성 벡터는 다음과 같을 수 있습니다.

[0.92, 0.56]

4개의 레이어: 입력 레이어 1개, 히든 레이어 2개, 출력 레이어 1개
          입력 레이어에는 0.92 값을 포함하는 노드와 0.56 값을 포함하는 노드가 두 개 포함됩니다.

각 예는 특성 벡터에 서로 다른 값을 제공하므로 다음 예의 특성 벡터는 다음과 같을 수 있습니다.

[0.73, 0.49]

특성 추출은 특성 벡터에서 특성을 표현하는 방법을 결정합니다. 예를 들어 가능한 값이 5개인 이진 범주형 특성은 원-핫 인코딩으로 표현할 수 있습니다. 이 경우 특정 예의 특징 벡터 부분은 다음과 같이 세 번째 위치에 4개의 0과 단일 1.0으로 구성됩니다.

[0.0, 0.0, 1.0, 0.0, 0.0]

또 다른 예로, 모델이 세 가지 특성으로 구성되어 있다고 가정해 보겠습니다.

  • 원-핫 인코딩으로 표현되는 가능한 값이 5개인 이진 범주형 특성. 예: [0.0, 1.0, 0.0, 0.0, 0.0]
  • 원-핫 인코딩으로 표현된 가능한 3개의 값을 갖는 또 다른 이진 범주형 특성. 예: [0.0, 0.0, 1.0]
  • 부동 소수점 특성(예: 8.3)

이 경우 각 예의 특성 벡터는 9개의 값으로 표현됩니다. 앞의 목록에 있는 예시 값을 고려하면 특성 벡터는 다음과 같습니다.

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

기능화

문서나 동영상과 같은 입력 소스에서 특성을 추출하고 이러한 특성을 특성 벡터에 매핑하는 프로세스입니다.

일부 ML 전문가는 기능화를 특성 추출 또는 특성 추출의 동의어로 사용합니다.

제휴 학습

스마트폰과 같은 기기에 있는 분산된 를 사용하여 머신러닝 모델학습하는 분산 머신러닝 접근 방식입니다. 제휴 학습에서는 기기의 하위 집합이 중앙 조정 서버에서 현재 모델을 다운로드합니다. 기기는 기기에 저장된 예를 사용하여 모델을 개선합니다. 그러면 기기는 학습 예가 아닌 모델 개선사항을 조정 서버에 업로드하고, 조정 서버에는 개선된 전역 모델을 생성하기 위해 다른 업데이트와 함께 집계됩니다. 집계 후에는 기기에서 계산된 모델 업데이트가 더 이상 필요하지 않으므로 삭제할 수 있습니다.

학습 예는 업로드되지 않으므로 제휴 학습은 집중 데이터 수집 및 데이터 수집 최소화라는 개인 정보 보호 원칙을 따릅니다.

제휴 학습에 대한 자세한 내용은 이 가이드를 참조하세요.

피드백 루프

#fundamentals

머신러닝에서 모델의 예측이 동일한 모델 또는 다른 모델의 학습 데이터에 영향을 미치는 상황입니다. 예를 들어 영화를 추천하는 모델은 사람들이 보는 영화에 영향을 주며, 이는 이후의 영화 추천 모델에 영향을 줍니다.

순방향 신경망 (FFN)

순환 또는 재귀 연결이 없는 신경망입니다. 예를 들어 기존 심층신경망은 순방향 신경망입니다. 순환되는 순환 신경망과 대비되는 개념입니다.

퓨샷 학습

객체 분류에 자주 사용되는 머신러닝 접근방식으로, 소수의 학습 예에서만 효과적인 분류기를 학습시키도록 설계되었습니다.

원샷 학습제로샷 학습도 참조하세요.

퓨샷 프롬프팅

#language
#생성형AI

대규모 언어 모델의 응답 방식을 보여주는 프롬프트가 두 개 이상('몇 개') 포함되어 있습니다. 예를 들어 다음과 같은 긴 프롬프트에는 대규모 언어 모델의 쿼리에 답변하는 방법을 보여주는 두 개의 예가 포함되어 있습니다.

프롬프트 하나에 포함되는 요소 Notes
지정된 국가의 공식 통화는 무엇인가요? LLM이 답변하기를 원하는 질문입니다.
프랑스: EUR 한 가지 예.
영국: GBP 또 다른 예가 있습니다.
인도: 실제 쿼리입니다.

퓨샷 프롬프팅은 일반적으로 제로샷 프롬프팅원샷 프롬프팅보다 더 바람직한 결과를 생성합니다. 그러나 퓨샷 프롬프팅에는 더 긴 프롬프트가 필요합니다

퓨샷 프롬프팅은 프롬프트 기반 학습에 적용되는 퓨샷 학습의 한 형태입니다.

바이올린

#language

침습적 코드나 인프라 없이 함수 및 클래스의 값을 설정하는 Python 우선 구성 라이브러리입니다. Pax 및 기타 ML 코드베이스의 경우 이러한 함수와 클래스는 모델학습 초매개변수를 나타냅니다.

Fiddle은 머신러닝 코드베이스가 일반적으로 다음과 같이 나뉘어 있다고 가정합니다.

  • 레이어와 옵티마이저를 정의하는 라이브러리 코드
  • 라이브러리를 호출하고 모든 것을 함께 연결하는 데이터 세트 '글루' 코드

Fiddle은 평가되지 않고 변경 가능한 형식으로 글루 코드의 호출 구조를 캡처합니다.

미세 조정

#language
#image
#생성형AI

특정 사용 사례에 맞게 매개변수를 미세 조정하기 위해 선행 학습된 모델에서 수행되는 두 번째 작업별 학습 패스입니다. 예를 들어 일부 대규모 언어 모델의 전체 학습 시퀀스는 다음과 같습니다.

  1. 사전 학습: 모든 영어 Wikipedia 페이지와 같은 방대한 일반 데이터 세트를 사용해 대규모 언어 모델을 학습시킵니다.
  2. 미세 조정: 의료 쿼리에 대한 응답과 같은 특정 작업을 수행하도록 선행 학습된 모델을 학습시킵니다. 미세 조정에는 일반적으로 특정 작업에 중점을 둔 수백 또는 수천 개의 예가 포함됩니다.

또 다른 예로, 큰 이미지 모델의 전체 학습 시퀀스는 다음과 같습니다.

  1. 사전 학습: Wikimedia Commons의 모든 이미지와 같은 방대한 일반 이미지 데이터 세트로 대규모 이미지 모델을 학습시킵니다.
  2. 미세 조정: 범고래 이미지 생성과 같은 특정 작업을 수행하도록 선행 학습된 모델을 학습시킵니다.

미세 조정에는 다음 전략을 원하는 대로 조합하여 사용할 수 있습니다.

  • 선행 학습된 모델의 기존 매개변수 모두 수정 이를 전체 미세 조정이라고도 합니다.
  • 선행 학습된 모델의 기존 매개변수 중 일부(일반적으로 출력 레이어에 가장 가까운 레이어)만 수정하고 다른 기존 매개변수는 변경하지 않고 (일반적으로 입력 레이어에 가장 가까운 레이어) 수정 매개변수 효율적인 조정을 참조하세요.
  • 일반적으로 출력 레이어에 가장 가까운 기존 레이어 위에 레이어를 더 추가합니다.

미세 조정은 전이 학습의 한 형태입니다. 따라서 미세 조정은 선행 학습된 모델을 학습시키는 데 사용된 것과 다른 손실 함수 또는 다른 모델 유형을 사용할 수 있습니다. 예를 들어 선행 학습된 대형 이미지 모델을 미세 조정하여 입력 이미지에서 새 수를 반환하는 회귀 모델을 만들 수 있습니다.

미세 조정을 다음 용어와 비교 및 대조해 보세요.

플랙스

#language

JAX를 기반으로 빌드된 딥 러닝용 고성능 오픈소스 라이브러리입니다. Flax는 신경망 학습 함수와 성능 평가 방법을 제공합니다.

플랙스포머

#language

Flax를 기반으로 하는 오픈소스 Transformer 라이브러리로, 주로 자연어 처리와 멀티모달 연구를 위해 설계되었습니다.

CANNOT TRANSLATE

#seq

셀을 통한 정보 흐름을 조절하는 장기 단기 기억 셀의 일부입니다. 삭제 게이트는 셀 상태에서 삭제할 정보를 결정하여 컨텍스트를 유지합니다.

전체 소프트맥스

소프트맥스의 동의어입니다.

후보 샘플링과 대비되는 개념입니다.

완전 연결 레이어

노드가 후속 히든 레이어의 모든 노드에 연결되는 히든 레이어입니다.

완전 연결 레이어를 밀집 레이어라고도 합니다.

함수 변환

함수를 입력으로 사용하고 변환된 함수를 출력으로 반환하는 함수입니다. JAX는 함수 변환을 사용합니다.

G

GAN.

생성적 적대 신경망(GAN)의 약어입니다.

일반화

#fundamentals

이전에 본 적이 없는 새로운 데이터를 올바르게 예측하는 모델의 기능입니다. 일반화할 수 있는 모델은 과적합 모델의 반대입니다.

일반화 곡선

#fundamentals

반복 횟수에 따른 함수로서 학습 손실검증 손실 도표.

일반화 곡선을 사용하면 발생할 수 있는 과적합을 감지할 수 있습니다. 예를 들어 다음 일반화 곡선은 검증 손실이 학습 손실보다 훨씬 커지기 때문에 과적합을 나타냅니다.

y축에는 손실, x축에는 반복 라벨이 지정된 데카르트 그래프입니다. 두 개의 도표가 나타납니다. 하나는 학습 손실을, 다른 하나는 검증 손실을 보여줍니다.
          두 도표는 비슷하게 시작하지만 학습 손실은 결국 검증 손실보다 훨씬 낮게 나타납니다.

일반화 선형 모델

가우시안 노이즈를 기반으로 하는 최소 제곱 회귀 모델을 푸아송 노이즈나 범주형 노이즈와 같은 다른 유형의 노이즈를 기반으로 하는 다른 유형의 모델에 대한 일반화입니다. 일반화 선형 모델의 예는 다음과 같습니다.

볼록 최적화를 통해 일반화 선형 모델의 매개변수를 구할 수 있습니다.

일반화 선형 모델에는 다음과 같은 속성이 있습니다.

  • 최적의 최소 제곱 회귀 모델의 평균 예측은 학습 데이터의 평균 라벨과 동일합니다.
  • 최적의 로지스틱 회귀 모델이 예측하는 평균적인 확률은 학습 데이터의 평균 라벨과 동일합니다.

일반화 선형 모델의 성능은 특성에 따라 제한됩니다. 일반화 선형 모델은 심층 모델과 달리 '새로운 특성을 학습'하지 못합니다.

생성적 적대 신경망 (GAN)

생성자가 데이터를 생성하고 분류자가 생성된 데이터가 유효한지 여부를 결정하는 새 데이터를 생성하는 시스템입니다.

생성형 AI

#language
#image
#생성형AI

공식적인 정의가 없는 혁신적인 분야가 새롭게 떠오르고 있습니다. 하지만 대부분의 전문가는 생성형 AI 모델이 다음과 같은 모든 콘텐츠를 생성 ('생성')할 수 있다는 데 동의합니다

  • 복잡함
  • 일관성
  • 원본

예를 들어 생성형 AI 모델로 정교한 에세이나 이미지를

LSTMRNN을 비롯한 일부 초기 기술도 독창적이고 일관된 콘텐츠를 생성할 수 있습니다. 일부 전문가들은 이러한 초기 기술을 생성형 AI로 여기지만, 다른 전문가들은 진정한 생성형 AI를 위해서는 기존 기술이 생산할 수 있는 것보다 더 복잡한 출력이 필요하다고 생각합니다.

예측 ML과 대비되는 개념입니다.

생성 모델

다음 중 하나를 수행하는 모델입니다.

  • 학습 데이터 세트에서 새 예를 만듭니다. 예를 들어 생성 모델은 시 데이터 세트를 학습한 후 시를 만들 수 있습니다 생성적 적대 신경망생성기 부분이 이 카테고리에 속합니다.
  • 새로운 예가 학습 세트에서 생성되었는지 또는 학습 세트를 만든 동일한 메커니즘에서 생성되었을 확률을 결정합니다. 예를 들어 영어 문장으로 구성된 데이터 세트를 학습한 후 생성 모델은 새로운 입력이 유효한 영어 문장일 확률을 결정할 수 있습니다.

생성 모델은 이론적으로 데이터 세트에서 예 또는 특정 특성의 분포를 식별할 수 있습니다. 이는 다음과 같은 의미입니다.

p(examples)

비지도 학습 모델은 생성 모델입니다.

분류 모델과 대비되는 개념입니다.

생성기

새로운 를 만드는 생성적 적대 신경망 내의 하위 시스템입니다.

분류 모델과 대비되는 개념입니다.

지니 불순물

#df

엔트로피와 유사한 측정항목입니다. 분할기는 지니 불순물 또는 엔트로피에서 파생된 값을 사용하여 결정 트리 분류를 위한 조건을 구성합니다. 정보 이득은 엔트로피에서 파생됩니다. gini 불순물에서 파생된 측정항목에 대해 보편적으로 인정되는 동등한 용어는 없지만, 이 이름이 지정되지 않은 이 측정항목은 정보 획득만큼이나 중요합니다.

지니 불순물을 지니 지수 또는 간단히 지니라고도 합니다.

골든 데이터 세트

정답을 포착하는 수동으로 선별된 데이터 세트입니다. 팀은 하나 이상의 골든 데이터 세트를 사용하여 모델의 품질을 평가할 수 있습니다.

일부 골든 데이터 세트는 정답의 여러 하위 도메인을 캡처합니다. 예를 들어 이미지 분류를 위한 골든 데이터 세트는 조명 조건과 이미지 해상도를 캡처할 수 있습니다.

GPT (생성형 선행 학습된 Transformer)

#language

OpenAI에서 개발한 Transformer 기반 대규모 언어 모델 제품군입니다.

GPT 변형은 다음을 포함한 여러 형식에 적용할 수 있습니다.

  • 이미지 생성 (예: ImageGPT)
  • 텍스트 이미지 변환 생성 (예: DALL-E)

gradient

모든 독립 변수를 기준으로 한 편미분의 벡터입니다. 머신러닝에서 기울기는 모델 함수의 편미분 벡터입니다. 경사는 가장 가파른 상승 방향을 가리킵니다.

경사 누적

매개변수를 반복당 한 번이 아니라 에포크당 한 번만 업데이트하는 역전파 기법입니다. 각 미니 배치를 처리한 후 경사 누적은 단순히 경사의 누적 합계를 업데이트합니다. 그런 다음 에포크에서 마지막 미니 배치를 처리한 후 시스템은 최종적으로 모든 경사 변화의 합계를 기반으로 매개변수를 업데이트합니다.

경사 누적은 학습에 사용 가능한 메모리 양에 비해 배치 크기가 매우 큰 경우에 유용합니다. 메모리가 문제인 경우 배치 크기를 줄이는 것이 자연스러운 현상입니다. 그러나 일반 역전파에서 배치 크기를 줄이면 매개변수 업데이트 횟수가 증가합니다. 경사 축적을 사용하면 모델에서 메모리 문제를 방지하면서 효율적으로 학습시킬 수 있습니다

그래디언트 부스티드 (결정) 트리 (GBT)

#df

결정 포레스트의 한 유형으로, 다음과 같은 요소가 포함됩니다.

경사 부스팅

#df

강력한 모델의 품질을 개선 (손실 감소)하도록 반복적으로 약한 모델을 학습시키는 학습 알고리즘입니다. 예를 들어 약한 모델은 선형 또는 소규모 결정 트리 모델일 수 있습니다. 강인한 모델은 이전에 학습된 모든 취약한 모델의 합이 됩니다.

가장 간단한 형태의 경사 부스팅에서는 반복할 때마다 약한 모델이 강력한 모델의 손실 경사를 예측하도록 학습됩니다. 그런 다음 경사하강법과 마찬가지로 예측된 경사를 빼서 강력한 모델의 출력을 업데이트합니다.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

각 매개변수는 다음과 같습니다.

  • $F_{0}$ 는 강력한 시작 모델입니다.
  • $F_{i+1}$ 가 차선 모델입니다.
  • $F_{i}$ 는 현재의 강력한 모델입니다.
  • $\xi$ 는 축소라고 하는 0.0과 1.0 사이의 값으로, 경사하강법의 학습률과 유사합니다.
  • $f_{i}$ 는 $F_{i}$의 손실 경사를 예측하도록 학습된 약한 모델입니다.

경사 부스팅의 최신 변형에는 계산에서 손실의 2도함수(헤시안)도 포함됩니다.

결정 트리는 일반적으로 경사 부스팅의 약한 모델로 사용됩니다. 그라데이션 부스티드 (결정) 트리를 참고하세요.

경사 제한

#seq

경사하강법을 사용하여 모델을 학습할 때 경사의 최댓값을 인위적으로 제한 (클리핑)하여 경사 발산 문제를 완화하는 데 일반적으로 사용되는 메커니즘입니다.

경사하강법

#fundamentals

손실을 최소화하는 수학적 기법입니다. 경사하강법은 가중치편향을 반복적으로 조정하여 손실을 최소화하는 최적의 조합을 찾아냅니다.

경사하강법은 머신러닝보다 훨씬 더 오래되었습니다.

그래프

#TensorFlow

TensorFlow에서는 계산 사양을 의미합니다. 그래프의 노드는 연산을 나타냅니다 에지는 방향성을 가지며, 연산의 결과 (텐서)를 다른 연산의 피연산자로 전달함을 의미합니다. TensorBoard를 사용하여 그래프를 시각화합니다.

그래프 실행

#TensorFlow

프로그램에서 먼저 그래프를 구성한 다음 그래프의 전체 또는 일부를 실행하는 TensorFlow 프로그래밍 환경입니다. 그래프 실행은 TensorFlow 1.x의 기본 실행 모드입니다.

즉시 실행과 대비되는 개념입니다.

탐욕적 정책

#rl

강화 학습에서 항상 가장 높은 수익이 예상되는 작업을 선택하는 정책입니다.

정답

#fundamentals

현실입니다.

실제로 발생한 일입니다.

예를 들어 대학 1학년 학생이 6년 이내에 졸업할지 예측하는 이진 분류 모델을 가정해 보겠습니다. 이 모델의 정답은 해당 학생이 실제로 6년 이내에 졸업했는지 여부입니다.

그룹 귀인 편향

#fairness

개인의 진실이 해당 그룹의 모든 사람에게도 참이라고 가정합니다. 데이터 수집을 위해 간편 샘플링을 사용하면 그룹 귀인 편향의 영향이 악화될 수 있습니다. 대표성이 없는 샘플에서는 현실을 반영하지 않는 기여 분석을 만들 수 있습니다.

외부 집단 동질화 편향내집단 편향을 참고하세요.

H

할루시네이션

#language

그럴듯해 보이지만 실제로는 잘못된 출력을 생성하는 생성형 AI 모델에서 실제 세상에 대해 주장한 것처럼 가장합니다. 예를 들어 버락 오바마가 1865년에 사망했다고 주장하는 생성형 AI 모델은 할루시네이션입니다.

해싱

머신러닝에서 범주형 데이터를 버케팅하는 메커니즘으로, 특히 카테고리 수는 많지만 데이터 세트에 실제로 나타나는 카테고리 수는 상대적으로 적은 경우에 사용됩니다.

예를 들어 지구에는 약 73,000종의 수종이 서식하고 있습니다. 73,000개의 개별 범주형 버킷에 있는 73,000개의 수종을 각각 나타낼 수 있습니다. 또는 이러한 수종 중 200종만 데이터 세트에 나타나는 경우 해싱을 사용하여 수종을 500개 버킷으로 나눌 수 있습니다.

단일 버킷에 여러 수종이 포함될 수 있습니다. 예를 들어 해싱을 사용하면 유전적으로 다른 두 종인 바오밥빨간 단풍나무를 같은 버킷에 넣을 수 있습니다. 그럼에도 불구하고 해싱은 여전히 큰 범주형 집합을 선택한 수의 버킷에 매핑하는 좋은 방법입니다. 해싱은 확정적인 방식으로 값을 그룹화하여 가능한 값이 많은 범주형 특성을 훨씬 적은 수의 값으로 변환합니다.

휴리스틱

문제에 대한 간단하면서도 빠르게 구현된 해결책 예를 들어 '휴리스틱을 사용한 결과 86% 의 정확성을 달성했습니다. 심층신경망으로 전환했을 때 정확도가 98%까지 올라갔습니다."

히든 레이어

#fundamentals

입력 레이어 (특성)와 출력 레이어 (예측) 사이에 있는 신경망의 레이어입니다. 각 히든 레이어는 하나 이상의 뉴런으로 구성됩니다. 예를 들어 다음 신경망에는 2개의 히든 레이어가 있는데, 첫 번째에는 뉴런이 3개, 두 번째에는 뉴런이 2개 있습니다.

레이어 4개 첫 번째 레이어는 두 개의 특성이 포함된 입력 레이어입니다. 두 번째 레이어는 3개의 뉴런이 포함된 히든 레이어입니다. 세 번째 레이어는 뉴런 두 개가 포함된 히든 레이어입니다. 네 번째 레이어는 출력 레이어입니다 각 특성에는 3개의 에지가 포함되며 각 에지는 두 번째 레이어의 다른 뉴런을 가리킵니다. 두 번째 레이어의 각 뉴런에는
          2개의 에지가 있으며, 각 변은 세 번째 레이어의
          다른 뉴런을 가리킵니다. 세 번째 레이어의 각 뉴런에는 각각 출력 레이어를 가리키는 에지가 하나씩 포함되어 있습니다.

심층신경망에는 둘 이상의 히든 레이어가 포함되어 있습니다. 예를 들어 앞의 그림은 심층신경망입니다. 모델에 두 개의 히든 레이어가 포함되어 있습니다.

계층적 군집화

#clustering

클러스터 트리를 만드는 클러스터링 알고리즘의 카테고리입니다. 계층적 군집화는 식물 분류와 같은 계층적 데이터에 적합합니다. 계층적 클러스터링 알고리즘에는 두 가지 유형이 있습니다

  • 병합형 군집화는 먼저 모든 예를 자체 클러스터에 할당하고 가장 가까운 클러스터를 반복적으로 병합하여 계층적 트리를 생성합니다.
  • 분리형 군집화는 먼저 모든 예를 하나의 클러스터로 그룹화한 다음 클러스터를 계층적 트리로 반복적으로 분할합니다.

중심 기반 군집화와 대비되는 개념입니다.

힌지 손실

분류를 위한 손실 함수군은 각 학습 예에서 최대한 멀리 떨어진 결정 경계를 찾아 예시와 경계 사이의 간격을 최대화하도록 설계되었습니다. KSVM은 힌지 손실 (또는 제곱 힌지 손실과 같은 관련 함수)을 사용합니다. 이진 분류의 경우 힌지 손실 함수는 다음과 같이 정의됩니다.

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

여기서 y는 참 라벨(-1 또는 +1)이고 y'는 분류 기준 모델의 원시 출력입니다.

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

따라서 힌지 손실과 (y * y')의 플롯은 다음과 같습니다.

두 개의 결합된 선 세그먼트로 구성된 데카르트 도표 첫 번째 선 세그먼트는 (-3, 4)에서 시작하여 (1, 0)에서 끝납니다. 두 번째 선 세그먼트는 (1, 0)에서 시작하여 기울기가 0으로 무한히 계속됩니다.

과거 편향

#fairness

세상에 이미 존재하고 데이터 세트에 적용된 일종의 편향입니다. 이러한 편향은 기존의 문화적 고정 관념, 인구통계학적 불평등, 특정 사회 집단에 대한 편견을 반영하는 경향이 있습니다.

예를 들어 대출 신청자가 대출을 상환할지 여부를 예측하는 분류 모델을 살펴보겠습니다. 이 모델은 서로 다른 두 커뮤니티에 있는 1980년대 현지 은행의 과거 대출 상환 데이터를 바탕으로 학습되었습니다. 커뮤니티 A의 이전 신청자가 커뮤니티 B의 신청자보다 대출을 상환할 가능성이 6배 더 높다면 모델은 과거 편향을 학습하여 해당 커뮤니티의 더 높은 상환 금리를 초래했던 과거 조건이 더 이상 관련이 없는 경우에도 커뮤니티 A의 대출을 승인할 가능성이 낮아질 수 있습니다.

홀드아웃 데이터

학습 중에 의도적으로 사용하지 않은 ('홀드아웃') 예시 검증 데이터 세트테스트 데이터 세트는 홀드아웃 데이터의 예입니다. 홀드아웃 데이터는 학습에 사용하지 않은 데이터에 대한 모델의 일반화 능력을 평가하는 데 도움이 됩니다. 홀드아웃 세트의 손실은 학습 세트의 손실보다 이전에 접하지 못한 데이터 세트의 손실을 더 효과적으로 예측합니다.

호스트

#TensorFlow
#GoogleCloud

가속기 칩(GPU 또는 TPU)에서 ML 모델을 학습시킬 때 시스템에서 다음 두 가지를 모두 제어하는 부분입니다.

  • 코드의 전체 흐름
  • 입력 파이프라인의 추출 및 변환

호스트는 일반적으로 가속기 칩이 아닌 CPU에서 실행됩니다. 기기는 가속기 칩의 텐서를 조작합니다.

초매개변수

#fundamentals

개발자 또는 초매개변수 조정 서비스가 모델을 연속적으로 실행하는 동안 조정되는 변수입니다. 예를 들어 학습률은 초매개변수 중 하나입니다. 학습 세션 1개 전에 학습률을 0.01로 설정할 수 있습니다. 0.01이 너무 높다고 판단되면 다음 학습 세션의 학습률을 0.003으로 설정할 수 있습니다.

반대로 매개변수는 다양한 가중치편향이며, 모델이 학습 중에 학습합니다.

초평면

한 공간을 두 개의 부분공간으로 구분하는 경계입니다. 예를 들어 선은 2차원의 초평면이고 평면은 3차원의 초평면입니다. 머신러닝에서 더 일반적으로 사용되는 초평면은 고차원 공간을 구분하는 경계입니다. 커널 서포트 벡터 머신은 보통 초고차원 공간에서 초평면을 사용하여 포지티브 클래스와 네거티브 클래스를 분리합니다.

I

i.i.d

Independently and Ident 알아내기의 약어입니다.

영상 인식

#image

이미지에서 객체, 패턴 또는 개념을 분류하는 프로세스입니다. 영상 인식을 이미지 분류라고도 합니다.

자세한 내용은 ML 실습: 이미지 분류를 참조하세요.

불균형 데이터 세트

클래스 불균형 데이터 세트의 동의어입니다.

내재적 편향

#fairness

자신의 사고 모델과 기억을 기반으로 자동으로 연관 짓거나 가정을 만듭니다. 내재적 편향은 다음에 영향을 줄 수 있습니다.

  • 데이터 수집 및 분류 방법
  • 머신러닝 시스템 설계 및 개발 방법

예를 들어 결혼 사진을 식별하는 분류기를 만들 때 엔지니어는 사진에 있는 흰색 드레스를 특성으로 사용할 수 있습니다. 하지만 흰색 드레스는 특정 시대와 특정 문화에서만 관례적으로 사용되었습니다.

확증 편향을 참조하세요.

대치

짧은 형식의 값 대치입니다.

공정성 측정항목의 비호환성

#fairness

일부 공정성 개념은 상호 호환되지 않으며 동시에 충족될 수 없다는 개념입니다. 따라서 모든 ML 문제에 적용할 수 있는 공정성을 수량화하기 위한 단일 보편적인 측정항목은 없습니다.

이는 의욕적으로 보일 수 있지만 공정성 측정항목의 비호환성이 공정성에 대한 노력이 효과가 없다는 것을 의미하지는 않습니다. 대신 사용 사례에 따른 피해를 방지하기 위해 주어진 ML 문제에 대해 공정성을 맥락적으로 정의해야 한다고 제안합니다.

이 주제에 관한 자세한 내용은 '공정성의 가능성에 관해'를 참고하세요.

컨텍스트 내 학습

#language
#생성형AI

퓨샷 프롬프팅의 동의어입니다.

독립적이고 동일한 분포 (i.i.d)

#fundamentals

변경되지 않는 분포에서 가져온 데이터와 각 값이 이전에 그려진 값에 종속되지 않는 경우입니다. i.i.d.는 머신러닝의 이상기체로, 유용한 수학적 구조이지만 현실에서는 거의 찾아볼 수 없습니다. 예를 들어 웹페이지 방문자 분포는 짧은 기간에 걸쳐 i.i.d.일 수 있습니다. 즉, 짧은 기간 동안 분포가 변경되지 않으며 한 사용자의 방문은 일반적으로 다른 사용자의 방문과 무관합니다. 그러나 기간을 확장하면 웹페이지 방문자 수에 계절적인 차이가 나타날 수 있습니다.

비고정성을 참조하세요.

개별 공정성

#fairness

비슷한 개인이 유사하게 분류되는지 여부를 확인하는 공정성 측정항목입니다. 예를 들어, Brobdingnagian Academy는 성적이 동일하고 시험 점수가 표준화된 두 학생이 입학 가능성에 대해 똑같이 입학할 수 있도록 하여 개별적인 공정성을 충족시킬 수 있습니다.

개별 공정성은 '유사성'을 정의하는 방식에 전적으로 달려 있으며(여기서는 성적 및 시험 점수) 유사성 측정항목이 중요한 정보 (예: 학생 교육과정의 엄격성)를 놓치는 경우 새로운 공정성 문제가 생길 위험이 있습니다.

개별 공정성에 관한 자세한 내용은 '인식을 통한 공정성'을 참조하세요.

추론

#fundamentals

머신러닝에서 학습된 모델을 라벨이 없는 예에 적용하여 예측을 수행하는 과정을 말합니다.

추론은 통계에서 의미가 다소 다릅니다. 자세한 내용은 통계적 추론에 대한 위키백과 문서를 참조하세요.

추론 경로

#df

결정 트리에서 추론 중에 특정 의 경로는 루트에서 다른 조건까지 거치며 리프로 끝납니다. 예를 들어 다음 결정 트리에서 굵은 화살표는 다음과 같은 특성 값을 사용하여 예의 추론 경로를 나타냅니다.

  • x = 7
  • y = 12
  • z = -3

다음 그림의 추론 경로는 리프 (Zeta)에 도달하기 전에 세 가지 조건을 거칩니다.

4개의 조건과 5개의 리프로 구성된 결정 트리
          루트 조건은 (x > 0)입니다. 답변이 '예'이므로 추론 경로가 루트에서 다음 조건으로 이동합니다 (y > 0).
          답변이 '예'이므로 추론 경로는 다음 조건 (z > 0)으로 이동합니다. 답이 '아니요'이므로 추론 경로는 리프 (Zeta)인 터미널 노드로 이동합니다.

세 개의 굵은 화살표는 추론 경로를 보여줍니다.

정보 수집

#df

결정 포레스트에서 노드의 엔트로피와 하위 노드 엔트로피의 가중 (예시 개수별) 합계 간 차이입니다. 노드의 엔트로피는 해당 노드에 있는 예의 엔트로피입니다

예를 들어 다음과 같은 엔트로피 값을 생각해 보겠습니다.

  • 상위 노드의 엔트로피 = 0.6
  • 관련 예 16개가 있는 하위 노드 1개의 엔트로피 = 0.2
  • 관련 예 24개가 있는 다른 하위 노드의 엔트로피 = 0.1

따라서 예시의 40% 는 한 하위 노드에 있고 60% 는 다른 하위 노드에 있습니다. 따라서 날짜는 다음과 같이 계산합니다.

  • 하위 노드의 가중치가 적용된 엔트로피 합계 = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

이렇게 얻은 정보는 다음과 같습니다.

  • 정보 증가 = 상위 노드의 엔트로피 - 하위 노드의 가중치가 적용된 엔트로피 합계
  • 정보 증가 = 0.6 - 0.14 = 0.46

대부분의 스플리터는 정보 획득을 극대화하는 조건을 만들려고 합니다.

내집단 편향

#fairness

자신이 속한 그룹이나 자신의 특징을 편파적으로 표현하는 행위 테스터 또는 평가자가 머신러닝 개발자의 친구, 가족, 동료로 구성된 경우 내집단 편향은 제품 테스트 또는 데이터 세트를 무효화할 수 있습니다.

내집단 편향은 그룹 귀인 편향의 일종입니다. 외부 집단 동질화 편향을 참조하세요.

입력 생성기

데이터가 신경망에 로드되는 메커니즘입니다.

입력 생성기는 원시 데이터를 텐서로 처리하는 역할을 하는 구성요소로 간주할 수 있으며, 텐서는 이러한 과정을 반복하여 학습, 평가, 추론을 위한 배치를 생성합니다.

입력 레이어

#fundamentals

특성 벡터가 포함된 신경망레이어입니다. 즉, 입력 레이어가 학습 또는 추론예시를 제공합니다. 예를 들어 다음 신경망의 입력 레이어는 두 특성으로 구성됩니다.

4개의 레이어: 입력 레이어 1개, 히든 레이어 2개, 출력 레이어 1개

설정 조건

#df

결정 트리에서 항목 집합에 하나의 항목이 존재하는지 테스트하는 조건 예를 들어 다음은 설정된 조건입니다.

  house-style in [tudor, colonial, cape]

추론 중에 주택 스타일 지형지물의 값이 tudor 또는 colonial 또는 cape이면 이 조건은 '예'로 평가됩니다. 주택 스타일 지형지물의 값이 다른 값 (예: ranch)이면 이 조건은 '아니요'로 평가됩니다.

인셋 조건은 일반적으로 원-핫 인코딩 특성을 테스트하는 조건보다 더 효율적인 결정 트리로 이어집니다.

인스턴스

의 동의어입니다.

명령 조정

#생성형AI

생성형 AI 모델의 안내 준수 기능을 개선하는 미세 조정의 한 형태입니다. 명령 조정에는 일반적으로 다양한 작업을 포괄하는 일련의 명령 프롬프트에서 모델을 학습시키는 작업이 포함됩니다. 그러면 명령이 조정된 결과 모델이 다양한 태스크에서 제로샷 프롬프트에 유용한 응답을 생성하는 경향이 있습니다.

비교 및 대조:

해석 가능성

#fundamentals

ML 모델의 추론을 이해하기 쉬운 용어로 설명하거나 제시할 수 있는 능력입니다.

예를 들어 대부분의 선형 회귀 모델은 해석 가능성이 높습니다. (각 특성에 대해 학습된 가중치만 확인하면 됩니다.) 결정 포레스트는 해석 가능성이 높습니다. 그러나 일부 모델의 경우 해석할 수 있도록 정교한 시각화가 필요합니다.

학습 해석 가능성 도구 (LIT)를 사용하여 ML 모델을 해석할 수 있습니다.

평가자 간 동의

작업을 수행할 때 인간 평가자가 동의하는 빈도를 측정한 값입니다. 평가자들이 동의하지 않는 경우 작업 지침을 개선해야 할 수 있습니다. 평정자 간 동의 또는 평가자 간 신뢰성이라고도 합니다. 가장 많이 사용되는 평가자 간 동의 측정 방법 중 하나인 Cohen's kappa도 참조하세요.

IoU (Intersection over Union)

#image

두 집합의 교집합을 합집합으로 나눈 값입니다. 머신러닝 이미지 감지 작업에서 IoU는 정답 경계 상자와 관련하여 모델의 예측된 경계상자의 정확성을 측정하는 데 사용됩니다. 이 경우 두 상자의 IoU는 겹치는 영역과 전체 영역 사이의 비율이며 값의 범위는 0 (예측된 경계 상자와 정답 경계 상자가 겹치지 않음)에서 1 (예측된 경계 상자와 실측 정보 경계 상자의 좌표가 정확하게 동일함)입니다.

아래 이미지를 참고하세요.

  • 예측된 경계 상자 (모델이 그림에 있는 야간 테이블이 있다고 예측하는 위치를 구분하는 좌표)는 보라색 윤곽선으로 표시됩니다.
  • 실측 정보 경계 상자 (그림에서 야간 테이블이 실제로 있는 위치를 구분하는 좌표)는 녹색으로 윤곽선이 표시됩니다.

아를의 빈센트 침실을 그린 반 고흐의 침대 옆 야간 테이블 둘레에 서로 다른 두 개의 경계 상자가 놓여 있습니다. 실측 정보 경계 상자 (녹색)는 야간 표를 완벽하게 우회합니다. 예측된 경계 상자 (보라색)는 50% 아래의 실측 정보 경계 상자의 오른쪽에 오프셋되어 있습니다. 이 상자는 야간 테이블의 오른쪽 하단 4분의 1을 둘러싸지만 테이블의 나머지 부분은 놓칩니다.

여기에서 예측과 정답 경계 상자(왼쪽 아래)의 교집합은 1이고, 예측과 정답 (오른쪽 아래)을 위한 경계 상자의 합집합은 7이므로 IoU는 \(\frac{1}{7}\)입니다.

위와 동일한 이미지이지만 각 경계 상자가 4개의 사분면으로 나뉩니다. 실측 정보 경계 상자의 오른쪽 하단 사분면과 예측된 경계 상자의 왼쪽 상단 사분면이 서로 겹치기 때문에 총 7개의 사분면이 있습니다. 이 겹치는 부분 (녹색으로 강조표시됨)은 교차로를 나타내며 면적은 1입니다. 위와 동일한 이미지이지만 각 경계 상자가 4개의 사분면으로 나뉩니다. 실측 정보 경계 상자의 오른쪽 하단 사분면과 예측된 경계 상자의 왼쪽 상단 사분면이 서로 겹치기 때문에 총 7개의 사분면이 있습니다.
          두 경계 상자로 둘러싸인 전체 내부(녹색으로 강조표시됨)는 합집합을 나타내며 면적은 7입니다.

IoU

intersection over Union의 약어입니다.

항목 행렬

#recsystems

추천 시스템에서 각 항목에 대한 잠재 신호를 보유하는 행렬 분해에 의해 생성된 임베딩 벡터의 행렬입니다. 항목 행렬의 각 행에는 모든 항목에 대한 단일 잠재 특성 값이 포함됩니다. 영화 추천 시스템을 예로 들어보겠습니다. 항목 행렬의 각 열은 단일 영화를 나타냅니다. 잠재 신호는 장르를 나타내거나 장르, 스타, 영화 시대 또는 기타 요소 간의 복잡한 상호작용을 포함하는 해석하기 어려운 신호일 수 있습니다.

항목 행렬은 분해되는 대상 행렬과 동일한 수의 열을 가집니다. 예를 들어 10,000개의 영화를 평가하는 영화 추천 시스템의 경우 항목 행렬은 10,000개의 열을 갖게 됩니다.

items

#recsystems

추천 시스템에서 추천되는 항목입니다. 예를 들어 비디오는 비디오 매장에서 추천하는 항목이고 도서는 서점에서 추천하는 항목입니다.

반복

#fundamentals

학습 중에 모델 매개변수(모델의 가중치편향)의 단일 업데이트 배치 크기는 모델이 단일 반복으로 처리하는 예의 수를 결정합니다. 예를 들어 배치 크기가 20이면 모델은 매개변수를 조정하기 전에 20개의 예를 처리합니다.

신경망을 학습시킬 때 한 번의 반복에 다음 두 패스가 포함됩니다.

  1. 단일 배치의 손실을 평가하는 정방향 전달입니다.
  2. 손실 및 학습률을 토대로 모델의 매개변수를 조정하는 역전파 (역전파)입니다.

J

JAX

고성능 수치 연산을 위한 자동 미분과 XLA (Accelerated Linear Algebra)를 결합한 배열 컴퓨팅 라이브러리입니다. JAX는 구성 가능한 변환을 통해 가속 숫자 코드를 작성하기 위한 간단하고 강력한 API를 제공합니다. JAX는 다음과 같은 기능을 제공합니다.

  • grad (자동 미분)
  • jit (Just-In-Time 컴파일)
  • vmap (자동 벡터화 또는 일괄 처리)
  • pmap (병렬 처리)

JAX는 숫자 코드의 변환을 표현하고 작성하기 위한 언어입니다. Python의 NumPy 라이브러리와 비슷하지만 범위가 훨씬 넓습니다. 실제로 JAX의 .numpy 라이브러리는 기능적으로 동일하지만 완전히 다시 작성된 Python NumPy 라이브러리 버전입니다.

JAX는 특히 GPU 및 TPU 액셀러레이터 칩에서 동시 로드에 적합한 형식으로 모델과 데이터를 변환하여 많은 머신러닝 작업의 속도를 높이는 데 적합합니다.

Flax, Optax, Pax 및 기타 여러 라이브러리가 JAX 인프라를 기반으로 빌드됩니다.

K

Keras

널리 사용되는 Python Machine Learning API입니다. Keras는 TensorFlow를 비롯한 여러 딥 러닝 프레임워크에서 실행되며, TensorFlow에서는 tf.keras로 제공됩니다.

커널 서포트 벡터 머신 (KSVM)

입력 데이터 벡터를 고차원 공간에 매핑하여 양성네거티브 클래스 사이의 간격을 최대화하는 분류 알고리즘입니다. 예를 들어 입력 데이터 세트에 특성이 100개 있는 분류 문제를 생각해 보겠습니다. KSVM은 포지티브 클래스와 네거티브 클래스 사이의 간격을 최대화하기 위해 내부적으로 이러한 특성을 백만 차원 공간에 매핑할 수 있습니다. KSVM은 힌지 손실이라는 손실 함수를 사용합니다.

주요점

#image

이미지에 있는 특정 특징의 좌표입니다. 예를 들어 꽃 종을 구분하는 이미지 인식 모델의 경우 주요 포인트는 각 꽃잎, 줄기, 꽃의 중심 등이 될 수 있습니다.

k-폴드 교차 검증

새로운 데이터로 일반화하는 모델의 능력을 예측하는 알고리즘입니다. k-폴드의 k는 데이터 세트의 예를 나눌 등호 그룹의 수를 나타냅니다. 즉, 모델을 k회 학습시키고 테스트합니다. 각 학습 및 테스트에서 다른 그룹은 테스트 세트가 되고 나머지 모든 그룹은 학습 세트가 됩니다. 학습과 테스트를 k회 진행한 후 선택한 테스트 측정항목의 평균 및 표준 편차를 계산합니다.

예를 들어 데이터 세트가 120개의 예시로 구성되어 있다고 가정해 보겠습니다. 또한 k를 4로 설정하기로 했다고 가정해 보겠습니다. 따라서 예를 셔플한 후 데이터 세트를 30개의 예시로 구성된 동일한 그룹 4개로 나누고 학습/테스트 라운드를 4회 실시합니다.

동일한 4개의 예시 그룹으로 나누어진 데이터 세트 1라운드에서는 처음 3개 그룹은 학습에, 마지막 그룹은 테스트에 사용됩니다. 2라운드에서는 처음 두 그룹과 마지막 그룹이 학습에 사용되고 세 번째 그룹은 테스트에 사용됩니다. 3라운드에서는 첫 번째 그룹과 마지막 두 그룹은 학습에, 두 번째 그룹은 테스트에 사용됩니다.
          4라운드에서는 첫 번째 그룹이 테스트에 사용되고 마지막 그룹 3개는 학습에 사용됩니다.

예를 들어 평균 제곱 오차 (MSE)는 선형 회귀 모델에서 가장 의미 있는 측정항목일 수 있습니다. 따라서 네 라운드 모두에서 MSE의 평균과 표준 편차를 구할 수 있습니다.

k-평균

#clustering

비지도 학습에서 여러 예를 그룹화하는 데 널리 사용되는 클러스터링 알고리즘입니다. k-평균 알고리즘은 기본적으로 다음을 실행합니다.

  • 최고의 중심점 (중심이라고 함)을 반복적으로 결정합니다.
  • 각 예를 가장 가까운 중심에 할당합니다. 같은 중심에 가장 가까운 예는 같은 그룹에 속합니다.

k-평균 알고리즘은 각 예에서 가장 가까운 중심까지 거리의 누적 제곱을 최소화하기 위해 중심 위치를 선택합니다.

예를 들어 다음과 같이 개의 키와 몸길이를 나타낸 플롯을 살펴보겠습니다.

수십 개의 데이터 포인트가 있는 데카르트 도표

k=3이면 k-평균 알고리즘이 3개의 중심을 결정합니다. 각 예는 가장 가까운 중심에 할당되며 세 그룹을 생성합니다.

중심 3개를 추가한 것을 제외하고 이전 그림과 동일한 데카르트 도표입니다.
          이전 데이터 포인트는 3개의 개별 그룹으로 클러스터링되며, 각 그룹은 특정 중심에 가장 가까운 데이터 포인트를 나타냅니다.

제조업체에서 애완견 스웨터의 S, M, L 사이즈의 이상적인 크기를 결정하려고 한다고 가정해 보겠습니다. 세 개의 중심은 해당 클러스터에 있는 각 개의 평균 키와 평균 몸길이를 나타냅니다. 따라서 제조업체는 이 세 개의 중심을 기준으로 스웨터 크기를 설정해야 할 것입니다. 일반적으로 한 클러스터의 중심은 해당 클러스터의 예가 아닙니다.

앞의 그림은 두 가지 특성 (키와 너비)만 있는 예의 k-평균을 보여줍니다. k-평균을 사용하면 여러 특성에 걸쳐 예를 그룹화할 수 있습니다.

k-중앙값

#clustering

k-평균과 밀접한 관련이 있는 클러스터링 알고리즘입니다. 둘의 실질적인 차이점은 다음과 같습니다.

  • k-평균 알고리즘에서는 중심이 될 수 있는 위치와 각 예의 위치 사이 거리를 제곱한 값의 합계를 최소화하는 방식으로 중심을 결정합니다.
  • k-중앙값 알고리즘에서는 중심이 될 수 있는 위치와 각 예의 위치 사이의 거리 합계를 최소화하는 방식으로 중심을 결정합니다.

거리의 정의도 다릅니다.

  • k-평균 알고리즘에서는 중심에서 예까지의 유클리드 거리를 사용합니다. 2차원에서 유클리드 거리는 피타고라스의 정리를 사용하여 빗변을 계산하는 것을 의미합니다. 예를 들어 (2,2)와 (5, -2) 사이의 k-평균 거리는 다음과 같습니다.
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k-중앙값 알고리즘에서는 중심에서 예까지의 맨해튼 거리를 사용합니다. 이 거리는 각 차원의 절댓값 델타의 합입니다. 예를 들어 (2,2)와 (5, -2) 사이의 k-중앙값 거리는 다음과 같습니다.
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

L0 정규화

#fundamentals

모델에서 0이 아닌 가중치총 개수에 페널티를 적용하는 정규화 유형입니다. 예를 들어 0이 아닌 가중치가 11개 있는 모델은 0이 아닌 가중치가 10개인 유사한 모델에 비해 페널티를 더 많이 받습니다.

L0 정규화를 L0-norm 정규화라고도 합니다.

L1 손실

#fundamentals

실제 라벨 값과 모델에서 예측한 값 간 차이의 절댓값을 계산하는 손실 함수입니다. 예를 들어 5개의 로 이루어진 배치의 L1 손실은 다음과 같습니다.

예시의 실제 값 모델의 예측 값 델타의 절댓값
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = L1 손실

L1 손실은 L2 손실보다 이상점에 덜 민감합니다.

평균 절대 오차는 예시당 평균 L1 손실입니다.

L1 정규화

#fundamentals

가중치의 절댓값 합에 비례하여 가중치에 페널티를 주는 정규화 유형입니다. L1 정규화는 관련이 없거나 거의 관련이 없는 특성의 가중치를 정확히 0으로 만드는 데 도움이 됩니다. 가중치가 0인 특성은 모델에서 사실상 삭제됩니다.

L2 정규화와 대비되는 개념입니다.

L2 손실

#fundamentals

실제 라벨 값과 모델에서 예측한 값 간 차이의 제곱을 계산하는 손실 함수입니다. 예를 들어 5가지 로 이루어진 배치의 L2 손실은 다음과 같습니다.

예시의 실제 값 모델의 예측 값 델타 제곱
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = L2 손실

제곱으로 인해 L2 손실은 이상점의 영향을 증폭시킵니다. 즉, L2 손실은 L1 손실보다 잘못된 예측에 더 강하게 반응합니다. 예를 들어 이전 배치의 L1 손실은 16이 아닌 8입니다. 단일 이상점은 16개 중 9개를 차지합니다.

회귀 모델은 일반적으로 L2 손실을 손실 함수로 사용합니다.

평균 제곱 오차는 예시당 평균 L2 손실입니다. 제곱 손실은 L2 손실의 또 다른 이름입니다.

L2 정규화

#fundamentals

가중치의 제곱 합에 비례하여 가중치에 페널티를 주는 정규화 유형입니다. L2 정규화는 이상점 가중치 (양성 값이 높거나 음수 값이 낮은 가중치)를 0에 가깝게 하지만 0이 아님에 가깝게 유도하는 데 도움이 됩니다. 0에 매우 가까운 특성은 모델에 남아 있지만 모델의 예측에 큰 영향을 미치지 않습니다.

L2 정규화는 선형 모델의 일반화를 항상 개선합니다.

L1 정규화와 대비되는 개념입니다.

라벨

#fundamentals

지도 머신러닝에서 의 '답' 또는 '결과' 부분입니다.

라벨이 지정된 각 예는 하나 이상의 특성과 라벨로 구성됩니다. 예를 들어 스팸 감지 데이터 세트에서 라벨은 '스팸' 또는 '스팸 아님'일 가능성이 높습니다. 강우 데이터 세트에서 라벨은 특정 기간 동안 내린 강우량일 수 있습니다.

라벨이 있는 예

#fundamentals

1개 이상의 특성라벨을 포함하는 예입니다. 예를 들어 다음 표에는 특성 3개와 라벨 1개가 있는 주택 평가 모델에서 라벨이 지정된 3가지 예가 나와 있습니다.

침실 수 욕실 수 주택 연식 주택 가격 (라벨)
3 2 15 345,000달러
2 1 72시간 179,000달러
4 2 34 392,000달러

지도 머신러닝에서 모델은 라벨이 있는 예를 학습하고 라벨이 없는 예를 기반으로 예측합니다.

라벨이 있는 예를 라벨이 없는 예와 대조

라벨 유출

특성라벨의 프록시인 모델 설계 결함입니다. 예를 들어 잠재고객이 특정 제품을 구매할지 여부를 예측하는 이진 분류 모델이 있다고 가정해 보겠습니다. 모델의 특성 중 하나가 SpokeToCustomerAgent이라는 불리언이라고 가정해 보겠습니다. 또한 잠재고객이 실제로 제품을 구매한 후에 고객 상담사가 할당된다고 가정해 보겠습니다. 학습 중 모델은 SpokeToCustomerAgent와 라벨 간의 연관성을 빠르게 학습합니다.

람다

#fundamentals

정규화율의 동의어입니다.

람다는 중복으로 정의된 용어입니다. 여기에서는 정규화 맥락에서 용어의 정의에 초점을 맞추겠습니다.

LaMDA (대화형 애플리케이션을 위한 언어 모델)

#language

Google이 개발한 Transformer 기반의 대규모 언어 모델은 실제 대화 응답을 생성할 수 있는 대규모 대화 데이터 세트를 기반으로 학습되었습니다.

개요는 LaMDA: Google의 획기적인 대화 기술입니다.

landmarks

#image

키포인트의 동의어입니다.

언어 모델

#language

model 또는 토큰 시퀀스가 긴 토큰 시퀀스에서 발생할 확률을 추정하는 model입니다.

대규모 언어 모델

#language

엄격한 정의가 없는 비공식 용어로, 일반적으로 많은 수의 매개변수가 있는 언어 모델을 의미합니다. 일부 대규모 언어 모델에는 1,000억 개가 넘는 매개변수가 포함되어 있습니다.

잠재 공간

#language

임베딩 공간의 동의어입니다.

레이어

#fundamentals

신경망뉴런 집합입니다. 세 가지 일반적인 레이어 유형은 다음과 같습니다.

다음 그림은 입력 레이어 1개, 히든 레이어 2개, 출력 레이어 1개가 있는 신경망을 보여줍니다.

입력 레이어 1개, 히든 레이어 2개, 출력 레이어 1개로 구성된 신경망 입력 레이어는 두 가지 특성으로 구성됩니다. 첫 번째 히든 레이어는 3개의 뉴런으로, 두 번째 히든 레이어는 2개의 뉴런으로 구성됩니다. 출력 레이어는 단일 노드로 구성됩니다.

TensorFlow에서 레이어텐서 및 구성 옵션을 입력으로 사용하고 다른 텐서를 출력으로 생성하는 Python 함수이기도 합니다.

Layers API (tf.layers)

#TensorFlow

레이어의 구성으로 심층 신경망을 구성하기 위한 TensorFlow API. 레이어 API를 사용하면 다음과 같은 다양한 유형의 레이어를 만들 수 있습니다.

Layers API는 Keras 레이어 API 규칙을 따릅니다. 즉, Layers API의 모든 함수는 다른 접두사를 제외하고, Keras 레이어 API의 함수와 이름 및 서명이 동일합니다.

#df

결정 트리의 모든 엔드포인트 조건과 달리 리프는 테스트를 실행하지 않습니다. 오히려 리프는 가능한 예측입니다. 또한 리프는 추론 경로의 터미널 노드이기도 합니다.

예를 들어 다음 결정 트리에는 세 개의 리프가 포함됩니다.

3개의 잎으로 이어지는 두 개의 조건이 있는 결정 트리

학습 해석 가능성 도구 (LIT)

시각적인 대화형 모델 이해 및 데이터 시각화 도구입니다.

오픈소스 LIT를 사용하여 모델을 해석하거나 텍스트, 이미지, 테이블 형식 데이터를 시각화할 수 있습니다.

학습률

#fundamentals

경사하강법 알고리즘에 각 반복에서 가중치와 편향을 어느 정도 강하게 조정해야 하는지 알려주는 부동 소수점 수입니다. 예를 들어 학습률이 0.3이면 학습률이 0.1로 설정될 때보다 가중치와 편향이 3배 더 강하게 조정됩니다.

학습률은 핵심 초매개변수입니다. 학습률을 너무 낮게 설정하면 학습 시간이 너무 오래 걸립니다. 학습률을 너무 높게 설정하면 경사하강법에서 수렴에 도달하는 데 문제가 발생하는 경우가 많습니다.

최소 제곱 회귀

L2 손실을 최소화하면서 학습시킨 선형 회귀 모델입니다.

선형

#fundamentals

덧셈과 곱셈을 통해서만 나타낼 수 있는 둘 이상의 변수 간의 관계입니다.

선형 관계의 플롯은 선입니다.

비선형과 대비되는 개념입니다.

선형 모델

#fundamentals

model을 수행하기 위해 model당 하나의 model를 할당하는 model (선형 모델에는 편향도 포함됩니다.) 반대로 심층 모델의 예측과 특성의 관계는 일반적으로 비선형입니다.

선형 모델은 일반적으로 심층 모델보다 학습이 더 쉽고 해석 가능성이 높습니다. 그러나 심층 모델은 특성 사이의 복잡한 관계를 학습할 수 있습니다.

선형 회귀로지스틱 회귀는 선형 모델의 두 가지 유형입니다.

선형 회귀

#fundamentals

다음 두 가지에 모두 해당하는 머신러닝 모델 유형입니다.

  • 모델은 선형 모델입니다.
  • 예측은 부동 소수점 값입니다. (이것이 선형 회귀회귀 부분입니다.)

선형 회귀와 로지스틱 회귀의 대비되는 개념입니다. 또한 회귀와 분류를 대조합니다.

라이트

이전에 언어 통역 도구로 알려진 학습 통역 도구 (LIT)의 약어입니다.

LLM

#language

large language model의 약어입니다.

로지스틱 회귀

#fundamentals

확률을 예측하는 회귀 모델의 한 유형입니다. 로지스틱 회귀 모델에는 다음과 같은 특성이 있습니다.

  • 라벨은 범주형입니다. 로지스틱 회귀라는 용어는 일반적으로 바이너리 로지스틱 회귀를 나타냅니다. 즉, 가능한 값이 2개인 라벨의 확률을 계산하는 모델을 가리킵니다. 덜 일반적인 변수인 다항 로지스틱 회귀는 가능한 값이 3개 이상인 라벨의 확률을 계산합니다.
  • 학습 도중의 손실 함수는 로그 손실입니다. 가능한 값이 3개 이상인 라벨의 경우 여러 로그 손실 단위를 병렬로 배치할 수 있습니다.
  • 이 모델은 심층신경망이 아닌 선형 아키텍처를 갖습니다. 하지만 이 정의의 나머지 부분은 범주형 라벨의 확률을 예측하는 심층 모델에도 적용됩니다.

예를 들어 입력 이메일이 스팸이거나 스팸이 아닐 가능성을 계산하는 로지스틱 회귀 모델이 있다고 가정해 보겠습니다. 추론 중에 모델이 0.72를 예측한다고 가정합니다. 따라서 모델은 다음을 예측합니다.

  • 이메일이 스팸일 확률은 72% 입니다.
  • 이메일이 스팸이 아닐 가능성은 28% 입니다.

로지스틱 회귀 모델은 다음과 같은 2단계 아키텍처를 사용합니다.

  1. 모델은 입력 특성의 선형 함수를 적용하여 원시 예측 (y')을 생성합니다.
  2. 모델은 이 원시 예측을 시그모이드 함수의 입력으로 사용하며, 시그모이드 함수에서는 원시 예측을 0과 1 사이의 값으로 변환합니다.

여느 회귀 모델과 마찬가지로 로지스틱 회귀 모델은 숫자를 예측합니다. 그러나 이 숫자는 일반적으로 다음과 같이 이진 분류 모델의 일부가 됩니다.

  • 예측된 숫자가 분류 임곗값보다 경우 이진 분류 모델은 포지티브 클래스를 예측합니다.
  • 예측된 숫자가 분류 임곗값보다 작은 경우 이진 분류 모델은 네거티브 클래스를 예측합니다.

로지트

분류 모델에서 생성하는 원시 (정규화되지 않은) 예측의 벡터로, 일반적으로는 정규화 함수로 전달됩니다. 모델에서 다중 클래스 분류 문제를 해결하는 경우 로지트는 일반적으로 softmax 함수의 입력이 됩니다. 그런 다음 소프트맥스 함수는 가능한 각 클래스에 대해 하나의 값을 갖는 (정규화된) 확률 벡터를 생성합니다.

로그 손실

#fundamentals

바이너리 로지스틱 회귀에 사용되는 손실 함수입니다.

로그 오즈

#fundamentals

이벤트가 일어날 확률의 로그입니다.

장단기 메모리 (LSTM)

#seq

필기 인식, 기계 번역, 이미지 캡션과 같은 애플리케이션에서 데이터 시퀀스를 처리하는 데 사용되는 순환 신경망의 셀 유형입니다. LSTM은 RNN의 이전 셀의 새로운 입력과 컨텍스트를 기반으로 기록을 내부 메모리 상태에 유지하여 긴 데이터 시퀀스로 인해 RNN을 학습시킬 때 발생하는 기울기 소실 문제를 해결합니다.

LoRA

#language
#생성형AI

Low-Rank Adaptability의 약어입니다.

손실

#fundamentals

지도 모델학습 중에 모델의 예측라벨 간의 차이를 측정합니다.

손실 함수가 손실을 계산합니다.

손실 애그리게이터

여러 모델의 예측을 결합하고 이러한 예측을 사용하여 단일 예측을 만들어 모델성능을 개선하는 머신러닝 알고리즘의 한 유형입니다. 따라서 손실 애그리게이터는 예측의 편차를 줄이고 예측의 정확도를 개선할 수 있습니다.

손실 곡선

#fundamentals

학습 반복 횟수에 대한 함수로서의 손실 도표. 다음 도표는 일반적인 손실 곡선을 보여줍니다.

손실과 학습 반복의 데카르트 그래프. 초기 반복에서 급격한 손실 감소를 보여주며, 이후 점진적 하락 후 최종 반복에서 평탄한 기울기를 보여줍니다.

손실 곡선을 사용하면 모델이 수렴하거나 과적합하는 시점을 판단할 수 있습니다.

손실 곡선은 다음과 같은 유형의 손실을 모두 표시할 수 있습니다.

일반화 곡선도 참고하세요.

손실 함수

#fundamentals

학습 또는 테스트 중에 예시 배치의 손실을 계산하는 수학적 함수입니다. 손실 함수는 잘못된 예측을 하는 모델보다 좋은 예측을 하는 모델에 더 낮은 손실을 반환합니다.

학습의 목표는 일반적으로 손실 함수가 반환하는 손실을 최소화하는 것입니다.

다양한 종류의 손실 함수가 존재합니다. 빌드할 모델의 종류에 적합한 손실 함수를 선택하세요. 예를 들면 다음과 같습니다.

손실 곡면

몸무게와 감량 그래프 경사하강법은 손실 곡면이 국소 최솟값인 가중치를 찾는 것을 목표로 합니다.

낮은 순위 적응성 (LoRA)

#language
#생성형AI

대규모 언어 모델 매개변수의 하위 집합만 미세 조정하는 매개변수 효율적인 조정을 수행하기 위한 알고리즘입니다. LoRA는 다음과 같은 이점을 제공합니다.

  • 모델의 모든 매개변수를 미세 조정해야 하는 기법보다 빠르게 미세 조정합니다.
  • 미세 조정된 모델에서 추론의 계산 비용을 줄입니다.

LoRA로 조정된 모델은 예측 품질을 유지하거나 개선합니다.

LoRA를 사용하면 모델의 여러 특수 버전을 사용할 수 있습니다.

LSTM

#seq

Long Short-Term Memory의 약어입니다.

머신러닝

#fundamentals

입력 데이터에서 모델학습하는 프로그램 또는 시스템입니다. 학습된 모델은 모델을 학습시키는 데 사용된 것과 동일한 분포에서 가져온 (이전에 본 적 없는) 새로운 데이터에서 유용한 예측을 수행할 수 있습니다.

머신러닝은 이러한 프로그램 또는 시스템과 관련된 학문 분야를 뜻하기도 합니다

다수 범주

#fundamentals

클래스 불균형 데이터 세트보다 더 일반적으로 사용되는 라벨입니다. 예를 들어 음성 라벨이 99%, 양성 라벨이 1% 인 데이터 세트의 경우 음성 라벨이 다수 클래스입니다.

소수 집단과 대비되는 개념입니다.

마르코프 결정 프로세스 (MDP)

#rl

마르코프 속성이 보유한다고 가정하고 일련의 상태를 탐색하기 위해 결정(또는 작업)을 실행하는 의사 결정 모델을 나타내는 그래프입니다. 강화 학습에서 상태 간 전환은 숫자 리워드를 반환합니다.

마르코프 속성

#rl

상태 전환이 전적으로 현재 상태 및 에이전트의 작업에 내재된 정보에 따라 결정되는 특정 환경의 속성입니다.

마스킹 언어 모델

#language

후보 토큰이 시퀀스에서 공백을 채울 확률을 예측하는 언어 모델 예를 들어 마스킹된 언어 모델은 추천 단어의 확률을 계산하여 다음 문장의 밑줄을 대체할 수 있습니다.

모자 쓴 ____이(가) 돌아왔습니다.

이 문헌에서는 일반적으로 밑줄 대신 'MASK' 문자열을 사용합니다. 예를 들면 다음과 같습니다.

모자에 적힌 '마스크'가 돌아왔다.

대부분의 최신 마스크 언어 모델은 양방향입니다.

matplotlib

오픈소스 Python 2D 표시 라이브러리입니다. matplotlib은 머신러닝의 다양한 측면을 시각화하는 데 도움이 됩니다.

행렬 분해

#recsystems

수학에서 내적이 대상 행렬에 가까운 행렬을 찾기 위한 메커니즘입니다.

추천 시스템에서 대상 매트릭스는 종종 상품에 관한 사용자 평가를 보관합니다. 예를 들어 영화 추천 시스템의 대상 행렬은 다음과 같을 수 있습니다. 여기서 양의 정수는 사용자 평점이고 0은 사용자가 영화를 평가하지 않았음을 의미합니다.

  카사블랑카 필라델피아 스토리 블랙 팬서 원더 우먼 펄프 픽션
사용자 1 5.0 3.0 0.0 2.0 0.0
사용자 2 4.0 0.0 0.0 1.0 5.0
사용자 3 3.0 1.0 4.0 5.0 0.0

영화 추천 시스템은 평가되지 않은 영화에 대한 사용자 평점을 예측하는 것을 목표로 합니다. 예를 들어 사용자 1은 블랙 팬서를 좋아할까요?

추천 시스템의 한 가지 접근 방식은 행렬 분해를 사용하여 다음 두 행렬을 생성하는 것입니다.

  • 사용자 행렬은 사용자 수 x 임베딩 차원 수로 구성됩니다.
  • 항목 행렬: 임베딩 차원 수 X 항목 수로 구성됩니다.

예를 들어 사용자 3명과 항목 5개에 대해 행렬 분해를 사용하면 다음과 같은 사용자 행렬과 항목 행렬이 생성될 수 있습니다.

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

사용자 행렬과 항목 행렬의 내적은 원래 사용자 평가뿐 아니라 각 사용자가 보지 않은 영화에 대한 예측도 포함된 추천 행렬을 생성합니다. 예를 들어 카사블랑카에 대한 사용자 1의 평점(5.0)을 고려합니다. 추천 행렬에서 해당 셀에 해당하는 내적은 약 5.0이어야 하며 다음과 같습니다.

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

무엇보다도 사용자 1은 블랙 팬서를 좋아할까요? 첫 번째 행과 세 번째 열에 해당하는 내적을 구하면 예측 평점 4.3이 생성됩니다.

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

행렬 분해는 일반적으로 대상 행렬보다 훨씬 간결한 사용자 행렬과 항목 행렬을 생성합니다.

평균 절대 오차 (MAE)

L1 손실이 사용된 경우 예시당 평균 손실입니다. 평균 절대 오차는 다음과 같이 계산합니다.

  1. 배치의 L1 손실을 계산합니다.
  2. L1 손실을 배치의 예 수로 나눕니다.

예를 들어 다음 다섯 가지 예의 배치에서 L1 손실을 계산해 보세요.

예시의 실제 값 모델의 예측 값 손실 (실제와 예측 간의 차이)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = L1 손실

따라서 L1 손실은 8이고 예의 수는 5입니다. 따라서 평균 절대 오차는 다음과 같습니다.

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

평균 절대 오차를 평균 제곱 오차평균 제곱근 오차와 대비합니다.

평균 제곱 오차 (MSE)

L2 손실이 사용된 경우 예시당 평균 손실입니다. 평균 제곱 오차를 다음과 같이 계산합니다.

  1. 배치의 L2 손실을 계산합니다.
  2. L2 손실을 배치의 예 수로 나눕니다.

예를 들어 다음 다섯 가지 예의 배치에 대한 손실을 고려합니다.

실제 금액 모델의 예측 손실 손실 제곱
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = L2 손실

따라서 평균 제곱 오차는 다음과 같습니다.

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

평균 제곱 오차는 학습 옵티마이저, 특히 선형 회귀에서 널리 사용되는 기능입니다.

평균 제곱 오차와 평균 절대 오차평균 제곱근 오차를 비교할 수 있습니다.

TensorFlow Playground는 평균 제곱 오차를 사용하여 손실 값을 계산합니다.

메시

#TensorFlow
#GoogleCloud

ML 병렬 프로그래밍에서 데이터와 모델을 TPU 칩에 할당하고 이러한 값의 샤딩 또는 복제 방법을 정의하는 것과 관련된 용어입니다.

메시는 오버로드된 용어로, 다음 중 하나를 의미할 수 있습니다.

  • TPU 칩의 실제 레이아웃
  • 데이터와 모델을 TPU 칩에 매핑하기 위한 추상 논리 구조입니다.

두 경우 모두 메시는 도형으로 지정됩니다.

메타 학습

#language

학습 알고리즘을 발견하거나 개선하는 머신러닝의 하위 집합입니다. 메타 학습 시스템은 소량의 데이터나 이전 작업에서 얻은 경험에서 새 작업을 빠르게 학습하도록 모델을 학습시키는 것을 목표로 할 수 있습니다. 메타 학습 알고리즘은 일반적으로 다음을 달성하려고 합니다.

  • 직접 추출한 특성 (초기화 프로그램 또는 옵티마이저 등)을 개선하거나 학습합니다.
  • 데이터 효율성과 컴퓨팅 효율성 향상
  • 일반화를 개선합니다.

메타 학습은 퓨샷 학습과 관련이 있습니다.

측정항목

#TensorFlow

나에게 중요한 통계입니다.

목표는 머신러닝 시스템에서 최적화를 시도하는 측정항목입니다.

Metrics API (tf.metrics)

모델을 평가하는 TensorFlow API 예를 들어 tf.metrics.accuracy는 모델의 예측이 라벨과 일치하는 빈도를 결정합니다.

미니 배치

#fundamentals

반복으로 처리되는 배치의 무작위로 선택된 소규모 하위 집합입니다. 미니 배치의 배치 크기는 일반적으로 예 10~1,000개입니다.

예를 들어 전체 학습 세트 (전체 배치)가 1,000개의 예시로 구성되어 있다고 가정해 보겠습니다. 또한 각 미니 배치의 배치 크기를 20으로 설정한다고 가정해 보겠습니다. 따라서 반복할 때마다 1,000개의 예시 중 무작위 20개에서 손실을 파악한 다음 그에 따라 가중치편향을 조정합니다.

전체 배치의 모든 예에 대한 손실보다 미니 배치의 손실을 계산하는 것이 훨씬 더 효율적입니다.

미니 배치 확률적 경사하강법

미니 배치를 사용하는 경사하강법 알고리즘. 즉, 미니 배치 확률적 경사하강법은 학습 데이터의 작은 하위 집합을 바탕으로 경사를 추정합니다. 일반 확률적 경사하강법은 크기가 1인 미니 배치를 사용합니다.

미니맥스 손실

생성된 데이터와 실제 데이터 분포 간의 교차 엔트로피를 기반으로 하는 생성적 적대 신경망의 손실 함수입니다.

최소 최대 손실은 첫 번째 논문에 생성적 적대 신경망을 설명하는 데 사용되었습니다.

소수 범주

#fundamentals

클래스 불균형 데이터 세트의 덜 일반적인 라벨입니다. 예를 들어 음성 라벨이 99% 이고 양성 라벨이 1% 인 데이터 세트의 경우 양성 라벨은 소수 범주입니다.

주 구성원 등급과 대비되는 개념입니다.

ML

머신러닝의 약어입니다.

MNIST

#image

LeCun, Cortes, Burges에서 컴파일한 공개 도메인 데이터 세트에 60,000개의 이미지가 포함되어 있습니다. 각 이미지는 인간이 0~9 사이의 특정 숫자를 수동으로 작성한 방법을 보여줍니다. 각 이미지는 28x28 정수 배열로 저장되며 각 정수는 0에서 255 사이의 그레이 스케일 값입니다.

MNIST는 머신러닝을 위한 표준 데이터 세트로, 새로운 머신러닝 접근 방식을 테스트하는 데 자주 사용됩니다. 자세한 내용은 필기 입력된 숫자의 MNIST 데이터베이스를 참고하세요.

modality

#language

대략적인 데이터 카테고리입니다. 예를 들어 숫자, 텍스트, 이미지, 동영상, 오디오는 5가지 서로 다른 모달리티입니다

model

#fundamentals

일반적으로 입력 데이터를 처리하고 출력을 반환하는 모든 수학적 구조입니다. 다르게 표현하면 모델은 시스템에서 예측을 수행하는 데 필요한 매개변수와 구조의 집합입니다. 지도 머신러닝에서 모델은 를 입력으로 취하고 예측을 출력으로 추론합니다. 지도 머신러닝 내에서는 모델이 약간 다릅니다 예를 들면 다음과 같습니다.

  • 선형 회귀 모델은 일련의 가중치편향으로 구성됩니다.
  • 신경망 모델은 다음으로 구성됩니다.
    • 히든 레이어의 집합으로, 각 히든 레이어에는 하나 이상의 뉴런이 포함됩니다.
    • 각 뉴런과 관련된 가중치 및 편향입니다.
  • 결정 트리 모델은 다음으로 구성됩니다.
    • 나무의 모양, 즉 조건과 잎이 연결되는 패턴입니다.
    • 상황과 잎사귀.

모델을 저장, 복원하거나 사본을 만들 수 있습니다.

비지도 머신러닝은 또한 일반적으로 입력 예를 가장 적절한 클러스터에 매핑할 수 있는 함수인 모델을 생성합니다.

모델 용량

모델이 학습할 수 있는 문제의 복잡성입니다. 모델이 학습할 수 있는 문제가 복잡할수록 모델의 용량이 높아집니다. 모델의 용량은 일반적으로 모델 매개변수의 수에 따라 증가합니다. 분류기 용량의 공식 정의는 VC 차원을 참고하세요.

모델 계단식

#생성형AI

특정 추론 쿼리에 이상적인 model을 선택하는 시스템입니다.

매우 큰 (많은 매개변수)에서 훨씬 더 작은 (매개변수가 적은)에 이르는 모델 그룹을 생각해 보세요. 규모가 매우 큰 모델은 소규모 모델보다 추론 시간에 더 많은 컴퓨팅 리소스를 소비합니다. 그러나 매우 큰 모델은 일반적으로 작은 모델보다 더 복잡한 요청을 추론할 수 있습니다. 모델 단계식에서는 추론 쿼리의 복잡성을 결정한 후 추론을 수행할 적절한 모델을 선택합니다. 모델 단계화의 주요 동기는 일반적으로 더 작은 모델을 선택하고 더 복잡한 쿼리에는 더 큰 모델만 선택하여 추론 비용을 줄이는 것입니다.

작은 모델이 휴대전화에서 실행되고 이 모델의 더 큰 버전은 원격 서버에서 실행된다고 가정해 보겠습니다. 우수한 모델 계단식은 더 작은 모델이 간단한 요청을 처리할 수 있도록 하고 원격 모델만 호출하여 복잡한 요청을 처리할 수 있도록 하여 비용과 지연 시간을 줄여줍니다.

모델 라우터도 참고하세요.

모델 동시 로드

#language

model의 여러 부분을 서로 다른 model에 배치하는 학습 또는 추론을 확장하는 방법입니다. 모델 동시 로드는 너무 커서 단일 기기에 맞지 않는 모델을 가능하게 합니다.

모델 병렬 처리를 구현하기 위해 시스템은 일반적으로 다음을 수행합니다.

  1. 모델을 더 작은 부분으로 분할 (나누기)합니다.
  2. 이러한 작은 부분의 학습을 여러 프로세서에 분산합니다. 각 프로세서는 모델의 자체 부분을 학습시킵니다.
  3. 결과를 결합하여 단일 모델을 만듭니다.

모델 동시 로드는 학습 속도를 저하시킵니다.

데이터 동시 로드도 참조하세요.

모델 라우터

#생성형AI

model에서 model에 이상적인 model을 결정하는 알고리즘입니다. 모델 라우터는 그 자체가 일반적으로 주어진 입력에 대해 최상의 모델을 선택하는 방법을 점진적으로 학습하는 머신러닝 모델입니다. 하지만 모델 라우터는 때로는 머신러닝이 아닌 단순한 알고리즘일 수 있습니다

모델 학습

최적의 model을 결정하는 과정입니다.

모멘텀

학습 단계가 현재 단계의 도함수뿐 아니라 직전에 있는 단계의 미분에도 의존하는 정교한 경사하강법 알고리즘입니다. 모멘텀은 물리학의 모멘텀과 유사하게 시간 경과에 따른 경사의 지수 이동 평균을 계산하는 것입니다. 모멘텀은 학습이 국소 최저점에서 막히는 것을 방지하는 데 도움이 되기도 합니다

다중 클래스 분류

#fundamentals

지도 학습에서 데이터 세트에 3개 이상의 클래스가 포함된 분류 문제입니다. 예를 들어 Iris 데이터 세트의 라벨은 다음 세 가지 클래스 중 하나여야 합니다.

  • 세토사 붓꽃
  • 아이리스 버지니카
  • 아이리스 버시컬러

새로운 예에서 붓꽃 유형을 예측하는 Iris 데이터 세트로 학습된 모델이 다중 클래스 분류를 수행하고 있습니다.

반대로 정확히 두 클래스를 구분하는 분류 문제는 이진 분류 모델입니다. 예를 들어 스팸 또는 스팸 아님을 예측하는 이메일 모델은 이진 분류 모델입니다.

클러스터링 문제에서 다중 클래스 분류는 3개 이상의 클러스터를 의미합니다.

다중 클래스 로지스틱 회귀

다중 클래스 분류 문제에 로지스틱 회귀 사용

멀티 헤드 셀프 어텐션

#language

입력 시퀀스의 각 위치에 셀프 어텐션 메커니즘을 여러 번 적용하는 셀프 어텐션 확장입니다.

Transformer는 멀티 헤드 셀프 어텐션을 도입했습니다.

멀티모달 모델

#language

입력 또는 출력에 둘 이상의 모달리티가 포함된 모델입니다. 예를 들어 이미지와 텍스트 캡션 (두 모달리티)을 모두 특성으로 사용하고 텍스트 캡션이 이미지에 얼마나 적합한지 나타내는 점수를 출력하는 모델을 생각해 보세요. 따라서 이 모델의 입력은 멀티모달이고 출력은 유니모달입니다.

다항 분류

다중 클래스 분류의 동의어입니다.

다항 회귀

멀티클래스 로지스틱 회귀의 동의어입니다.

멀티태스킹

단일 model이 여러 model을 수행하도록 학습시키는 머신러닝 기법입니다.

멀티태스킹 모델은 각 태스크에 적합한 데이터를 학습하여 만들어집니다. 이렇게 하면 모델이 태스크 간에 정보를 공유하는 방법을 학습할 수 있으므로 모델이 보다 효과적으로 학습하는 데 도움이 됩니다.

여러 태스크에 대해 학습된 모델은 일반화 능력이 향상되는 경우가 많으며 다양한 유형의 데이터를 처리하는 데 더 강력할 수 있습니다.

구매 불가

NaN 트랩

모델의 숫자 중 하나가 학습 중에 NaN이 되어 모델의 다른 많은 숫자 또는 모든 숫자가 결국 NaN이 되는 경우입니다.

NaN은 Not a Number의 약어입니다.

자연어 이해

#language

사용자가 입력하거나 말한 내용에 근거하여 사용자의 의도를 판단합니다. 예를 들어 검색엔진은 자연어 이해를 사용하여 사용자가 입력하거나 말한 내용에 따라 사용자가 검색할 내용을 판단합니다.

네거티브 클래스

#fundamentals

이진 분류에서는 한 클래스를 포지티브로, 다른 클래스를 음수로 분류합니다. 포지티브 클래스는 모델이 테스트하는 대상 또는 이벤트이고 네거티브 클래스는 다른 가능성입니다. 예를 들면 다음과 같습니다.

  • 의료 검사의 네거티브 클래스는 '종양이 아님'일 수 있습니다.
  • 이메일 분류기의 네거티브 클래스는 '스팸 아님'일 수 있습니다.

포지티브 클래스와 대비되는 개념입니다.

네거티브 샘플링

후보 샘플링의 동의어입니다.

Neural Architecture Search (NAS)

신경망의 아키텍처를 자동으로 설계하는 기법입니다. NAS 알고리즘을 사용하면 신경망을 학습시키는 데 필요한 시간과 리소스를 줄일 수 있습니다

NAS는 일반적으로 다음을 사용합니다.

  • 검색 공간: 가능한 아키텍처 집합
  • 특정 아키텍처가 주어진 작업을 얼마나 잘 실행하는지 측정하는 피트니스 함수입니다.

NAS 알고리즘은 가능한 소규모 아키텍처 집합으로 시작하는 경우가 많으며, 알고리즘이 효과적인 아키텍처에 대해 더 많이 학습함에 따라 검색 공간을 점차 확장합니다. 피트니스 함수는 일반적으로 학습 세트에 대한 아키텍처의 성능을 기반으로 하며, 알고리즘은 일반적으로 강화 학습 기법을 사용하여 학습됩니다.

NAS 알고리즘은 이미지 분류, 텍스트 분류, 기계 번역을 비롯한 다양한 작업에 적합한 고성능 아키텍처를 찾는 데 효과적인 것으로 입증되었습니다.

출력은

#fundamentals

하나 이상의 model가 포함된 model 심층신경망은 두 개 이상의 히든 레이어를 포함하는 신경망의 한 유형입니다. 예를 들어 다음 다이어그램은 두 개의 히든 레이어를 포함하는 심층신경망을 보여줍니다.

입력 레이어, 히든 레이어 2개, 출력 레이어 1개가 있는 신경망

신경망의 각 뉴런은 다음 레이어의 모든 노드에 연결됩니다. 예를 들어 앞의 다이어그램에서 첫 번째 히든 레이어의 세 개의 뉴런은 각각 두 번째 히든 레이어의 두 뉴런에 개별적으로 연결됩니다.

컴퓨터에 구현된 신경망은 뇌 및 기타 신경계에서 발견되는 신경망과 구별하기 위해 인공 신경망이라고도 합니다.

일부 신경망은 여러 특성과 라벨 간의 매우 복잡한 비선형 관계를 모방할 수 있습니다.

컨볼루셔널 신경망순환 신경망도 참고하세요.

뉴런

#fundamentals

머신러닝에서 신경망히든 레이어 내에 있는 고유한 단위입니다. 각 뉴런은 다음과 같은 2단계 작업을 수행합니다

  1. 입력 값의 가중 합계를 해당 가중치를 곱한 값을 계산합니다.
  2. 가중치가 적용된 합계를 활성화 함수에 대한 입력으로 전달합니다.

첫 번째 히든 레이어의 뉴런은 입력 레이어의 특성값에서 입력을 받습니다. 첫 번째 히든 레이어의 뉴런은 이전 히든 레이어의 뉴런으로부터 입력을 받습니다. 예를 들어 두 번째 히든 레이어의 뉴런은 첫 번째 히든 레이어의 뉴런으로부터 입력을 받습니다.

다음 그림은 두 개의 뉴런과 그 입력을 강조표시합니다.

입력 레이어, 히든 레이어 2개, 출력 레이어 1개가 있는 신경망 두 개의 뉴런이 강조표시되어 있습니다. 하나는 첫 번째 히든 레이어에 있고 다른 하나는 두 번째 히든 레이어에 있습니다. 첫 번째 히든 레이어에 강조 표시된 뉴런은 입력 레이어의 두 특성으로부터 입력을 받습니다. 두 번째 히든 레이어에서 강조 표시된 뉴런은 첫 번째 히든 레이어에 있는 3개의 뉴런 각각으로부터 입력을 받습니다.

신경망의 뉴런은 뇌와 신경계의 다른 부분에 있는 뉴런의 행동을 흉내 냅니다.

N-그램

#seq
#language

N 단어의 순서가 지정된 시퀀스. 예를 들어 truly madly는 2-그램입니다. 순서는 의미가 있으므로 madly TrueViewtruly madly와는 다른 2-그램입니다.

구매 불가 이 종류의 N-그램에 대한 이름
2 바이그램 또는 2-그램 이동, 이동, 점심 식사, 저녁 식사
3 트라이그램 또는 3-그램 시각장애인 쥐 세 마리를 너무 많이 먹었고
4 4-그램 공원 산책하기, 바람에 먼지 묻히기, 소년이 렌틸콩을 먹었어

많은 자연어 이해 모델이 N-그램을 사용하여 사용자가 다음에 입력하거나 말할 단어를 예측합니다. 예를 들어 사용자가 three 블라인드를 입력했다고 가정하겠습니다. 트라이그램을 기반으로 하는 NLU 모델은 사용자가 다음에 mice를 입력할 것으로 예측할 수 있습니다.

N-그램을 순서가 지정되지 않은 단어 집합인 단어 집합과 비교해 보세요.

NLU

#language

Natural Language Understanding(자연어 이해)의 약어입니다.

노드 (결정 트리)

#df

결정 트리에서 모든 조건 또는 리프

2개의 조건과 3개의 잎이 있는 결정 트리

노드 (신경망)

#fundamentals

히든 레이어뉴런입니다.

노드 (TensorFlow 그래프)

#TensorFlow

TensorFlow 그래프의 연산

노이즈

일반적으로 데이터 세트의 신호를 모호하게 만드는 모든 것을 말합니다. 다양한 방식으로 데이터에 노이즈가 적용될 수 있습니다. 예를 들면 다음과 같습니다.

  • 검토자가 라벨을 잘못 지정합니다.
  • 인간과 기기가 특성 값을 잘못 기록하거나 생략합니다.

논바이너리 조건

#df

가능한 결과가 3개 이상 포함된 조건입니다. 예를 들어 다음 비 바이너리 조건에는 가능한 세 가지 결과가 포함됩니다.

가능한 세 가지 결과로 이어지는 조건 (number_of_legs = ?) 하나의 결과 (number_of_legs = 8)는 스파이더라는 이름의 리프로 연결됩니다. 두 번째 결과 (number_of_legs = 4)는 강아지라는 잎으로 이어집니다. 세 번째 결과 (number_of_legs = 2)는 펭귄이라는 이름의 잎으로 이어집니다.

비선형

#fundamentals

덧셈과 곱셈을 통해서만 표현할 수 없는 둘 이상의 변수 간의 관계입니다. 선형 관계는 선으로 표현할 수 있지만, 비선형 관계는 선으로 표현할 수 없습니다. 예를 들어 각각 단일 특성을 단일 라벨에 연결하는 두 개의 모델을 생각해 보세요 왼쪽 모델은 선형이고 오른쪽 모델은 비선형입니다.

두 개의 도표 한 도는 선이므로 이는 선형 관계입니다.
          다른 플롯은 곡선이므로 이는 비선형 관계입니다.

무응답 편향

#fairness

표본 선택 편향을 참고하세요.

비정상성

#fundamentals

하나 이상의 측정기준(일반적으로 시간)에 걸쳐 값이 변경되는 특성입니다. 예를 들어 다음과 같은 비정상성을 예로 들어 보겠습니다.

  • 특정 매장에서 판매하는 수영복의 수는 계절에 따라 다릅니다.
  • 특정 지역에서 수확한 특정 과일의 수량은 일 년 중 대부분 0이지만 짧은 기간 동안은 많습니다.
  • 기후 변화로 인해 연간 평균 기온이 변하고 있습니다.

정상성과 대비되는 개념입니다.

정규화

#fundamentals

변수의 실제 값 범위를 다음과 같은 표준 값 범위로 변환하는 프로세스입니다.

  • -1 ~ +1
  • 0~1
  • 정규 분포

예를 들어 특정 특성의 실제 값 범위가 800~2,400이라고 가정해 보겠습니다. 특성 추출 과정에서 실제 값을 표준 범위(예: -1~+1)로 정규화할 수 있습니다.

정규화는 특성 추출에서 일반적인 작업입니다. 특성 벡터의 모든 숫자 특성이 거의 동일한 범위를 가질 때 모델은 일반적으로 더 빠르게 학습하고 더 나은 예측을 생성합니다.

신기성 감지

새로운 (새로운) 예가 학습 세트와 동일한 분포에서 비롯되는지 확인하는 프로세스입니다. 즉, 학습 세트에 대한 학습이 끝나면 신규성 감지는 새로운 예 (추론 또는 추가 학습 중)가 이상점인지 여부를 판단합니다.

이상점 감지와 대비되는 개념입니다.

수치 데이터

#fundamentals

정수 또는 실수 값으로 표현되는 특성입니다. 예를 들어 주택 평가 모델은 주택의 크기 (제곱피트 또는 제곱미터)를 수치 데이터로 표현할 수 있습니다. 특성을 숫자 데이터로 표현한다는 것은 특성 값과 라벨과의 수학적 관계가 있음을 나타냅니다. 즉, 주택의 제곱미터 수는 주택의 가격과 수학적 관계가 있을 수 있습니다.

모든 정수 데이터를 숫자 데이터로 표현해서는 안 됩니다. 예를 들어 세계 일부 지역의 우편번호는 정수이지만 정수 우편번호를 모델에서 숫자 데이터로 표현해서는 안 됩니다. 이는 우편번호가 20000라고 해서 우편번호가 10000인 경우의 두 배 (또는 절반)의 권한이 아니기 때문입니다. 또한 우편번호마다 부동산 가치와 상관관계가 있긴 하지만 우편번호가 20000인 부동산 가치가 우편번호 10000의 부동산 가치보다 두 배 더 높다고 가정할 수는 없습니다. 따라서 우편번호는 범주형 데이터로 표현되어야 합니다.

숫자 특성을 연속 특성이라고도 합니다.

NumPy

Python에서 효율적인 배열 작업을 제공하는 오픈소스 수학 라이브러리입니다. Pandas는 NumPy를 기반으로 합니다.

O

목표

알고리즘에서 최적화하려는 측정항목입니다.

목적 함수

모델이 최적화하고자 하는 수학 공식 또는 측정항목입니다. 예를 들어 선형 회귀의 목적 함수는 일반적으로 평균 제곱 손실입니다. 따라서 선형 회귀 모델을 학습하는 경우 평균 제곱 손실을 최소화하는 것을 목표로 합니다.

목표 함수를 최대화하는 것이 목표인 경우도 있습니다. 예를 들어 목표 함수가 정확성인 경우 목표는 정확성을 극대화하는 것입니다.

손실을 참조하세요.

사축 상태

#df

결정 트리에서 2개 이상의 특성과 관련된 조건. 예를 들어 높이와 너비가 모두 특성인 경우 다음은 사선 조건입니다.

  height > width

축 정렬 조건과 대비되는 개념입니다.

오프라인

#fundamentals

정적의 동의어입니다.

오프라인 추론

#fundamentals

모델이 일괄 예측을 생성한 다음 이러한 예측을 캐시 (저장)하는 프로세스입니다. 그러면 앱은 모델을 다시 실행하지 않고 캐시에서 추론된 예측에 액세스할 수 있습니다.

예를 들어 4시간마다 한 번씩 지역 일기예보(예측)를 생성하는 모델이 있다고 가정해 보겠습니다. 각 모델이 실행된 후 시스템은 모든 현지 일기예보를 캐시합니다. 날씨 앱은 캐시에서 예보를 검색합니다.

오프라인 추론은 정적 추론이라고도 합니다.

온라인 추론과 대비되는 개념입니다.

원-핫 인코딩

#fundamentals

범주형 데이터를 벡터로 표현:

  • 요소 중 하나가 1로 설정됩니다.
  • 다른 요소는 모두 0으로 설정됩니다.

원-핫 인코딩은 일반적으로 가능한 값의 유한 집합을 갖는 문자열이나 식별자를 나타내는 데 사용됩니다. 예를 들어 Scandinavia이라는 특정 범주형 특성에 가능한 5개의 값이 있다고 가정해 보겠습니다.

  • "덴마크"
  • '스웨덴'
  • "노르웨이"
  • "핀란드"
  • "아이슬란드"

원-핫 인코딩은 5개의 각 값을 다음과 같이 나타낼 수 있습니다.

country 벡터
"덴마크" 1 0 0 0 0
'스웨덴' 0 1 0 0 0
"노르웨이" 0 0 1 0 0
"핀란드" 0 0 0 1 0
"아이슬란드" 0 0 0 0 1

원-핫 인코딩 덕분에 모델은 5개국 각각을 기반으로 서로 다른 연결을 학습할 수 있습니다

특성을 숫자 데이터로 표현하는 것은 원-핫 인코딩의 대안입니다. 안타깝게도 스칸디나비아 국가를 숫자로 대표하는 것은 좋은 선택이 아닙니다. 다음과 같은 숫자 표현을 예로 들어 보겠습니다.

  • '덴마크'는 0입니다.
  • '스웨덴'은 1입니다.
  • '노르웨이'는 2입니다.
  • '핀란드'는 3입니다.
  • '아이슬란드'는 4입니다.

숫자 인코딩을 사용하면 모델이 원시 숫자를 수학적으로 해석하고 이러한 숫자로 학습을 시도합니다. 하지만 아이슬란드의 인구가 노르웨이보다 2배 (또는 절반) 정도 높지 않으므로 이 모델에서는 이상한 결론에 이르게 됩니다.

원샷 학습

객체 분류에 자주 사용되는 머신러닝 접근방식으로, 하나의 학습 예에서 효과적인 분류기를 학습하도록 설계되었습니다.

퓨샷 학습제로샷 학습도 참조하세요.

원샷 프롬프팅

#language
#생성형AI

대규모 언어 모델의 응답 방식을 보여주는 하나의 예시가 포함된 프롬프트 예를 들어 다음 프롬프트에는 대규모 언어 모델의 쿼리 응답 방식을 보여주는 예시가 포함되어 있습니다.

프롬프트 하나에 포함되는 요소 Notes
지정된 국가의 공식 통화는 무엇인가요? LLM이 답변하기를 원하는 질문입니다.
프랑스: EUR 한 가지 예.
인도: 실제 쿼리입니다.

원샷 프롬프팅을 다음 용어와 비교 및 대조해 보세요.

일대다

#fundamentals

N개의 클래스가 있는 분류 문제에서, 가능한 각 결과에 대해 하나의 이진 분류기인 N개의 개별 이진 분류로 구성된 솔루션입니다. 예를 들어 예를 동물, 식물, 광물로 분류하는 모델의 경우 일대다 솔루션은 다음과 같은 세 가지 개별 이진 분류기를 제공합니다.

  • 동물 대 동물 아님
  • 채소 vs. 식물 아님
  • 광물 대 광물 아님

online

#fundamentals

동적의 동의어입니다.

온라인 추론

#fundamentals

요청 시 예측을 생성합니다. 예를 들어 앱이 입력을 모델에 전달하고 예측 요청을 실행한다고 가정해 보겠습니다. 온라인 추론을 사용하는 시스템은 모델을 실행하고 예측을 앱에 반환함으로써 요청에 응답합니다.

오프라인 추론과 대비되는 개념입니다.

작업 (op)

#TensorFlow

TensorFlow에서는 텐서를 만들거나 조작하거나 삭제하는 모든 절차를 의미합니다. 예를 들어 행렬 곱셈은 두 개의 텐서를 입력으로 사용하고 하나의 텐서를 출력으로 생성하는 작업입니다.

옵택스

JAX용 경사 처리 및 최적화 라이브러리입니다. Optax는 심층신경망과 같은 매개변수 모델을 최적화하기 위해 맞춤 방식으로 재조합할 수 있는 빌딩 블록을 제공하여 연구를 용이하게 합니다. 기타 목표는 다음과 같습니다.

  • 읽기 쉽고 테스트를 거친 효율적인 핵심 구성요소 구현을 제공합니다.
  • 하위 수준의 요소를 맞춤 옵티마이저 (또는 기타 그라데이션 처리 구성요소)에 결합할 수 있어 생산성이 향상됩니다.
  • 누구나 쉽게 참여할 수 있도록 하여 새로운 아이디어 채택 가속화

옵티마이저

경사하강법 알고리즘의 구체적인 구현입니다. 많이 사용되는 옵티마이저로는 다음이 포함됩니다.

  • AdaGrad: 적응형 경사하강법을 의미합니다.
  • Adam은 ADAptive with Momentum을 의미합니다.

외부 집단 동질화 편향

#fairness

태도, 가치, 성격 특성 및 기타 특성을 비교할 때 외부 집단 구성원을 내집단 구성원보다 유사한 것으로 인식하는 경향입니다. 내집단은 정기적으로 상호작용하는 사람을 말하고, 외부 집단은 정기적으로 상호작용하지 않는 사람을 말합니다. 사람들에게 외부 집단에 대한 속성을 제공하도록 요청하여 데이터 세트를 만드는 경우 이러한 속성은 참여자가 내집단의 사람들을 위해 나열하는 속성보다 미묘하고 더 고정관념일 수 있습니다.

예를 들어 난쟁이는 건축 스타일, 창, 문, 크기의 작은 차이를 언급하면서 다른 난쟁이의 주택을 매우 자세하게 설명할 수 있습니다. 그러나 같은 난쟁이가 모두 브로딩나기인들이 한 집에 살고 있다고 주장할 수도 있습니다.

외부 집단 동질화 편향은 그룹 귀인 편향의 일종입니다.

내집단 편향을 참조하세요.

이상점 감지

학습 세트에서 이상점을 식별하는 과정입니다.

새로운 콘텐츠 감지와 대비되는 개념입니다.

연구

다른 대부분의 값과 동떨어진 값입니다. 머신러닝에서 다음과 같은 것은 이상점입니다.

  • 입력 데이터의 값이 평균에서 대략 표준편차 3만큼 떨어진 경우
  • 절대값이 높은 가중치
  • 예측된 값이 실제 값과 비교적 멀리 떨어진 경우

예를 들어 widget-price가 특정 모델의 특성이라고 가정해 보겠습니다. 평균 widget-price가 7유로이고 표준 편차가 1유로라고 가정합니다. 따라서 12유로 또는 2유로의 widget-price를 포함하는 예시는 각 가격이 평균에서 5 표준편차이므로 이상점으로 간주됩니다.

이상점은 주로 오타 또는 기타 입력 오류로 인해 발생합니다. 다른 경우에는 이상점이 실수가 아닙니다. 왜냐하면 평균에서 표준 편차 5만큼 떨어진 값이 드물지만 불가능하지는 않기 때문입니다.

이상점은 모델 학습에서 문제를 일으키는 경우가 많습니다. 클리핑은 이상점을 관리하는 한 가지 방법입니다.

상자 외 평가 (OOB 평가)

#df

결정 트리의 학습 중에 사용되지 않은 를 기준으로 각 결정 트리를 테스트하여 결정 포레스트의 품질을 평가하는 메커니즘입니다. 예를 들어 다음 다이어그램에서 시스템은 예시의 약 3분의 2에 대해 각 결정 트리를 학습시킨 다음 나머지 3분의 1의 예시와 비교하여 평가합니다.

세 개의 결정 트리로 구성된 결정 포레스트
          하나의 의사 결정 트리는 예시의 3분의 2에 대해 학습한 후 나머지 1/3을 OOB 평가에 사용합니다.
          두 번째 결정 트리는 이전 결정 트리와 다른 3분의 2의 예시에 관해 학습한 다음 OOB 평가에 이전 결정 트리와 다른 3분의 1을 사용합니다.

Out-of-bag 평가는 교차 검증 메커니즘의 계산 효율적이고 보수적인 근사값입니다. 교차 검증에서는 교차 검증 라운드마다 하나의 모델이 학습됩니다(예: 10배 교차 검증에서는 모델 10개가 학습됨). OOB 평가의 경우 단일 모델이 학습됩니다. 배깅은 학습 중에 각 트리에서 일부 데이터를 보류하므로 OOB 평가에서 해당 데이터를 사용하여 교차 검증의 근사치를 산출할 수 있습니다.

출력 레이어

#fundamentals

신경망의 '최종' 레이어입니다. 출력 레이어에는 예측이 포함됩니다.

다음 그림은 입력 레이어, 히든 레이어 2개, 출력 레이어가 있는 작은 심층신경망을 보여줍니다.

입력 레이어 1개, 히든 레이어 2개, 출력 레이어 1개로 구성된 신경망 입력 레이어는 두 가지 특성으로 구성됩니다. 첫 번째 히든 레이어는 3개의 뉴런으로, 두 번째 히든 레이어는 2개의 뉴런으로 구성됩니다. 출력 레이어는 단일 노드로 구성됩니다.

과적합

#fundamentals

model와 너무 가깝게 일치하는 model을 만들어 모델이 새 데이터를 올바르게 예측하지 못하는 경우

정규화는 과적합을 줄일 수 있습니다. 크고 다양한 학습 세트에 대한 학습을 통해 과적합을 줄일 수도 있습니다.

오버샘플링

더욱 균형 있는 학습 세트를 만들기 위해 클래스 불균형 데이터 세트에서 소수 클래스예시를 재사용합니다.

예를 들어 주 클래스와 소수 클래스의 비율이 5,000:1인 이진 분류 문제를 가정해 보겠습니다. 데이터 세트에 100만 개의 예시가 포함되어 있다면 데이터 세트에는 소수 범주의 예가 약 200개만 포함되어 있어 효과적인 학습을 수행하기에는 예가 너무 적을 수 있습니다. 이러한 결함을 극복하기 위해 200개의 예를 여러 번 오버샘플링 (재사용)하여 유용한 학습에 충분한 예를 생성할 수 있습니다.

오버샘플링 시 과적합에 주의해야 합니다.

언더샘플링과 대비되는 개념입니다.

P

압축 데이터

데이터를 더 효율적으로 저장하기 위한 접근 방식

압축된 데이터는 압축된 형식을 사용하거나 더 효율적으로 액세스할 수 있는 다른 방식으로 데이터를 저장합니다. 패키징된 데이터는 액세스하는 데 필요한 메모리와 계산을 최소화하므로 학습 속도가 빨라지고 모델 추론의 효율성이 향상됩니다.

패키징된 데이터는 데이터 증강정규화와 같은 다른 기술과 함께 사용되는 경우가 많아 모델의 성능을 더욱 향상시킵니다.

pandas

#fundamentals

numpy를 기반으로 빌드된 열 기반 데이터 분석 API입니다. TensorFlow를 비롯한 여러 머신러닝 프레임워크는 Pandas 데이터 구조를 입력으로 지원합니다. 자세한 내용은 Pandas 문서를 참조하세요.

parameter

#fundamentals

학습 중에 모델이 학습하는 가중치편향입니다. 예를 들어 선형 회귀 모델에서 매개변수는 다음 수식의 편향 (b)과 모든 가중치 (w1, w2 등)로 구성됩니다.

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

반대로 초매개변수사용자 (또는 초매개변수 전환 서비스)가 모델에 제공하는 값입니다. 예를 들어 학습률은 초매개변수 중 하나입니다.

매개변수 효율적인 조정

#language
#생성형AI

전체 미세 조정보다 더 효율적으로 대규모 선행 학습된 언어 모델 (PLM)미세 조정하는 일련의 기법입니다. 매개변수 효율적인 조정은 일반적으로 전체 미세 조정보다 훨씬 적은 매개변수를 미세 조정하지만 일반적으로 전체 미세 조정에서 빌드된 대규모 언어 모델만큼 (또는 거의 비슷한) 대규모 언어 모델을 생성합니다.

매개변수 효율적인 조정과 다음을 비교 및 대조하세요.

매개변수 효율적인 조정은 매개변수 효율적인 미세 조정이라고도 합니다.

매개변수 서버 (PS)

#TensorFlow

모델의 매개변수를 분산형 환경에서 추적하는 작업입니다.

매개변수 업데이트

일반적으로 경사하강법의 단일 반복 내에서 학습 중에 모델의 매개변수를 조정하는 작업입니다.

편미분

하나를 제외한 모든 변수를 상수로 간주하는 도함수입니다. 예를 들어 x에 대한 f(x, y)의 편미분은 (y를 상수로 유지) x만의 함수로 간주되는 f의 도함수입니다. x에 대한 f의 편미분은 방정식의 다른 변수를 모두 무시하고 x의 변화에만 집중합니다.

참여 편향

#fairness

무응답 편향의 동의어입니다. 표본 선택 편향을 참고하세요.

파티셔닝 전략

매개변수 서버 전반에서 변수를 분할하는 알고리즘입니다.

팩스

여러 TPU 가속기 칩 슬라이스 또는 포드에 걸쳐 있는 대규모 신경망 모델을 학습시키도록 설계된 프로그래밍 프레임워크입니다.

Pax는 JAX를 기반으로 하는 Flax를 기반으로 합니다.

소프트웨어 스택에서 Pax의 위치를 나타내는 다이어그램
          Pax는 JAX를 기반으로 빌드되었습니다. Pax 자체는 세 레이어로 구성됩니다. 하단 레이어에는 TensorStore와 Flax가 있습니다.
          중간 레이어에는 Optax와 Flaxformer가 포함되어 있습니다. 맨 위 레이어에는 Praxis Modeling 라이브러리가 포함되어 있습니다. Fiddle은 Pax를 기반으로 빌드되었습니다.

퍼셉트론

하나 이상의 입력 값을 취하고, 입력의 가중 합에 대해 함수를 실행하고, 단일 출력 값을 계산하는 시스템 (하드웨어 또는 소프트웨어)입니다. 머신러닝에서 함수는 일반적으로 ReLU, 시그모이드, tanh와 같이 비선형입니다. 예를 들어 다음 퍼셉트론은 시그모이드 함수를 사용하여 3개의 입력 값을 처리합니다.

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

다음 그림에서 퍼셉트론은 3개의 입력을 취합니다. 각 입력은 퍼셉트론에 입력되기 전에 가중치에 의해 수정됩니다.

3개의 입력을 취하고 각각 별도의 가중치를 곱하는 퍼셉트론입니다. 퍼셉트론은 단일 값을 출력합니다.

퍼셉트론은 신경망뉴런입니다.

성능

중복으로 정의된 용어의 의미는 다음과 같습니다.

  • 소프트웨어 엔지니어링에서 표준 의미를 나타냅니다. 즉, 이 소프트웨어가 얼마나 빠르게 또는 효율적으로 실행되는지를 의미합니다.
  • 머신러닝에서 의미 여기서 성능은 이 model이 얼마나 정확한가요?라는 질문의 답을 제시합니다. 즉, 모델의 예측이 얼마나 좋은지,

순열 변수 중요도

#df

특성 값을 순열한 모델의 예측 오류 증가를 평가하는 변수 중요도 유형입니다. 순열 변수 중요도는 모델과 무관한 측정항목입니다.

퍼플렉시티(perplexity)

model의 작업 수행 능력을 나타내는 척도입니다. 예를 들어 사용자가 휴대전화 키보드로 입력하는 단어의 처음 몇 글자를 읽고 가능한 완성 단어 목록을 제공하는 작업이 있다고 가정해 보겠습니다. 이 작업의 퍼플렉시티 P는 사용자가 실제로 입력하려고 하는 단어를 목록에 포함하기 위해 제공해야 하는 대략적인 추측의 수입니다.

퍼플렉시티는 다음과 같이 교차 엔트로피와 관련이 있습니다.

$$P= 2^{-\text{cross entropy}}$$

pipeline

머신러닝 알고리즘의 기반이 되는 인프라입니다. 파이프라인에는 데이터 수집, 학습 데이터 파일에 데이터 넣기, 하나 이상의 모델 학습, 모델을 프로덕션으로 내보내기가 포함됩니다.

파이프라인

#language

모델 동시 로드의 한 형태로서 모델 처리가 연속 단계로 나뉘고 각 단계가 다른 기기에서 실행됩니다. 한 단계에서 배치 하나를 처리하는 동안 이전 단계에서는 다음 배치가 작동할 수 있습니다.

단계적 학습도 참고하세요.

피지트

여러 가속기 칩에서 실행되도록 코드를 분할하는 JAX 함수. 사용자는 동일한 의미 체계를 가지고 있지만 여러 기기(예: GPU 또는 TPU 코어)에서 실행되는 XLA 계산으로 컴파일된 함수를 반환하는 pjit에 함수를 전달합니다.

pjit를 사용하면 사용자가 SPMD 파티션러를 사용하여 계산을 다시 작성하지 않고도 계산을 샤딩할 수 있습니다.

2023년 3월에 pjitjit와 병합되었습니다. 자세한 내용은 분산 배열 및 자동 동시 로드를 참조하세요.

제품 관리자

#language
#생성형AI

선행 학습된 언어 모델의 약어입니다.

Pmap

입력 값이 서로 다른 여러 기본 하드웨어 기기(CPU, GPU 또는 TPU)에서 입력 함수의 사본을 실행하는 JAX 함수입니다. pmap은 SPMD를 사용합니다.

policy

#rl

강화 학습에서 에이전트의 확률적 매핑은 상태에서 작업으로의 매핑입니다.

풀링

#image

이전의 컨볼루셔널 레이어에서 생성된 행렬을 작은 행렬로 줄이는 과정입니다. 풀링은 일반적으로 풀링된 영역에서 최댓값 또는 평균값을 취합니다. 예를 들어 다음과 같은 3x3 행렬이 있다고 가정해 보겠습니다.

3x3 행렬 [[5,3,1], [8,2,5], [9,4,3]]

풀링 연산에서는 컨볼루셔널 연산과 마찬가지로 행렬을 슬라이스로 나눈 다음 스트라이드로 컨볼루셔널 연산을 슬라이드합니다. 예를 들어 풀링 연산에서 컨볼루셔널 행렬을 1x1 스트라이드로 2x2 슬라이스로 나눈다고 가정하겠습니다. 다음 다이어그램에서 볼 수 있듯이 네 가지 풀링 연산이 실행됩니다. 각 풀링 작업이 해당 슬라이스의 4에 대한 최댓값을 선택한다고 가정해 보겠습니다.

입력 행렬은 3x3이며 값은 [[5,3,1], [8,2,5], [9,4,3]]입니다.
          입력 행렬의 왼쪽 상단 2x2 하위 행렬은 [[5,3], [8,2]]이므로 왼쪽 상단 풀링 연산에서는 값 8 (5, 3, 8, 2의 최댓값)을 생성합니다. 입력 행렬의 오른쪽 상단 2x2 하위 행렬은 [[3,1], [2,5]]이므로 오른쪽 상단 풀링 연산은 값 5를 생성합니다. 입력 행렬의 왼쪽 하단 2x2 하위 행렬은 [[8,2], [9,4]]이므로 왼쪽 하단 풀링 연산은 값 9를 생성합니다. 입력 행렬의 오른쪽 하단 2x2 하위 행렬은 [[2,5], [4,3]]이므로 오른쪽 하단 풀링 연산은 값 5를 생성합니다. 요약하면 풀링 연산은 2x2 행렬 [[8,5], [9,5]]을 생성합니다.

풀링은 입력 행렬에서 병진 불변을 적용하는 데 도움이 됩니다.

비전 적용용 풀링은 공식적으로 공간 풀링으로 더 잘 알려져 있습니다. 시계열 활용에서는 일반적으로 풀링을 일시적 풀링이라고 합니다. 비공식적으로 풀링을 서브샘플링 또는 다운샘플링이라고 부르는 경우도 많습니다.

위치 인코딩

#language

토큰의 임베딩에 순서대로 토큰의 위치 정보를 추가하는 기법입니다. Transformer 모델은 위치 인코딩을 사용하여 시퀀스의 여러 부분 간의 관계를 더 잘 이해합니다.

위치 인코딩의 일반적인 구현은 정현파 함수를 사용합니다. (구체적으로, 정현함수의 주파수와 진폭은 시퀀스 내 토큰의 위치에 따라 결정됩니다.) 이 기법을 사용하면 Transformer 모델이 위치를 기반으로 시퀀스의 여러 부분에 적용하는 방법을 학습할 수 있습니다.

양성 클래스

#fundamentals

테스트할 클래스입니다.

예를 들어 암 모델의 양성 클래스는 '종양'일 수 있습니다. 이메일 분류기의 포지티브 클래스는 '스팸'일 수 있습니다.

네거티브 클래스와 대비되는 개념입니다.

후처리

#fairness
#fundamentals

모델이 실행된 후에 모델의 출력을 조정합니다. 후처리는 모델 자체를 수정하지 않고 공정성 제약조건을 적용하는 데 사용할 수 있습니다.

예를 들어 특정 속성의 모든 값에 대해 참양성률이 동일한지 확인하여 기회의 균등이 유지되도록 분류 임계값을 설정하여 바이너리 분류기에 후처리를 적용할 수 있습니다.

PR AUC (PR 곡선 아래 영역)

보간된 정밀도-재현율 곡선 아래의 영역으로, 분류 임곗값의 여러 값에 대해 (재현율, 정밀도) 점을 표시하여 얻은 값입니다. PR AUC는 계산 방법에 따라 모델의 평균 정밀도와 동일할 수 있습니다.

프락시스

Pax의 핵심 고성능 ML 라이브러리입니다. Praxis는 종종 '레이어 라이브러리'라고도 합니다

Praxis에는 레이어 클래스의 정의뿐만 아니라 다음과 같은 대부분의 지원 구성요소도 포함되어 있습니다.

Praxis는 Model 클래스의 정의를 제공합니다.

precision

다음 질문에 답하는 분류 모델의 측정항목입니다.

모델이 포지티브 클래스를 예측했을 때 올바른 예측의 비율은 얼마인가요?

공식은 다음과 같습니다.

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

각 매개변수는 다음과 같습니다.

  • 참양성은 모델이 양성 클래스를 정확하게 예측했음을 의미합니다.
  • 거짓양성은 모델이 양성 클래스를 잘못 예측했음을 의미합니다.

예를 들어 모델에서 200개의 양성 예측을 했다고 가정합니다. 긍정적 예측 200건 중 다음과 같습니다.

  • 150개는 참양성이었습니다.
  • 50개는 거짓양성이었습니다.

이 경우에는 다음과 같습니다.

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

정확성재현율과 대비되는 개념입니다.

정밀도-재현율 곡선

다양한 분류 임곗값에서의 정밀도재현율의 곡선

예측

#fundamentals

모델의 출력입니다. 예를 들면 다음과 같습니다.

  • 이진 분류 모델의 예측은 포지티브 클래스 또는 네거티브 클래스 중 하나입니다.
  • 다중 클래스 분류 모델의 예측은 하나의 클래스입니다.
  • 선형 회귀 모델의 예측은 숫자입니다.

예측 편향

예측 평균과 데이터 세트의 라벨 평균이 얼마나 차이가 있는지를 나타내는 값입니다.

머신러닝 모델의 바이어스 항 또는 윤리 및 공정성의 편향과 혼동해서는 안 됩니다.

예측 ML

모든 표준 ('기존') 머신러닝 시스템

예측 ML이라는 용어에는 공식적인 정의가 없습니다. 오히려 생성형 AI를 기반으로 하지 않는 ML 시스템 카테고리를 구분합니다.

예측 패리티

#fairness

지정된 분류 기준에서 정밀도 비율이 고려 중인 하위 그룹과 동일한지 확인하는 공정성 측정항목입니다.

예를 들어 대학 입학을 예측하는 모델의 정밀도가 난쟁이와 브로브딩나기인의 정밀도가 동일하면 국적 예측 패리티를 충족할 것입니다.

예측 패리티를 예측률 패리티라고도 합니다.

예측 패리티에 관한 자세한 내용은 '공정성 정의 설명' (섹션 3.2.1)을 참고하세요.

예측 비율 패리티

#fairness

예측 패리티의 또 다른 이름입니다.

사전 처리

#fairness
모델을 학습시키는 데 사용되기 전에 데이터 처리 사전 처리는 영어 사전에 없는 영어 텍스트 자료에서 단어를 삭제하는 것처럼 간단할 수도 있고, 민감한 속성과 상관 관계가 있는 속성을 가능한 한 많이 제거하는 방식으로 데이터 포인트를 다시 표현하는 것만큼 복잡할 수도 있습니다. 전처리는 공정성 제약 조건을 충족하는 데 도움이 될 수 있습니다.

선행 학습된 모델

#language
#image
#생성형AI

이미 학습된 모델 또는 모델 구성요소 (예: 임베딩 벡터)입니다. 선행 학습된 임베딩 벡터를 신경망에 입력하는 경우도 있습니다. 경우에 따라 모델이 선행 학습된 임베딩에 의존하지 않고 임베딩 벡터를 직접 학습시킵니다.

선행 학습된 언어 모델이라는 용어는 사전 학습을 거친 대규모 언어 모델을 의미합니다.

사전 학습

#language
#image
#생성형AI

대규모 데이터 세트에서 모델의 초기 학습입니다. 일부 선행 학습된 모델은 복잡한 거대 모델이며 일반적으로 추가 학습을 통해 미세 조정되어야 합니다. 예를 들어 ML 전문가는 위키백과의 모든 영어 페이지와 같은 방대한 텍스트 데이터 세트에 대해 대규모 언어 모델을 사전 학습시킬 수 있습니다. 사전 학습 후 결과 모델은 다음 기법을 통해 더 세분화할 수 있습니다.

사전 믿음

학습을 시작하기 전에 데이터에 대해 갖는 견해입니다. 예를 들어 L2 정규화가중치가 작고 일반적으로 0에 가깝게 분산되어야 한다는 사전 믿음에 기반합니다.

확률적 회귀 모델

특성가중치뿐만 아니라 해당 가중치의 불확실성도 사용하는 회귀 모델 확률적 회귀 모델은 예측과 해당 예측의 불확실성을 생성합니다. 예를 들어 확률적 회귀 모델은 표준 편차가 12인 325의 예측을 생성할 수 있습니다. 확률적 회귀 모델에 대한 자세한 내용은 tensorflow.org의 Colab을 참조하세요.

확률 밀도 함수

특정 값을 정확하게 가진 데이터 샘플의 빈도를 식별하는 함수입니다. 데이터 세트의 값이 연속적인 부동 소수점 수인 경우 완전 일치가 거의 발생하지 않습니다. 그러나 확률 밀도 함수를 값 x에서 y 값으로 integrating하면 xy 사이의 데이터 샘플에서 예상되는 빈도가 생성됩니다.

예를 들어 평균이 200이고 표준 편차가 30인 정규 분포가 있다고 가정해 보겠습니다. 211.4에서 218.7 범위에 속하는 데이터 샘플의 예상 빈도를 확인하려면 211.4에서 218.7까지의 정규 분포에 대한 확률 밀도 함수를 통합하면 됩니다.

프롬프트

#language
#생성형AI

모델이 특정 방식으로 동작하도록 조정하기 위해 대규모 언어 모델에 입력으로 입력된 모든 텍스트입니다. 프롬프트는 문구만큼 짧을 수도 있고 임의로 길어질 수도 있습니다 (예: 소설의 전체 텍스트). 프롬프트는 다음 표를 비롯한 여러 카테고리로 분류됩니다.

프롬프트 카테고리 Notes
문제 비둘기는 얼마나 빨리 날 수 있을까요?
안내 광고용 사이트에 대한 재미있는 시 쓰기 대규모 언어 모델에 작업을 수행하도록 요청하는 프롬프트
마크다운 코드를 HTML로 변환합니다. 예:
마크다운: * 목록 항목
HTML: <ul> <li>목록 항목</li> </ul>
이 프롬프트 예의 첫 번째 문장은 지침입니다. 프롬프트의 나머지 부분이 예입니다.
역할 물리학 박사 학위까지, 머신러닝 학습에서 경사하강법이 사용되는 이유 설명 문장의 첫 번째 부분은 지침입니다. '물리학 박사에게 전달'이라는 문구는 역할 부분입니다.
모델을 완료하기 위한 부분 입력 영국 총리가 거주하고 있는 국가는 부분 입력 프롬프트는 이 예시와 같이 갑자기 끝나거나 밑줄로 끝날 수 있습니다.

생성형 AI 모델은 텍스트, 코드, 이미지, 임베딩, 동영상 등 거의 모든 것을 사용하여 프롬프트에 응답할 수 있습니다.

프롬프트 기반 학습

#language
#생성형AI

특정 모델의 기능으로, 임의의 텍스트 입력 (프롬프트)에 대한 응답으로 동작을 조정할 수 있습니다. 일반적인 프롬프트 기반 학습 패러다임에서 대규모 언어 모델은 프롬프트에 텍스트를 생성하여 응답합니다. 예를 들어 사용자가 다음과 같은 프롬프트를 입력했다고 가정해 보겠습니다.

뉴턴의 운동 제3법칙을 요약하세요.

프롬프트 기반 학습을 지원하는 모델은 이전 프롬프트에 대답하도록 특별히 학습되지 않았습니다. 대신 모델은 물리학에 관한 많은 사실, 일반적인 언어 규칙에 관한 많은 사실, 일반적으로 유용한 답변을 구성하는 요소에 관해 많은 것을 '알고 있습니다'. 이러한 지식만으로도 유용한 답변을 얻을 수 있습니다. 추가적인 인간 피드백 ('그 답이 너무 복잡합니다' 또는 '반응이 무엇인가요?')을 사용하면 일부 프롬프트 기반 학습 시스템에서 답변의 유용성을 점차 개선할 수 있습니다.

프롬프트 설계

#language
#생성형AI

프롬프트 엔지니어링의 동의어입니다.

프롬프트 엔지니어링

#language
#생성형AI

대규모 언어 모델에서 원하는 응답을 유도하는 프롬프트를 만드는 기술입니다. 인간이 프롬프트 엔지니어링을 수행합니다. 대규모 언어 모델에서 유용한 응답을 얻으려면 잘 구조화된 프롬프트를 작성하는 것이 필수입니다. 프롬프트 엔지니어링은 다음과 같은 다양한 요인에 따라 달라집니다

  • 대규모 언어 모델을 사전 학습하고 미세 조정하는 데 사용하는 데이터 세트입니다.
  • 모델이 응답을 생성하는 데 사용하는 temperature 및 기타 디코딩 매개변수

유용한 프롬프트 작성에 대한 자세한 내용은 프롬프트 설계 소개를 참조하세요.

프롬프트 설계는 프롬프트 엔지니어링의 동의어입니다.

프롬프트 조정

#language
#생성형AI

시스템이 실제 프롬프트 앞에 추가하는 '프리픽스'를 학습하는 매개변수 효율적인 조정 메커니즘.

프롬프트 조정의 한 가지 변형(프리픽스 조정이라고도 함)은 모든 레이어 앞에 프리픽스를 붙이는 것입니다. 반면에 대부분의 프롬프트 조정은 입력 레이어에 프리픽스만 추가합니다.

프록시 라벨

#fundamentals

데이터 세트에서 직접 사용할 수 없는 라벨의 근사치를 계산하는 데 사용되는 데이터입니다.

예를 들어 직원 스트레스 수준을 예측하도록 모델을 학습시켜야 한다고 가정해 보겠습니다. 데이터 세트에 예측 특성이 많이 있지만 스트레스 수준이라는 라벨이 없습니다. 당연하게도 '직장 사고'를 스트레스 수준의 프록시 라벨로 선택합니다. 결국 높은 스트레스를 받는 직원들은 평온한 직원보다 더 많은 사고를 당합니다. 아니면 어떻게 해야 할까요? 직장 내 사고는 여러 가지 이유로 실제로 오르고 떨어질 수 있습니다.

두 번째 예로 is it raining?을 데이터 세트의 부울 라벨로 지정하려고 하지만 데이터 세트에 비 데이터가 포함되어 있지 않다고 가정해 보겠습니다. 사진을 사용할 수 있는 경우 우산을 들고 있는 사람의 사진을 is it raining?에 대한 프록시 라벨로 설정할 수 있습니다. 좋은 프록시 라벨인가요? 그럴지도 모르지만, 일부 문화권의 사람들은 비보다 태양으로부터 보호하기 위해 우산을 휴대할 가능성이 더 높습니다.

프록시 라벨은 불완전한 경우가 많습니다. 가능하면 프록시 라벨 대신 실제 라벨을 선택하세요. 하지만 실제 라벨이 없으면 가장 덜 나쁜 프록시 라벨 후보를 선택하여 매우 신중하게 프록시 라벨을 선택합니다.

프록시 (민감한 속성)

#fairness
민감한 속성의 대책으로 사용되는 속성입니다. 예를 들어 개인의 우편번호는 소득, 인종 또는 민족의 대리인으로 사용될 수 있습니다.

순수 함수

출력이 입력만을 기반으로 하고 부작용이 없는 함수입니다. 특히 순수 함수는 파일의 내용이나 함수 외부의 변수 값과 같은 전역 상태를 사용하거나 변경하지 않습니다.

순수 함수를 사용하여 스레드 안전 코드를 만들 수 있으며 이는 여러 model에서 model 코드를 샤딩할 때 유용합니다.

JAX 함수 변환 방법을 사용하려면 입력 함수가 순수한 함수여야 합니다.

Q

Q-함수

#rl

강화 학습에서는 상태에서 행동을 수행한 다음 주어진 정책을 따를 때 예상되는 수익을 예측하는 함수입니다.

Q 함수는 상태 작업 값 함수라고도 합니다.

Q-러닝

#rl

강화 학습에서는 에이전트벨만 방정식을 적용하여 마르코프 결정 과정의 최적 Q-함수를 학습하도록 하는 알고리즘입니다. 마르코프 결정 프로세스는 환경을 모델링합니다.

분위수

분위수 버케팅의 각 버킷입니다.

분위수 버킷팅

각 버킷에 동일하거나 거의 동일한 수의 예제가 포함되도록 특성 값을 버킷에 배포합니다. 예를 들어 다음 그림에서는 44개의 점을 4개의 버킷으로 나누고 각 버킷에는 11개의 점이 포함되어 있습니다. 그림의 각 버킷에 동일한 수의 점이 포함되도록 하기 위해 일부 버킷은 다른 너비의 x값에 걸쳐 있습니다.

44개의 데이터 포인트를 각각 11개 포인트로 구성된 4개의 버킷으로 나눈 것입니다.
          각 버킷에 포함된 데이터 포인트의 수는 동일하지만 일부 버킷에는 다른 버킷보다 더 넓은 범위의 특성 값이 포함됩니다.

양자화

다음과 같은 방식으로 사용될 수 있는 중복으로 정의된 용어입니다.

  • 특정 기능에 대해 분위수 버케팅 구현.
  • 더 빠른 저장, 학습, 추론을 위해 데이터를 0과 1로 변환합니다. 불리언 데이터는 다른 형식보다 노이즈와 오류에 더 강하기 때문에 양자화는 모델 정확성을 개선할 수 있습니다. 양자화 기법에는 반올림, 자르기, 비닝이 포함됩니다.
  • 모델의 매개변수를 저장하는 데 사용되는 비트 수 줄이기 예를 들어 모델의 매개변수가 32비트 부동 소수점 숫자로 저장된다고 가정해 보겠습니다. 양자화는 이러한 매개변수를 32비트에서 4비트, 8비트 또는 16비트로 변환합니다. 양자화는 다음을 감소시킵니다.

    • 컴퓨팅, 메모리, 디스크, 네트워크 사용량
    • 예측 추론 시간
    • 전력 소모량

    하지만 양자화로 인해 모델 예측의 정확성이 떨어질 때도 있습니다.

현재 재생목록

#TensorFlow

대기열 데이터 구조를 구현하는 TensorFlow 작업입니다. 일반적으로 I/O에서 사용됩니다.

R

결례

#fundamentals

검색 보강 세대의 약어입니다.

랜덤 포레스트

#df

각 결정 트리가 배깅과 같은 임의의 특정 노이즈로 학습되는 결정 트리앙상블입니다.

랜덤 포레스트는 결정 포레스트의 한 유형입니다.

임의 정책

#rl

강화 학습에서 액션을 무작위로 선택하는 정책입니다.

순위

지도 학습의 한 유형으로, 항목 목록의 순서를 정합니다.

순위 (순서수)

클래스를 내림차순으로 분류하는 머신러닝 문제에서 클래스의 서수 위치입니다. 예를 들어 행동 순위 시스템은 강아지의 보상에 가장 높은 것 (스테이크)부터 가장 낮은 것 (시든 케일)까지 순위를 매길 수 있습니다.

순위 (텐서)

#TensorFlow

텐서의 차원 수입니다. 예를 들어 스칼라의 순위는 0이고, 벡터의 순위는 1이며, 행렬의 순위는 2입니다.

순위 (순서수)와 혼동해서는 안 됩니다.

평가자

#fundamentals

라벨을 제공하는 사람입니다. '주석기'는 평가자의 다른 이름입니다.

recall

다음 질문에 답하는 분류 모델의 측정항목입니다.

정답포지티브 클래스일 때 모델이 포지티브 클래스로 올바르게 식별한 예측 비율은 얼마인가요?

공식은 다음과 같습니다.

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

각 매개변수는 다음과 같습니다.

  • 참양성은 모델이 양성 클래스를 정확하게 예측했음을 의미합니다.
  • 거짓음성은 모델이 네거티브 클래스잘못 예측했음을 의미합니다.

예를 들어 모델에서 정답이 포지티브 클래스인 예에 대해 200개의 예측을 했다고 가정해 보겠습니다. 다음 200개의 예측 중:

  • 180개는 참양성이었습니다.
  • 20개는 거짓음성이었습니다.

이 경우에는 다음과 같습니다.

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

추천 시스템

#recsystems

각 사용자에 대해 대규모 코퍼스에서 상대적으로 적은 항목 집합을 선택하는 시스템입니다. 예를 들어 동영상 추천 시스템은 100,000개의 동영상에서 두 개의 동영상을 추천할 수 있습니다. 한 사용자에게는 카사블랑카필라델피아 스토리를, 다른 사용자에게는 원더우먼블랙 팬서를 선택할 수 있습니다. 동영상 추천 시스템은 다음과 같은 요소를 바탕으로 콘텐츠를 추천합니다.

  • 비슷한 사용자가 평가하거나 시청한 영화
  • 장르, 감독, 배우, 타겟 인구통계...

정류 선형 유닛 (ReLU)

#fundamentals

다음 동작을 포함하는 활성화 함수입니다.

  • 입력이 음수이거나 0이면 출력은 0입니다.
  • 입력이 양수이면 출력은 입력과 같습니다.

예를 들면 다음과 같습니다.

  • 입력이 -3이면 출력은 0입니다.
  • 입력이 +3이면 출력은 3.0입니다.

다음은 ReLU를 도표로 나타낸 것입니다.

두 줄의 데카르트 도표입니다. 첫 번째 줄은 상수 y 값 0을 가지며 x축을 따라 -infinity,0에서 0,-0까지 이어집니다.
          두 번째 줄은 0,0에서 시작합니다. 이 선의 기울기는 +1이므로
          0,0에서 +무한대,+무한대까지 이어집니다.

ReLU는 매우 많이 사용되는 활성화 함수입니다. ReLU는 단순한 동작에도 불구하고 여전히 신경망이 특성라벨 간의 비선형 관계를 학습할 수 있게 해줍니다.

순환 신경망(RNN)

#seq

의도적으로 여러 번 실행되는 신경망으로, 각 실행의 일부가 다음 실행으로 전달됩니다. 특히 이전 실행의 히든 레이어는 다음 실행 시 동일한 히든 레이어에 대한 입력의 일부를 제공합니다. 순환 신경망은 시퀀스를 평가할 때 특히 유용하므로 히든 레이어가 시퀀스의 이전 부분에 대한 신경망의 이전 실행으로부터 학습할 수 있습니다.

예를 들어 다음 그림은 4회 실행되는 순환 신경망을 보여줍니다. 첫 번째 실행에서 히든 레이어에 학습된 값이 두 번째 실행에서 동일한 히든 레이어에 대한 입력의 일부가 됩니다. 마찬가지로 두 번째 실행에서 히든 레이어에 학습된 값이 세 번째 실행에서 동일한 히든 레이어에 입력의 일부가 됩니다. 순환 신경망(RNN)은 이러한 방식으로 개별 단어의 단순한 의미가 아닌 전체 시퀀스의 의미를 점진적으로 학습시키고 예측합니다.

4번 실행되어 4개의 입력 단어를 처리하는 RNN입니다.

회귀 모델

#fundamentals

비공식적으로 수치 예측을 생성하는 모델입니다. (반대로 분류 모델은 클래스 예측을 생성합니다.) 예를 들어 다음은 모두 회귀 모델입니다.

  • 423,000유로와 같이 특정 주택의 가격을 예측하는 모델입니다.
  • 특정 나무의 수명(예: 23.2년)을 예측하는 모델입니다.
  • 향후 6시간 동안 특정 도시에 강수량이 0.18인치와 같이 있게 예측하는 모델입니다.

두 가지 일반적인 회귀 모델 유형은 다음과 같습니다.

  • 선형 회귀: 라벨 값이 특성에 가장 적합한 선을 찾습니다.
  • 로지스틱 회귀: 시스템에서 일반적으로 클래스 예측에 매핑할 확률을 0.0~1.0 사이로 생성합니다.

수치 예측을 출력하는 모든 모델이 회귀 모델인 것은 아닙니다. 경우에 따라 숫자 예측은 사실 숫자 클래스 이름을 갖는 분류 모델일 뿐입니다. 예를 들어 숫자로 된 우편번호를 예측하는 모델은 회귀 모델이 아니라 분류 모델입니다.

정규화

#fundamentals

과적합을 줄이는 모든 메커니즘 인기 있는 정규화 유형은 다음과 같습니다.

정규화는 모델의 복잡도에 대한 페널티로 정의할 수도 있습니다.

정규화율

#fundamentals

학습 중 정규화의 상대적 중요도를 지정하는 숫자입니다. 정규화율을 높이면 과적합이 줄어들지만 모델의 예측 성능이 저하될 수 있습니다. 반대로 정규화율을 줄이거나 생략하면 과적합이 증가합니다.

강화 학습 (RL)

#rl

환경과 상호작용할 때 수익을 극대화하는 것이 목표인 최적의 정책을 학습하는 알고리즘 모음입니다. 예를 들어 대부분의 게임의 궁극적인 보상은 승리입니다. 강화 학습 시스템은 이전에 승리로 이어진 이전 게임 동작의 순서와 최종적으로 패배로 이어진 시퀀스를 평가하여 복잡한 게임을 능숙하게 플레이할 수 있습니다.

인간 피드백 기반 강화 학습 (RLHF)

#생성형AI
#rl

평가자의 의견을 사용하여 모델 응답 품질 개선 예를 들어 RLHF 메커니즘은 사용자에게 👍 또는 YOUTUBE 이모티콘으로 모델의 응답 품질을 평가해 달라고 요청할 수 있습니다. 그러면 시스템은 이 의견에 따라 향후 응답을 조정할 수 있습니다.

ReLU

#fundamentals

정류 선형 유닛(Rectified Linear Unit)의 약어입니다.

재생 버퍼

#rl

DQN과 유사한 알고리즘에서 경험 재생에 사용하기 위해 에이전트가 상태 전환을 저장하는 데 사용하는 메모리입니다.

복제본

일반적으로 다른 머신에 있는 학습 세트 또는 모델의 사본 예를 들어 시스템에서 데이터 동시 로드를 구현하기 위해 다음 전략을 사용할 수 있습니다.

  1. 기존 모델의 복제본을 여러 머신에 배치합니다.
  2. 학습 세트의 서로 다른 하위 집합을 각 복제본에 전송합니다.
  3. 매개변수 업데이트를 집계합니다.

보고 편향

#fairness

사람들이 작업, 결과 또는 속성에 관한 글을 작성하는 빈도가 실제 빈도나 속성이 개인 클래스의 특징이 되는 정도를 반영하는 것은 아닙니다. 보고 편향은 머신러닝 시스템이 학습하는 데이터의 구성에 영향을 줄 수 있습니다.

예를 들어 책에서 웃음이라는 단어가 호흡보다 더 많이 나옵니다. 도서 자료에서 웃음과 호흡의 상대적 빈도를 추정하는 머신러닝 모델은 호흡보다 웃음이 더 흔하다고 판단할 수 있습니다.

벡터 표현이

데이터를 유용한 특성에 매핑하는 과정입니다.

순위 재지정

#recsystems

추천 시스템의 최종 단계. 이 과정에서 채점된 항목은 다른(일반적으로 비 ML) 알고리즘에 따라 다시 채점될 수 있습니다. 순위 재지정은 스코어링 단계에서 생성된 항목 목록을 평가하여 다음과 같은 작업을 수행합니다.

  • 사용자가 이미 구매한 항목을 제외합니다.
  • 최신 아이템의 점수 상승

검색 보강 (RAG)

#fundamentals

모델을 학습시킨 후 가져온 지식 소스로 그라운딩하여 대규모 언어 모델 (LLM) 출력의 품질을 개선하는 기법입니다. RAG는 학습된 LLM에 신뢰할 수 있는 기술 자료 또는 문서에서 가져온 정보에 대한 액세스 권한을 제공하여 LLM 응답의 정확성을 개선합니다.

검색 보강 세대를 사용하는 일반적인 동기는 다음과 같습니다.

  • 모델에서 생성된 응답의 사실적 정확성 향상
  • 모델이 학습하지 않은 지식에 액세스할 수 있는 권한 부여
  • 모델이 사용하는 지식 변경
  • 모델이 출처를 인용하도록 사용 설정

예를 들어 화학 앱이 PaLM API를 사용하여 사용자 쿼리와 관련된 요약을 생성한다고 가정해 보겠습니다. 앱의 백엔드가 쿼리를 수신하면 백엔드는 다음을 수행합니다.

  1. 사용자의 검색어와 관련된 데이터를 검색 ('검색')합니다.
  2. 사용자의 검색어에 관련 화학 데이터를 추가 ('보강')합니다.
  3. 추가된 데이터를 기반으로 요약을 작성하도록 LLM에 지시합니다.

return

#rl

강화 학습에서는 특정 정책과 특정 상태가 주어질 때 에이전트상태부터 에피소드까지 정책을 따를 때 기대하는 모든 리워드의 합계가 반환됩니다. 에이전트는 보상을 얻는 데 필요한 상태 전환에 따라 보상을 할인하여 예상 보상의 지연 특성을 고려합니다.

따라서 할인 계수가 \(\gamma\)이고 \(r_0, \ldots, r_{N}\)가 에피소드가 끝날 때까지 보상을 표시하면 반환 계산은 다음과 같습니다.

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

리워드

#rl

강화 학습에서 환경으로 정의된 상태에서 행동을 수행한 수치 결과입니다.

능형 정규화

L2 정규화의 동의어입니다. 능형 정규화라는 용어는 순수 통계 환경에서 더 자주 사용되는 반면 L2 정규화는 머신러닝에서 더 자주 사용됩니다.

RNN

#seq

recurrentNeural Networks의 약어입니다.

수신자 조작 특성 (ROC) 곡선

#fundamentals

이진 분류의 다양한 분류 임곗값에 대한 참양성률거짓양성률의 그래프

ROC 곡선의 모양은 이진 분류 모델이 포지티브 클래스와 네거티브 클래스를 구분하는 능력을 나타냅니다. 예를 들어 이진 분류 모델이 모든 포지티브 클래스에서 모든 네거티브 클래스를 완벽하게 분리한다고 가정해 보겠습니다.

오른쪽에는 8개의 긍정적인 예가, 왼쪽에 7개의 부정 예가 있는 숫자 선

이전 모델의 ROC 곡선은 다음과 같습니다.

ROC 곡선입니다. x축은 거짓양성률이고 y축은 참양성률입니다. 곡선이 반전된 L 모양입니다. 곡선은 (0.0,0.0)에서 시작하여 (0.0,1.0)까지 수직으로 올라가는 것입니다. 그런 다음 곡선은 (0.0,1.0)에서 (1.0,1.0)으로 변합니다.

반대로 다음 그림은 네거티브 클래스와 포지티브 클래스를 전혀 구분할 수 없는 심각한 모델의 원시 로지스틱 회귀 값을 그래프로 보여줍니다.

양수 예와 네거티브 클래스가 완전히 섞인 숫자 직선

이 모델의 ROC 곡선은 다음과 같습니다.

ROC 곡선으로, 실제로는 (0.0,0.0)에서 (1.0,1.0)까지의
          직선입니다.

한편 실제 세계에서의 대부분의 이진 분류 모델은 포지티브 클래스와 네거티브 클래스를 어느 정도 분리하지만 일반적으로 완벽하게 구분하지는 않습니다. 일반적인 ROC 곡선은 두 극단 사이의 어딘가에 위치합니다.

ROC 곡선입니다. x축은 거짓양성률이고 y축은 참양성률입니다. ROC 곡선은 서쪽에서 북쪽으로 나침반 지점을 가로지르는 흔들리는 원호에 가깝습니다.

이론적으로 (0.0,1.0)에 가장 가까운 ROC 곡선상의 지점이 이상적인 분류 임계값을 식별합니다. 그러나 이상적인 분류 임곗값 선택에 영향을 미치는 다른 실제 문제도 있습니다. 예를 들어 거짓음성은 거짓양성보다 훨씬 더 큰 고충을 야기할 수 있습니다.

AUC라는 숫자 측정항목은 ROC 곡선을 단일 부동 소수점 값으로 요약합니다.

역할 프롬프팅

#language
#생성형AI

생성형 AI 모델의 응답의 타겟층을 식별하는 프롬프트의 선택적 부분입니다. 대규모 언어 모델은 역할 프롬프트 없이 질문하는 사람에게 유용할 수도 있고 유용하지 않을 수도 있습니다. 역할 프롬프트를 사용하면 대규모 언어 모델이 특정 타겟층에 더 적절하고 유용한 방식으로 대답할 수 있습니다. 예를 들어 다음 프롬프트에서 역할 프롬프트 부분은 굵게 표시되어 있습니다.

  • 경제학 박사의 경우 이 자료를 요약하세요.
  • 10살의 조수가 어떻게 작용하는지 설명.
  • 2008년 금융 위기를 설명해 줘. 어린 아이나 골든 리트리버에게 말해보세요.

루트

#df

결정 트리의 시작 노드 (첫 번째 조건)입니다. 규칙에 따라 다이어그램은 결정 트리의 맨 위에 루트를 배치합니다. 예를 들면 다음과 같습니다.

2개의 조건과 3개의 잎이 있는 결정 트리 시작 조건 (x > 2)은 루트입니다.

루트 디렉터리

#TensorFlow

여러 모델의 TensorFlow 체크포인트 및 이벤트 파일의 하위 디렉터리를 호스팅하도록 지정한 디렉터리입니다.

평균 제곱근 오차(RMSE)

#fundamentals

평균 제곱 오차의 제곱근입니다.

회전 불변

#image

이미지 분류 문제에서 알고리즘이 이미지의 방향이 바뀌더라도 이미지를 분류해 낼 수 있는 능력을 의미합니다. 예를 들어 알고리즘은 테니스 라켓이 위를 향하고 있는지, 옆으로 향하는지, 아래를 향하고 있는지에 관계없이 테니스 라켓을 식별할 수 있습니다. 회전 불변이 항상 바람직한 것은 아닙니다. 예를 들어 거꾸로 된 9를 9로 분류해서는 안 됩니다.

병진 불변크기 불변도 참고하세요.

R-squared

회귀 측정항목은 라벨에서 개별 특성 또는 특성 세트로 인한 변동 정도를 나타냅니다. R 제곱은 0과 1 사이의 값이며 다음과 같이 해석할 수 있습니다.

  • R 제곱이 0이면 특성 집합으로 인한 라벨의 편차가 하나도 없다는 의미입니다.
  • R 제곱이 1이라는 것은 라벨의 모든 편차가 특성 세트로 인한 것임을 의미합니다.
  • 0과 1 사이의 R 제곱은 특정 특성 또는 특성 세트에서 라벨의 편차를 예측할 수 있는 범위를 나타냅니다. 예를 들어 R 제곱이 0.10이면 라벨의 편차 중 10%가 특성 세트로 인한 것이고 R 제곱이 0.20이면 20%는 특성 세트로 인한 것임을 의미합니다.

R 제곱은 모델이 예측한 값과 정답피어슨 상관 계수의 제곱입니다.

S

표본 추출 편향

#fairness

표본 선택 편향을 참고하세요.

대체를 통한 샘플링

#df

동일한 항목을 여러 번 선택할 수 있는 후보 항목 집합에서 항목을 선택하는 메서드입니다. '교체 있음'이라는 문구는 각 선택 후 선택된 항목이 후보 항목 풀로 반환된다는 의미입니다. 그 반대 방법인 대체 없이 샘플링은 후보 항목을 한 번만 선택할 수 있다는 의미입니다.

예를 들어 다음 과일 세트를 살펴보겠습니다.

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

시스템에서 무작위로 fig를 첫 번째 항목으로 선택한다고 가정해 보겠습니다. 교체 샘플링을 사용하는 경우 시스템은 다음 세트 중에서 두 번째 항목을 선택합니다.

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

예. 이전과 동일하므로 시스템이 잠재적으로 fig를 다시 선택할 수 있습니다.

대체 없이 샘플링을 사용하는 경우 샘플을 선택하면 다시 선택할 수 없습니다. 예를 들어 시스템에서 무작위로 fig를 첫 번째 샘플로 선택하면 fig을 다시 선택할 수 없습니다. 따라서 시스템은 다음 (축소된) 집합에서 두 번째 샘플을 선택합니다.

fruit = {kiwi, apple, pear, cherry, lime, mango}

SavedModel

#TensorFlow

TensorFlow 모델 저장 및 복구에 권장되는 형식입니다. 저장된 모델은 언어 중립적이며 복구 가능한 직렬화 형식으로, 상위 수준 시스템과 도구에서 TensorFlow 모델을 생성, 소비, 변환할 수 있게 해줍니다.

자세한 내용은 TensorFlow 프로그래머 가이드에서 저장 및 복원 챕터를 참조하세요.

알뜰

#TensorFlow

모델 체크포인트 저장을 담당하는 TensorFlow 객체입니다.

스칼라

순위 0의 텐서로 표현될 수 있는 단일 숫자 또는 단일 문자열. 예를 들어 다음 코드 줄은 각각 TensorFlow에서 스칼라 하나를 만듭니다.

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

확장

라벨 또는 특성 값의 범위를 변경하는 모든 수학적 변환 또는 기법입니다. 일부 확장은 정규화와 같은 변환에 매우 유용합니다.

머신러닝에 유용한 확장의 일반적인 형식은 다음과 같습니다.

  • 선형 배율 - 일반적으로 뺄셈과 나눗셈의 조합을 사용하여 원래 값을 -1과 +1 또는 0과 1 사이의 숫자로 대체합니다.
  • 대수 배율이며 원래 값을 대수로 대체합니다.
  • Z-점수 정규화: 원래 값을 특성 평균으로부터의 표준 편차 수를 나타내는 부동 소수점 값으로 대체합니다.

scikit-learn

널리 사용되는 오픈소스 머신러닝 플랫폼입니다. scikit-learn.org를 참조하세요.

점수 매기기

#recsystems

후보 생성 단계에서 생성된 각 항목의 값 또는 순위를 제공하는 추천 시스템의 일부입니다.

표본 선택 편향

#fairness

데이터에서 관찰된 샘플과 관찰되지 않은 샘플 간에 체계적인 차이를 만드는 선택 프로세스로 인해 샘플링된 데이터에서 도출한 결론에서 발생하는 오류입니다. 다음과 같은 형태의 표본 선택 편향이 존재합니다.

  • 포함 편향: 데이터 세트에 표시되는 모집단이 머신러닝 모델이 예측을 수행하는 모집단과 일치하지 않습니다.
  • 표본 추출 편향: 데이터가 대상 그룹에서 무작위로 수집되지 않습니다.
  • 무응답 편향 (참여 편향이라고도 함): 특정 그룹의 사용자가 다른 그룹의 사용자와 다른 비율로 설문조사를 거부합니다.

예를 들어 영화에 대한 사람들의 선호도를 예측하는 머신러닝 모델을 만든다고 가정해 보겠습니다. 학습 데이터를 수집하기 위해 영화관 맨 앞줄에서 영화를 상영하는 모든 사람에게 설문조사를 나눠줍니다. 언뜻 보기에는 데이터 세트를 수집하는 합리적인 방법처럼 들릴 수 있지만, 이러한 형태의 데이터 수집으로 인해 다음과 같은 형태의 선택 편향이 발생할 수 있습니다.

  • 포함 편향: 영화를 보기로 선택한 집단에서 샘플링하면 영화에 대한 관심을 표명하지 않은 사람들에게 모델의 예측이 일반화되지 않을 수 있습니다.
  • 표본집단 편향: 의도된 집단 (영화 속 모든 인물)에서 무작위로 샘플링하는 대신 맨 앞줄에 있는 사람들만 샘플링했습니다. 맨 앞줄에 앉은 사람들이 다른 줄의 사람들보다 영화에 더 관심이 있을 가능성이 있습니다.
  • 무응답 편향: 일반적으로 의견이 강한 사람은 온화한 사람보다 선택적인 설문조사에 더 자주 참여하는 경향이 있습니다. 영화 설문조사는 선택사항이므로 응답은 일반적인 (종 모양) 분포가 아닌 이봉분포를 형성할 가능성이 높습니다.

셀프 어텐션 (셀프 어텐션 레이어라고도 함)

#language

임베딩 시퀀스 (예: 토큰 임베딩)를 다른 임베딩 시퀀스로 변환하는 신경망 레이어입니다. 출력 시퀀스의 각 임베딩은 어텐션 메커니즘을 통해 입력 시퀀스의 요소에서 얻은 정보를 통합하여 구성됩니다.

셀프 어텐션self 부분은 다른 컨텍스트가 아닌 자체에 수반되는 시퀀스를 나타냅니다. 셀프 어텐션은 변환기의 기본 구성 요소 중 하나이며 '쿼리', '키', '값'과 같은 사전 조회 용어를 사용합니다.

셀프 어텐션 레이어는 단어당 하나씩 일련의 입력 표현으로 시작됩니다. 단어의 입력 표현은 간단한 임베딩일 수 있습니다. 신경망은 입력 시퀀스의 각 단어에 대해 전체 단어 시퀀스의 모든 요소와 단어의 관련성에 점수를 매깁니다. 관련성 점수는 단어의 최종 표현이 다른 단어의 표현을 포함하는 정도를 결정합니다.

예를 들어 다음 문장을 살펴보겠습니다.

이 동물은 너무 피곤해서 길을 건너지 않았습니다.

다음 그림 (Transformer: A Novel Neural Network Architecture for Language Understanding)은 대명사 it에 대한 셀프 어텐션 레이어의 어텐션 패턴을 보여줍니다. 각 줄의 어두움은 각 단어가 표현에 얼마나 기여하는지 나타냅니다.

다음 문장이 두 번 나옵니다. 동물이 너무 피곤해서 길을 건너지 않았습니다. 선은 한 문장의 대명사를 다른 문장의 토큰 5개 (동물, 거리, 그것, 마침표)에 연결합니다.  it 대명사와 동물이라는 단어 사이의 경계가 가장 강력합니다.

셀프 어텐션 레이어는 'it'과 관련된 단어를 강조표시합니다. 이 경우 어텐션 레이어는 동물이 참조할 수 있는 단어를 강조 표시하는 방법을 학습하여 동물에 가장 높은 가중치를 할당합니다.

n개의 토큰 시퀀스에서 셀프 어텐션은 임베딩 시퀀스를 시퀀스의 각 위치에서 한 번씩 n번 개별적으로 변환합니다.

어텐션멀티 헤드 셀프 어텐션도 참고하세요.

자율 지도 학습

라벨이 없는 예에서 서로게이트 라벨을 만들어 비지도 머신러닝 문제를 지도 머신러닝 문제로 변환하는 기법 모음입니다.

BERT와 같은 일부 Transformer 기반 모델은 자체 지도 학습을 사용합니다.

자체 지도 학습은 준지도 학습 접근 방식입니다.

자가 학습

자기 지도 학습의 변형으로, 다음 조건이 모두 충족될 때 특히 유용합니다.

자체 학습은 모델 개선이 중지될 때까지 다음 두 단계를 반복하는 방식으로 작동합니다.

  1. 지도 머신러닝을 사용하여 라벨이 지정된 예를 바탕으로 모델을 학습시킵니다.
  2. 1단계에서 만든 모델을 사용하여 라벨이 없는 예시에서 예측 (라벨)을 생성하고 신뢰도가 높은 예측을 예측 라벨이 있는 라벨이 지정된 예시로 옮깁니다.

2단계를 반복할 때마다 1단계에서 학습에 사용할 라벨이 지정된 예가 더 많이 추가됩니다.

준지도 학습

일부 학습 예에는 라벨이 있지만 나머지에는 라벨이 없는 데이터로 모델 학습 준지도 학습의 한 가지 기법은 라벨이 없는 예에 대해 라벨을 추론한 다음 추론된 라벨로 학습시켜 새 모델을 만드는 것입니다. 준지도 학습은 라벨을 얻는 데 비용이 많이 들지만 라벨이 없는 예가 풍부할 때 유용할 수 있습니다.

자기 학습은 준지도 학습의 한 가지 기법입니다.

민감한 속성

#fairness
법적, 윤리적, 사회적 또는 개인적 이유로 특별히 고려할 수 있는 인간의 속성입니다.

감정 분석

#language

통계 또는 머신러닝 알고리즘을 사용하여 서비스, 제품, 조직 또는 주제에 대한 그룹의 전반적인 태도(긍정적 또는 부정적)를 결정합니다. 예를 들어 알고리즘은 자연어 이해를 사용하여 대학 과정의 텍스트 피드백에 대한 감정 분석을 실행하여 학생들이 일반적으로 과정을 좋아하거나 싫어하는 정도를 판단할 수 있습니다.

시퀀스 모델

#seq

입력에 순차 종속 항목이 있는 모델입니다. 예를 들어 이전에 시청한 동영상 시퀀스에서 다음에 시청할 동영상을 예측합니다.

시퀀스-시퀀스(Seq2Seq) 작업

#language

토큰의 입력 시퀀스를 토큰의 출력 시퀀스로 변환하는 작업입니다. 예를 들어 많이 사용되는 두 가지 시퀀스-투-시퀀스(Seq2Seq) 작업은 다음과 같습니다.

  • 번역사:
    • 샘플 입력 시퀀스: '사랑해'
    • 샘플 출력 시퀀스: 'Je t'aime.'
  • 질문 답변:
    • 샘플 입력 시퀀스: "뉴욕시에서 내 차가 필요한가요?"
    • 샘플 출력 시퀀스: '아니요. 차는 집에 두세요.'

모델 서빙입니다

학습된 모델을 만들어 온라인 추론 또는 오프라인 추론을 통해 예측을 제공할 수 있도록 하는 프로세스입니다.

셰이프 (텐서)

텐서의 각 차원에 있는 요소의 수입니다. 도형은 정수 목록으로 표현됩니다. 예를 들어 다음 2차원 텐서의 형태는 [3,4]입니다.

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

TensorFlow는 행 기본 (C 스타일) 형식을 사용하여 차원의 순서를 나타냅니다. 따라서 TensorFlow의 모양은 [4,3]가 아닌 [3,4]입니다. 즉, 2차원 TensorFlow 텐서에서 형태는 [행 수, 열 수]입니다.

샤드

#TensorFlow
#GoogleCloud

학습 세트 또는 모델의 논리적 분할입니다. 일반적으로 일부 프로세스는 예시 또는 매개변수를 일반적으로 동일한 크기의 청크로 나누어 샤드를 만듭니다. 그런 다음 각 샤드는 다른 머신에 할당됩니다.

모델을 샤딩하는 것을 모델 동시 로드라고 하고, 데이터 샤딩을 데이터 동시 로드라고 합니다.

축소

#df

과적합을 제어하는 경사 부스팅초매개변수. 경사 부스팅의 축소는 경사하강법학습률과 유사합니다. 축소는 0.0과 1.0 사이의 십진수 값입니다. 축소 값이 작을수록 큰 축소 값보다 과적합이 줄어듭니다.

시그모이드 함수

#fundamentals

입력 값을 제한된 범위(일반적으로 0~1 또는 -1~+1)로 '찌그러뜨리는' 수학 함수입니다. 즉, 어떤 숫자 (2, 100, 음의 십억 등)를 시그모이드에 전달할 수 있으며 출력은 여전히 제한된 범위에 포함됩니다. 시그모이드 활성화 함수의 플롯은 다음과 같습니다.

도메인 -무한대에서 +양까지의 x값을
          포함하는 2차원 곡선 도표이며, y 값의 범위는
          거의 0에서 거의 1입니다. x가 0일 때 y는 0.5입니다. 곡선의 기울기는 항상 양수이며 0,0.5에서 가장 높은 기울기가 x의 절댓값이 증가함에 따라 점진적으로 감소합니다.

시그모이드 함수는 머신러닝에서 다음을 포함하여 여러 용도로 사용됩니다.

유사도 측정

#clustering

클러스터링 알고리즘에서 두 예의 유사성을 판단하는 데 사용되는 측정항목입니다.

단일 프로그램 / 다중 데이터 (SPMD)

여러 기기에서 서로 다른 입력 데이터에 대해 동일한 계산을 병렬로 실행하는 동시 로드 기술입니다. SPMD의 목표는 보다 신속하게 결과를 얻는 것입니다. 병렬 프로그래밍의 가장 일반적인 스타일입니다.

크기 불변

#image

이미지 분류 문제에서 알고리즘이 이미지의 크기가 변해도 이미지를 분류해 낼 수 있는 능력을 의미합니다. 예를 들어 알고리즘은 200만 픽셀을 사용하는지 200,000 픽셀을 사용하는지에 관계없이 고양이를 계속 식별할 수 있습니다. 아무리 최고의 이미지 분류 알고리즘이라 하더라도 크기 불변에는 실질적으로 한계가 있습니다. 예를 들어 알고리즘 (또는 사람)이 20픽셀만 사용하는 고양이 이미지를 올바르게 분류할 가능성은 낮습니다.

병진 불변회전 불변도 참고하세요.

스케치

#clustering

비지도 머신러닝에서 예시에 대한 예비 유사성 분석을 수행하는 알고리즘의 카테고리입니다. 스케칭 알고리즘에서는 로컬 구분 해시 함수를 사용하여 유사한 점을 식별한 다음 버킷으로 그룹화합니다.

스케치를 사용하면 대규모 데이터 세트에서 유사성 계산에 필요한 계산이 줄어듭니다. 데이터 세트의 모든 단일 예 쌍에 대한 유사성을 계산하는 대신 각 버킷 내의 각 점 쌍에 대해서만 유사성을 계산합니다.

건너뛰기-그램

#language

원래 컨텍스트에서 단어를 생략하거나 '건너뛰기'할 수 있는 n-gram입니다. 즉, N 단어가 원래 인접하지 않았을 수 있습니다. 정확히 말하면 'k-건너뛰기-n-그램'은 최대 k개의 단어를 건너뛰었을 수 있는 N-그램입니다.

예를 들어 '빠른 갈색 여우'의 가능한 2-그램은 다음과 같습니다.

  • '빠른'
  • "빠른 갈색"
  • '갈색 여우'

'1-skip-2-gram'은 최대 1개의 단어가 포함된 단어 쌍입니다. 따라서 '빠른 갈색 여우'의 1-건너뛰기 2그램은 다음과 같습니다.

  • '갈색'
  • '빠른 여우'

또한 한 단어 미만을 건너뛸 수 있으므로 모든 2-그램은 또한 1-건너뛰기-2-그램입니다.

건너뛰기-그램은 단어의 주변 맥락을 더 잘 이해하는 데 유용합니다. 이 예에서 '여우'는 1-skip-2-gram 집합에서 'quick'과 직접 연결되었지만 2-g 세트에서는 직접 연결되지 않았습니다.

Skip-gram은 단어 임베딩 모델을 학습시키는 데 도움이 됩니다.

소프트맥스

#fundamentals

다중 클래스 분류 모델에서 가능한 각 클래스의 확률을 결정하는 함수입니다. 확률의 합은 정확히 1.0이 됩니다 예를 들어 다음 표는 소프트맥스가 다양한 확률을 분산하는 방법을 보여줍니다.

이미지 유형 확률
0.85
cat 0.13
0.02

소프트맥스를 전체 소프트맥스라고도 합니다.

후보 샘플링과 대비되는 개념입니다.

소프트 프롬프트 조정

#language
#생성형AI

리소스를 많이 사용하지 않고 미세 조정을 하지 않고 특정 태스크를 위해 대규모 언어 모델을 조정하는 기법입니다. 소프트 프롬프트 조정은 모델의 모든 가중치를 재학습하는 대신 프롬프트를 자동으로 조정하여 동일한 목표를 달성합니다.

텍스트 프롬프트에서 소프트 프롬프트 조정은 일반적으로 토큰 임베딩을 프롬프트에 추가하고 역전파를 사용하여 입력을 최적화합니다.

'하드' 프롬프트에는 토큰 임베딩 대신 실제 토큰이 포함됩니다.

희소 특성

#language
#fundamentals

대부분의 값이 0이거나 비어 있는 특성입니다. 예를 들어 1개의 값과 100만 개의 0 값을 포함하는 특성은 희소성이 있습니다. 반대로 밀집 특성은 대부분 0이나 비어 있지 않은 값을 갖습니다.

머신러닝에서 희소 특성은 놀라울 정도로 많습니다. 범주형 특성은 일반적으로 희소 특성입니다. 예를 들어 숲에 있는 300여 종의 수종 중에서 하나의 예로 단풍나무만 식별할 수 있습니다. 또는 동영상 라이브러리에 있는 수백만 개의 동영상 중에서 하나의 예로 '카사블랑카'만 식별할 수도 있습니다.

모델에서는 일반적으로 희소 특성을 원-핫 인코딩으로 표현합니다. 원-핫 인코딩이 큰 경우 효율성을 높이기 위해 원-핫 인코딩 위에 임베딩 레이어를 배치할 수 있습니다.

희소 표현

#language
#fundamentals

희소 특성에 0이 아닌 요소의 위치만 저장합니다.

예를 들어 species이라는 범주형 특성이 특정 포리스트에 있는 36가지 트리 종을 식별한다고 가정해 보겠습니다. 또한 각 는 단일 종만 식별한다고 가정합니다.

원-핫 벡터를 사용하여 각 예에서 수종을 나타낼 수 있습니다. 원-핫 벡터는 단일 1 (이 예시에서 특정 수종을 나타냄) 및 35개의 0 (이 예시에 없는 나무종 35종을 나타냄)를 포함합니다. 따라서 maple의 원-핫 표현은 다음과 같을 수 있습니다.

위치 0~23이 값 0을, 위치 24가 값 1을, 위치 25~35가 값 0을 보유하는 벡터입니다.

또는 희소 표현은 단순히 특정 종의 위치를 식별합니다. maple가 24 위치에 있으면 maple의 희소 표현은 다음과 같습니다.

24

희소 표현은 원-핫 표현보다 훨씬 간결합니다.

희소 벡터

#fundamentals

값이 대부분 0인 벡터입니다. 희소 특성희소성도 참고하세요.

희소성

벡터 또는 행렬에서 0 또는 null로 설정된 요소의 수를 해당 벡터 또는 행렬의 총 항목 수로 나눈 값입니다. 예를 들어 98개의 셀에 0이 포함된 100개의 원소 행렬이 있다고 가정해 보겠습니다. 희소성은 다음과 같이 계산됩니다.

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

특성 희소성은 특성 벡터의 희소성을 나타내고 모델 희소성은 모델 가중치의 희소성을 의미합니다.

공간 풀링

#image

풀링을 참조하세요.

분할

#df

결정 트리에서 조건의 다른 이름입니다.

스플리터

#df

결정 트리를 학습시키는 동안 각 노드에서 최상의 조건을 찾는 루틴(및 알고리즘)

SPMD : 서비스 메모리 개발 플랫폼

단일 프로그램 / 다중 데이터의 약어입니다.

제곱 힌지 손실

힌지 손실의 제곱입니다. 제곱 힌지 손실은 일반 힌지 손실보다 이상점에 더 강한 페널티를 적용합니다.

제곱 손실

#fundamentals

L2 손실의 동의어입니다.

단계별 학습

#language

일련의 불연속 단계로 모델을 학습시키는 전략입니다. 목표는 학습 프로세스의 속도를 높이거나 모델 품질을 개선하는 것일 수 있습니다.

다음은 점진적인 스택 방식을 보여주는 예입니다.

  • 1단계에는 3개의 히든 레이어가 있고 2단계에는 6개의 히든 레이어가 있으며 3단계에는 12개의 히든 레이어가 있습니다.
  • 2단계는 1단계의 3개의 히든 레이어에서 학습된 가중치로 학습을 시작합니다. 3단계는 2단계의 6개의 히든 레이어에서 학습한 가중치로 학습을 시작합니다.

1단계, 2단계, 3단계로 구분되는 3단계입니다.
          각 스테이지에는 레이어 수가 다릅니다. 1단계에는 3개의 레이어, 2단계에는 6개의 레이어, 3단계에는 12개의 레이어가 있습니다.
          1단계의 3개 레이어가 2단계의 처음 3개 레이어가 됩니다.
          마찬가지로 2단계의 6개 레이어는 3단계의 처음 6개 레이어가 됩니다.

파이프라인도 참조하세요.

state

#rl

강화 학습에서 에이전트작업을 선택하는 데 사용하는 환경의 현재 구성을 설명하는 매개변수 값입니다.

상태 작업 값 함수

#rl

Q-함수의 동의어입니다.

정적

#fundamentals

지속해서가 아니라 한 번만 하면 되는 것이죠. 정적오프라인은 동의어입니다. 다음은 머신러닝에서 정적오프라인의 일반적인 용도입니다.

  • 정적 모델 (또는 오프라인 모델)은 한 번 학습시킨 후 일정 시간 동안 사용되는 모델입니다.
  • 정적 학습 (또는 오프라인 학습)은 정적 모델을 학습시키는 프로세스입니다.
  • 정적 추론 (또는 오프라인 추론)은 모델이 한 번에 예측을 일괄 생성하는 프로세스입니다.

동적과 대비되는 개념입니다.

정적 추론

#fundamentals

오프라인 추론의 동의어입니다.

정상성

#fundamentals

하나 이상의 측정기준에 걸쳐 값이 변경되지 않는 특성(일반적으로 시간)입니다. 예를 들어 2021년과 2023년에 값이 거의 동일한 특성은 정상성을 나타냅니다.

실제로 정상성을 보이는 특성은 거의 없습니다. 안정성 (예: 해수면)과 동의어인 특성도 시간이 지남에 따라 변화합니다.

비정상성과 대비되는 개념입니다.

단계

하나의 배치의 정방향 패스 및 역방향 패스입니다.

정방향 전달 및 역방향 전달에 관한 자세한 내용은 역전파를 참고하세요.

보폭

학습률의 동의어입니다.

확률적 경사하강법 (SGD)

#fundamentals

배치 크기가 1인 경사하강법 알고리즘입니다. 즉, SGD는 학습 세트에서 무작위로 균일하게 선택한 하나의 예를 기반으로 학습합니다.

스트라이드

#image

컨볼루셔널 연산이나 풀링에서 다음 일련의 입력 슬라이스 중 각 차원의 델타입니다. 예를 들어 다음 애니메이션은 컨볼루셔널 연산 중 (1,1) 스트라이드를 보여줍니다. 따라서 다음 입력 슬라이스는 이전 입력 슬라이스의 오른쪽 한 위치에서 시작합니다. 작업이 오른쪽 가장자리에 도달하면 다음 슬라이스는 한 단계 아래 왼쪽 끝입니다.

입력 5x5 행렬과 3x3 컨볼루셔널 필터 스트라이드가 (1,1)이므로 컨볼루셔널 필터가 9번 적용됩니다. 첫 번째 컨볼루셔널 슬라이스는 입력 행렬의 왼쪽 상단 3x3 하위행렬을 평가합니다. 두 번째 슬라이스는 상단 중간의 3x3 하위행렬을
     평가합니다. 세 번째 컨볼루셔널 슬라이스는 오른쪽 상단 3x3 하위행렬을
     평가합니다.  네 번째 슬라이스는 왼쪽 중간의 3x3 하위행렬을 평가합니다.
     다섯 번째 슬라이스는 중간 3x3 하위행렬을 평가합니다. 여섯 번째 슬라이스는 오른쪽 중간의 3x3 하위행렬을 평가합니다. 일곱 번째 슬라이스는 왼쪽 하단의 3x3 하위 행렬을 평가합니다.  8번째 슬라이스는 중간의 맨 아래 3x3 하위행렬을 평가합니다. 아홉 번째 슬라이스는 오른쪽 하단 3x3 서브행렬을 평가합니다.

앞의 예는 2차원 스트라이드를 보여줍니다. 입력 행렬이 3차원인 경우 스트라이드도 3차원이 됩니다.

구조적 위험 최소화 (SRM)

두 가지 목표를 균형 있게 조정하는 알고리즘:

  • 예측이 가장 우수한 모델을 빌드해야 할 필요성 (예: 최소 손실)
  • 모델을 최대한 단순하게 유지해야 할 필요성 (예: 강력한 정규화)

예를 들어 손실을 최소화하면서 학습 세트에 정규화를 적용하는 함수는 구조적 위험 최소화 알고리즘입니다.

경험적 위험 최소화와 대비되는 개념입니다.

서브샘플링

#image

풀링을 참조하세요.

하위 단어 토큰

#language

언어 모델에서 단어의 하위 문자열인 토큰은 전체 단어일 수 있습니다.

예를 들어 'itemize'와 같은 단어는 'item'(루트 단어)과 'ize' (접미사)의 조각으로 나눌 수 있으며, 각각은 자체 토큰으로 표현됩니다. 일반적이지 않은 단어를 하위 단어라고 하는 이러한 조각으로 분할하면 언어 모델이 접두사 및 접미사와 같은 단어의 보다 일반적인 구성 부분에 작동할 수 있습니다.

반대로 'going'과 같은 일반적인 단어는 분리되지 않고 단일 토큰으로 표시될 수 있습니다.

요약

#TensorFlow

TensorFlow에서는 특정 단계에 계산된 값 또는 값 집합을 의미하며, 일반적으로 학습 중에 모델 측정항목을 추적하는 데 사용됩니다.

지도 머신러닝

#fundamentals

model 및 해당 model에서 model을 학습시킵니다. 지도 머신러닝은 일련의 질문과 답변을 연구하여 주제를 학습하는 것과 비슷합니다. 질문과 답변 간의 매핑을 마스터하고 나면 학생은 동일한 주제에 대해 이전에 본 적이 없는 새로운 질문에 대한 답변을 제공할 수 있습니다.

비지도 머신러닝과 비교되는 개념입니다.

합성 특성

#fundamentals

입력 특성 중에는 없지만 하나 이상의 입력 특성으로부터 조합되는 특성입니다. 합성 특성을 만드는 메서드에는 다음이 포함됩니다.

  • 연속 특성을 범위 빈으로 버케팅합니다.
  • 특성 교차를 생성합니다.
  • 하나의 특성 값에 다른 특성 값이나 자체 특성 값을 곱하거나 나눕니다. 예를 들어 ab가 입력 특성인 경우 다음은 합성 특성의 예입니다.
    • ab
    • a2
  • 특성 값에 초월 함수를 적용합니다. 예를 들어 c가 입력 특성인 경우 다음은 합성 특성의 예입니다.
    • sin(c)
    • ln(c)

단독으로 정규화 또는 조정한 특성은 합성 특성으로 간주되지 않습니다.

T

T5

#language

2020년 Google AI에서 도입한 텍스트 간 전이 학습 모델. T5는 매우 큰 데이터 세트로 학습된 Transformer 아키텍처를 기반으로 하는 인코더-디코더 모델입니다. 이는 텍스트 생성, 언어 번역, 대화형 방식으로 질문에 답변하는 등 다양한 자연어 처리 작업에 효과적입니다.

T5는 '텍스트 간 전송 Transformer'에 있는 5개의 T에서 이름을 따왔습니다.

T5X

#language

대규모 자연어 처리(NLP) 모델을 빌드하고 학습하도록 설계된 오픈소스 머신러닝 프레임워크입니다. T5는 T5X 코드베이스 (JAXFlax 기반)에서 구현됩니다.

테이블 형식 Q-learning

#rl

강화 학습에서는 상태액션의 모든 조합에 대한 Q 함수를 저장하는 테이블을 사용하여 Q-러닝을 구현합니다.

대상

라벨의 동의어입니다.

타겟 네트워크

#rl

딥 Q-러닝에서는 주 신경망이 Q 함수 또는 정책을 구현하는 주 신경망의 안정적인 근사값인 신경망입니다. 그런 다음 타겟 네트워크에서 예측한 Q-값을 사용하여 기본 네트워크를 학습시킬 수 있습니다. 따라서 기본 네트워크가 자체적으로 예측된 Q-값으로 학습시킬 때 발생하는 피드백 루프를 방지합니다. 이 피드백을 피하면 학습 안정성이 향상됩니다.

태스크

머신러닝 기술을 사용하여 다음과 같은 문제를 해결할 수 있습니다.

기온

#language
#image
#생성형AI

모델 출력의 무작위성 수준을 제어하는 초매개변수 온도가 높을수록 무작위 출력이 더 많은 반면 온도가 낮을수록 임의 출력이 줄어듭니다.

최적의 온도를 선택하는 방법은 특정 애플리케이션 및 모델 출력의 기본 특성에 따라 달라집니다. 예를 들어 창의적인 결과물을 생성하는 애플리케이션을 만들 때 온도를 높일 수 있습니다. 반대로 모델의 정확성과 일관성을 향상시키기 위해 이미지 또는 텍스트를 분류하는 모델을 빌드할 때는 온도를 낮추는 것이 좋습니다.

온도는 주로 소프트맥스와 함께 사용됩니다.

시간적 데이터

서로 다른 시점에 기록된 데이터입니다. 예를 들어 겨울 코트 매출액을 날짜별로 기록한 것은 시간적 데이터입니다.

텐서

#TensorFlow

TensorFlow 프로그램의 기본 데이터 구조입니다. 텐서는 N차원(여기서 N은 매우 클 수 있음) 데이터 구조로, 가장 일반적으로 스칼라, 벡터 또는 행렬입니다. 텐서의 요소는 정수, 부동 소수점, 문자열 값을 포함할 수 있습니다.

TensorBoard

#TensorFlow

하나 이상의 TensorFlow 프로그램을 실행하는 중에 저장된 요약을 표시하는 대시보드입니다.

TensorFlow

#TensorFlow

대규모 분산형 머신러닝 플랫폼입니다. 이 용어는 Dataflow 그래프에 대한 일반적인 계산을 지원하는 TensorFlow 스택의 기본 API 레이어를 나타내기도 합니다.

TensorFlow는 주로 머신러닝에 사용되지만, Dataflow 그래프를 사용한 수치 연산이 필요한 ML 이외의 작업에도 TensorFlow를 사용할 수 있습니다.

TensorFlow Playground

#TensorFlow

다양한 초매개변수가 모델(주로 신경망) 학습에 미치는 영향을 시각화한 프로그램입니다. TensorFlow Playground로 실험해 보려면 http://playground.tensorflow.org로 이동하세요.

TensorFlow Serving

#TensorFlow

학습된 모델을 프로덕션에 배포하기 위한 플랫폼

Tensor Processing Unit(TPU)

#TensorFlow
#GoogleCloud

머신러닝 워크로드의 성능을 최적화하는 ASIC (Application-Specific Integrated Circuit)입니다. 이러한 ASIC는 TPU 기기에 여러 TPU 칩으로 배포됩니다.

텐서 차수

#TensorFlow

순위 (텐서)를 참조하세요.

텐서 형태

#TensorFlow

텐서가 다양한 차원에서 포함하는 요소의 수입니다. 예를 들어 [5, 10] 텐서의 형태는 한 차원에서 5, 다른 차원에서 10입니다.

텐서 크기

#TensorFlow

텐서가 포함하는 스칼라의 총 개수입니다. 예를 들어 [5, 10] 텐서의 크기는 50입니다.

TensorStore

대규모 다차원 배열을 효율적으로 읽고 쓰기 위한 라이브러리

종료 조건

#rl

강화 학습에서 에피소드가 종료되는 시점을 결정하는 조건(예: 에이전트가 특정 상태에 도달하거나 상태 전환의 임계값 수를 초과할 때)입니다. 예를 들어 tic-tac-toe (noughts 및 crosses라고도 함)에서는 플레이어가 공백 3개를 연속으로 표시하거나 모든 공백이 표시되면 에피소드가 종료됩니다.

테스트

#df

결정 트리에서 조건의 다른 이름입니다.

테스트 손실

#fundamentals

테스트 세트에 대한 모델의 손실을 나타내는 측정항목입니다. model을 빌드할 때 일반적으로 테스트 손실을 최소화하려고 합니다. 낮은 테스트 손실이 낮은 학습 손실 또는 낮은 검증 손실보다 더 강력한 품질 신호이기 때문입니다.

테스트 손실과 학습 손실 또는 검증 손실 사이에 큰 차이가 있으면 정규화율을 높여야 한다고 제안하는 경우가 있습니다.

테스트 세트

학습된 모델을 테스트하기 위해 예약된 데이터 세트의 하위 집합입니다.

일반적으로 데이터 세트의 예를 다음과 같은 3가지 하위 집합으로 나눕니다.

데이터 세트의 각 예는 앞의 하위 집합 중 하나에만 속해야 합니다. 예를 들어 하나의 예가 학습 세트와 테스트 세트 모두에 속해서는 안 됩니다.

학습 세트와 검증 세트는 모두 모델 학습과 밀접한 관련이 있습니다. 테스트 세트는 학습과 간접적으로만 연결되므로 테스트 손실학습 손실 또는 검증 손실보다 덜 편향된 고품질 측정항목입니다.

텍스트 범위

#language

텍스트 문자열의 특정 하위 섹션과 연결된 배열 색인 스팬입니다. 예를 들어 Python 문자열 s="Be good now"의 단어 good은 3부터 6까지의 텍스트 범위를 사용합니다.

tf.Example

#TensorFlow

머신러닝 모델 학습 또는 추론을 위한 입력 데이터를 설명하는 표준 프로토콜 버퍼입니다.

tf.keras

#TensorFlow

TensorFlow에 통합된 Keras 구현입니다.

임곗값 (결정 트리용)

#df

축 정렬 조건에서 특성이 비교되는 값입니다. 예를 들어 다음 조건에서는 75가 임곗값입니다.

grade >= 75

시계열 분석

#clustering

머신러닝 및 통계에서 시간적 데이터를 분석하는 하위 분야입니다. 분류, 클러스터링, 예측, 이상 감지를 비롯한 다양한 유형의 머신러닝 문제에는 시계열 분석이 필요합니다. 예를 들어 시계열 분석을 사용하여 과거 판매 데이터를 기반으로 겨울 코트의 향후 월별 매출을 예측할 수 있습니다.

시간 단계

#seq

순환 신경망 내의 '언롤' 셀 1개. 예를 들어 다음 그림은 세 개의 시간 단계 (아래 첨자 t-1, t, t+1로 라벨이 지정됨)를 보여줍니다.

순환 신경망의 세 가지 시간 단계. 첫 번째 시간 단계의 출력은 두 번째 시간 단계의 입력이 됩니다. 두 번째 시간 단계의 출력은 세 번째 시간 단계의 입력이 됩니다.

토큰

#language

언어 모델에서 모델이 학습하고 예측하는 원자 단위입니다. 토큰은 일반적으로 다음 중 하나입니다.

  • 단어. 예를 들어 'dogs like cats'라는 문구는 'dogs', 'like', 'cats'의 세 가지 단어 토큰으로 구성됩니다.
  • 문자. 예를 들어 'bike fish'라는 문구는 9자 토큰으로 구성됩니다. 공백은 토큰 중 하나로 계산됩니다.
  • 하위 단어—한 단어가 단일 토큰 또는 여러 토큰일 수 있습니다. 하위 단어는 어근, 접두사 또는 접미사로 구성됩니다. 예를 들어 하위 단어를 토큰으로 사용하는 언어 모델은 'dogs'라는 단어를 두 개의 토큰 (루트 단어 'dog'와 복수형 접미사 's')으로 볼 수 있습니다. 동일한 언어 모델은 한 단어 'taller'를 두 개의 하위 단어 (루트 단어 'tall'과 접미사 'er')로 볼 수 있습니다.

언어 모델 외부의 도메인에서 토큰은 다른 종류의 원자 단위를 나타낼 수 있습니다. 예를 들어 컴퓨터 비전에서 토큰은 이미지의 하위 집합일 수 있습니다.

그 자체로 심층신경망인 심층신경망의 구성요소입니다. 각 타워는 독립 데이터 소스에서 읽기가 가능하며, 이러한 타워는 출력이 최종 레이어에 결합될 때까지 독립적으로 유지됩니다. 다른 경우(예: 여러 Transformer인코더디코더 스택/타워) 타워는 서로 교차 연결됩니다.

TPU

#TensorFlow
#GoogleCloud

Tensor Processing Unit의 약어입니다.

TPU 칩

#TensorFlow
#GoogleCloud

머신러닝 워크로드에 최적화된 온칩 고대역폭 메모리를 갖춘 프로그래밍 가능한 선형 대수학 가속기입니다. 여러 TPU 칩이 TPU 기기에 배포됩니다.

TPU 기기

#TensorFlow
#GoogleCloud

여러 TPU 칩, 고대역폭 네트워크 인터페이스, 시스템 냉각 하드웨어가 포함된 인쇄 회로 기판 (PCB)

TPU 마스터

#TensorFlow
#GoogleCloud

데이터, 결과, 프로그램, 성능, 시스템 상태 정보를 TPU 작업자와 주고받는 호스트 머신에서 실행되는 중앙 조정 프로세스입니다. TPU 마스터는 또한 TPU 기기의 설정 및 종료를 관리합니다.

TPU 노드

#TensorFlow
#GoogleCloud

특정 TPU 유형을 사용하는 Google Cloud의 TPU 리소스 TPU 노드는 피어 VPC 네트워크에서 VPC 네트워크에 연결됩니다. TPU 노드는 Cloud TPU API에 정의된 리소스입니다.

TPU Pod

#TensorFlow
#GoogleCloud

Google 데이터 센터에 있는 TPU 기기의 특정 구성입니다. TPU Pod의 모든 기기는 전용 고속 네트워크를 통해 서로 연결됩니다. TPU Pod는 특정 TPU 버전에 사용할 수 있는 TPU 기기의 최대 구성입니다.

TPU 리소스

#TensorFlow
#GoogleCloud

사용자가 만들거나 관리하거나 사용하는 Google Cloud의 TPU 항목입니다. 예를 들어 TPU 노드TPU 유형은 TPU 리소스입니다.

TPU 슬라이스

#TensorFlow
#GoogleCloud

TPU 슬라이스는 TPU Pod에 있는 TPU 기기의 일부분입니다. TPU 슬라이스의 모든 기기는 전용 고속 네트워크를 통해 서로 연결됩니다.

TPU 유형

#TensorFlow
#GoogleCloud

특정 TPU 하드웨어 버전이 있는 하나 이상의 TPU 기기 구성입니다. Google Cloud에서 TPU 노드를 만들 때 TPU 유형을 선택합니다. 예를 들어 v2-8 TPU 유형은 코어가 8개인 단일 TPU v2 기기입니다. v3-2048 TPU 유형에는 256개의 네트워킹된 TPU v3 기기와 총 2,048개의 코어가 있습니다. TPU 유형은 Cloud TPU API에 정의된 리소스입니다.

TPU 워커

#TensorFlow
#GoogleCloud

호스트 머신에서 실행되고 TPU 기기에서 머신러닝 프로그램을 실행하는 프로세스입니다.

학습

#fundamentals

모델을 구성하는 이상적인 매개변수 (가중치 및 편향)를 결정하는 과정입니다. 학습 중에 시스템은 예시를 읽고 점진적으로 매개변수를 조정합니다. 학습은 각 예를 몇 번에서 수십억 번까지 사용합니다.

학습 손실

#fundamentals

특정 학습 반복 중 모델의 손실을 나타내는 측정항목입니다. 예를 들어 손실 함수가 평균 제곱 오차라고 가정해 보겠습니다. 10번째 반복의 학습 손실 (평균 제곱 오차)은 2.2이고, 100번째 반복의 학습 손실은 1.9일 수 있습니다.

손실 곡선은 학습 손실과 반복 횟수를 비교하여 표시합니다. 손실 곡선은 학습에 관한 다음과 같은 힌트를 제공합니다.

  • 하향 경사는 모델이 개선되고 있음을 의미합니다.
  • 경사가 상승하면 모델이 점점 나빠지고 있음을 의미합니다.
  • 평평한 기울기는 모델이 수렴에 도달했음을 의미합니다.

예를 들어 다소 이상화된 다음 손실 곡선은 다음과 같습니다.

  • 초기 반복이 가파른 하향 경사를 이루므로 모델이 빠르게 개선됨을 의미합니다.
  • 학습 종료에 가까워질 때까지 점진적으로 평탄화 (하지만 여전히 하향적인) 경사로, 초기 반복 중보다 느린 속도로 모델이 지속적으로 개선됨을 의미합니다.
  • 학습 완료로 가면서 기울기가 수평으로 이어지며 수렴을 나타냅니다.

학습 손실과 반복 비교 도표 이 손실 곡선은 급격한 하강 경사에서 시작됩니다. 경사는 기울기가 0이 될 때까지 점진적으로 평탄화됩니다.

학습 손실도 중요하지만 일반화도 참조하세요.

학습-제공 편향

#fundamentals

학습 중의 모델 성능과 서빙 시의 동일 모델 성능 간의 차이입니다.

학습 세트

#fundamentals

모델을 학습시키는 데 사용되는 데이터 세트의 하위 집합입니다.

기본적으로 데이터 세트의 예는 다음과 같은 3가지 하위 집합으로 나뉩니다.

이상적으로는 데이터 세트의 각 예는 앞의 하위 집합 중 하나에만 속해야 합니다. 예를 들어 하나의 예가 학습 세트와 검증 세트 모두에 속해서는 안 됩니다.

궤적

#rl

강화 학습에서 에이전트상태 전환 시퀀스를 나타내는 튜플의 시퀀스입니다. 여기서 각 튜플은 주어진 상태 전환의 상태, 액션, 보상, 다음 상태에 해당합니다.

전이 학습

머신러닝 태스크 간에 정보 전송 예를 들어 멀티태스크 학습에서 단일 모델은 태스크마다 다른 출력 노드를 갖는 심층 모델과 같이 여러 태스크를 해결합니다. 전이 학습에는 더 간단한 작업의 솔루션에서 더 복잡한 작업으로 지식을 전달하거나, 데이터가 더 많은 작업에서 데이터가 더 적은 작업으로 지식을 이전하는 작업이 포함될 수 있습니다.

대부분의 머신러닝 시스템은 단일 작업을 해결합니다. 전이 학습은 하나의 프로그램으로 여러 작업을 해결할 수 있는 인공지능 개발의 초석이 됩니다.

Transformer

#language

Google에서 개발한 신경망 아키텍처로, 셀프 어텐션 메커니즘에 의존하여 컨볼루션이나 순환 신경망에 의존하지 않고 일련의 입력 임베딩을 출력 임베딩 시퀀스로 변환합니다. Transformer는 셀프 어텐션 레이어의 스택으로 보일 수 있습니다.

Transformer에는 다음이 포함될 수 있습니다.

인코더는 임베딩 시퀀스를 동일한 길이의 새로운 시퀀스로 변환합니다. 인코더에는 동일한 레이어 N개가 포함되며, 각 레이어에는 두 개의 하위 레이어가 포함됩니다. 이러한 두 하위 레이어는 입력 임베딩 시퀀스의 각 위치에 적용되어 시퀀스의 각 요소를 새로운 임베딩으로 변환합니다. 첫 번째 인코더 하위 레이어는 입력 시퀀스 전체에서 정보를 집계합니다. 두 번째 인코더 하위 레이어는 집계된 정보를 출력 임베딩으로 변환합니다.

디코더는 입력 임베딩 시퀀스를 길이가 다른 출력 임베딩 시퀀스로 변환합니다. 또한 디코더는 3개의 하위 계층을 가진 동일한 N개의 계층을 포함하며, 이 중 두 개는 인코더 하위 계층과 유사합니다. 세 번째 디코더 하위 레이어는 인코더의 출력을 가져와 셀프 어텐션 메커니즘을 적용하여 인코더에서 정보를 수집합니다.

Transformer: 언어 이해를 위한 새로운 신경망 아키텍처 블로그 게시물에서 트랜스포머를 효과적으로 소개합니다.

병진 불변

#image

이미지 분류 문제에서 알고리즘이 이미지 내 객체의 위치가 변하더라도 이미지를 분류해 낼 수 있는 능력을 의미합니다. 예를 들어 알고리즘은 강아지가 프레임의 중앙에 있든 왼쪽 끝에 있든 개를 식별할 수 있습니다.

크기 불변회전 불변도 참고하세요.

트라이그램

#seq
#language

N=3인 N-그램입니다.

참음성 (TN)

#fundamentals

모델에서 네거티브 클래스올바르게 예측하는 예입니다. 예를 들어 모델은 특정 이메일 메시지가 스팸이 아니며, 해당 이메일 메시지가 실제로는 스팸이 아님을 추론합니다.

참양성 (TP)

#fundamentals

모델이 포지티브 클래스올바르게 예측하는 예입니다. 예를 들어 모델은 특정 이메일 메시지가 스팸이고 해당 이메일 메시지가 실제로 스팸이라고 추론할 수 있습니다.

참양성률 (TPR)

#fundamentals

재현율의 동의어입니다. 이는 다음과 같은 의미입니다.

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

참양성률은 ROC 곡선의 y축입니다.

U

(민감한 속성에 대해)

#fairness

민감한 속성이 있지만 학습 데이터에는 포함되지 않는 상황입니다. 민감한 속성은 데이터의 다른 속성과 상관관계가 있는 경우가 많으므로 민감한 속성을 인식하지 못하는 상태로 학습된 모델은 해당 속성과 관련하여 상이한 영향을 미치거나 다른 공정성 제약 조건을 위반할 수 있습니다.

과소적합

#fundamentals

예측 기능이 낮은 model을 생성합니다. 모델이 학습 데이터의 복잡성을 완전히 캡처하지 못했기 때문입니다. 다음과 같은 여러 문제로 인해 과소적합이 발생할 수 있습니다.

언더샘플링

보다 균형 있는 학습 세트를 만들기 위해 클래스 불균형 데이터 세트대규모 클래스에서 예시를 삭제합니다.

예를 들어 다수 클래스의 소수 등급 비율이 20:1인 데이터 세트가 있다고 가정해 보겠습니다. 이러한 클래스 불균형을 극복하려면 소수 집단 예시 중 1/10의 대다수 클래스 예시로만 구성된 학습 세트를 만들면 학습 세트 클래스 비율이 2:1이 됩니다. 언더샘플링 덕분에 이러한 학습 세트가 더 균형 잡혀 있으면 더 나은 모델을 만들 수 있습니다 또는 균형이 더 잘 잡힌 이 학습 세트에는 효과적인 모델을 학습시키기에 예가 충분하지 않을 수 있습니다.

오버샘플링과 대비되는 개념입니다.

단방향

#language

텍스트의 타겟 섹션 앞에 있는 텍스트만 평가하는 시스템입니다. 반면에 양방향 시스템은 텍스트의 대상 섹션 뒤에 오는 텍스트를 모두 평가합니다. 자세한 내용은 양방향을 참고하세요.

단방향 언어 모델

#language

타겟 토큰 가 아니라 에 표시되는 토큰에만 확률을 계산하는 언어 모델입니다. 양방향 언어 모델과 대비되는 개념입니다.

라벨이 없는 예

#fundamentals

특성은 있지만 라벨은 없는 예. 예를 들어 다음 표에는 주택 평가 모델에서 라벨이 지정되지 않은 예 3개가 나와 있습니다. 각각의 특성은 3개이지만 주택 가격은 없습니다.

침실 수 욕실 수 주택 연식
3 2 15
2 1 72시간
4 2 34

지도 머신러닝에서 모델은 라벨이 있는 예를 학습하고 라벨이 없는 예를 기반으로 예측합니다.

준지도비지도 학습에서는 학습 중에 라벨이 없는 예가 사용됩니다.

라벨이 없는 예를 라벨이 있는 예와 대조합니다.

비지도 머신러닝

#clustering
#fundamentals

일반적으로 라벨이 없는 데이터 세트에서 패턴을 찾도록 model을 학습시킵니다.

비지도 머신러닝의 가장 일반적인 용도는 데이터를 유사한 예의 그룹으로 클러스터링하는 것입니다. 예를 들어 비지도 머신러닝 알고리즘은 음악의 다양한 속성을 기반으로 노래를 클러스터링할 수 있습니다. 결과 클러스터는 다른 머신러닝 알고리즘 (예: 음악 추천 서비스)의 입력이 될 수 있습니다. 클러스터링은 유용한 라벨이 드물거나 없는 경우에 유용합니다. 예를 들어 악용 방지 및 사기와 같은 분야에서 클러스터는 인간이 데이터를 더 잘 이해하는 데 도움이 될 수 있습니다.

지도 머신러닝과 대비되는 개념입니다.

증가 모델링

마케팅에서 일반적으로 사용되는 모델링 기법으로, '개인'에 대한 '처리'의 '인과 효과'('증분 영향'이라고도 함)를 모델링합니다. 다음은 두 가지 예입니다.

  • 의사는 증가 모델링을 사용하여 환자(개인)의 나이와 병력에 따라 의학적 시술 (치료)의 사망률 감소 (인과적 영향)를 예측할 수 있습니다.
  • 마케터는 상승 폭 모델링을 사용하여 개인 (개인)에 대한 광고(처리)로 인한 구매 가능성 증가 (인과적 효과)를 예측할 수 있습니다.

상승분 모델링은 일부 라벨 (예: 바이너리 처리에서 라벨의 절반)이 상승분 모델링에서 항상 누락된다는 점에서 분류 또는 회귀와 다릅니다. 예를 들어 환자는 치료를 받을 수도 있고 받지 않을 수도 있습니다. 따라서 이 두 가지 상황 중 하나에서 환자가 치유되는지만 관찰할 수 있지만 둘 다 관찰할 수는 없습니다. 증가 모델의 주요 장점은 관찰되지 않은 상황 (반사실적)에 대한 예측을 생성하고 이를 사용하여 인과 효과를 계산할 수 있다는 것입니다.

가중치 보정

다운샘플링된 요소와 동일한 다운샘플링된 클래스에 가중치를 적용합니다.

사용자 매트릭스

#recsystems

추천 시스템에서 행렬 분해에 의해 생성되는 임베딩 벡터는 사용자 환경설정에 대한 잠재 신호를 보유합니다. 사용자 행렬의 각 행에는 단일 사용자에 대한 다양한 잠재 신호의 상대적 강도에 대한 정보가 포함됩니다. 영화 추천 시스템을 예로 들어보겠습니다. 이 시스템에서 사용자 매트릭스의 잠재 신호는 특정 장르에 대한 각 사용자의 관심을 나타내거나 여러 요소에 걸친 복잡한 상호작용을 수반하는 해석하기 어려운 신호일 수 있습니다.

사용자 행렬에는 각 잠재 특성에 대한 열과 각 사용자에 대한 행이 있습니다. 즉, 사용자 행렬에는 인수분해되는 대상 행렬과 동일한 수의 행이 있습니다. 예를 들어 1,000,000명의 사용자를 위한 영화 추천 시스템의 경우 사용자 행렬은 1,000,000개의 행을 갖게 됩니다.

V

검증

#fundamentals

모델 품질의 초기 평가입니다. 검증은 모델의 예측 품질을 검증 세트와 비교하여 확인합니다.

검증 세트는 학습 세트와 다르기 때문에 검증을 통해 과적합을 방지할 수 있습니다.

검증 세트에 대해 모델을 평가하는 것을 1차 테스트로, 테스트 세트를 기준으로 모델을 평가하는 것을 2차 테스트로 생각할 수 있습니다.

검증 손실

#fundamentals

학습의 특정 반복 중에 발생한 검증 세트에서 모델의 손실을 나타내는 측정항목입니다.

일반화 곡선도 참고하세요.

검증 세트

#fundamentals

학습된 모델에 대해 초기 평가를 수행하는 데이터 세트의 하위 집합입니다. 일반적으로 테스트 세트로 모델을 평가하기 전에 학습된 모델을 검증 세트와 비교하여 여러 번 평가합니다.

일반적으로 데이터 세트의 예를 다음과 같이 고유한 세 가지 하위 집합으로 나눕니다.

이상적으로는 데이터 세트의 각 예는 앞의 하위 집합 중 하나에만 속해야 합니다. 예를 들어 하나의 예가 학습 세트와 검증 세트 모두에 속해서는 안 됩니다.

값 대치

누락된 값을 허용되는 대체 값으로 바꾸는 프로세스입니다. 누락된 값이 있으면 전체 예를 삭제하거나 값 대치를 사용하여 예제를 회수할 수 있습니다.

예를 들어 매시간 기록되는 temperature 특성이 포함된 데이터 세트가 있다고 가정해 보겠습니다. 특정 시간 동안 온도를 측정할 수 없었습니다. 다음은 데이터 세트의 섹션입니다.

타임스탬프 온도
1680561000 10
1680564600 12
1680568200 결측치
1680571800 20
1680575400 21
1680579000 21

시스템은 대치 알고리즘에 따라 누락된 예를 삭제하거나 누락된 온도를 12, 16, 18 또는 20으로 귀속할 수 있습니다.

경사 소실 문제

#seq

일부 심층신경망의 초기 히든 레이어 경사가 놀랍게 평평한 (낮음)되는 경향입니다. 경사가 점점 낮을수록 심층신경망의 노드 가중치 변화가 점점 작아지므로 학습이 거의 또는 전혀 전혀 이루어지지 않습니다. 경사 소실 문제가 있는 모델은 학습이 어렵거나 불가능해집니다. 장기 단기 메모리 셀에서 이 문제를 해결합니다.

경사 발산 문제와 비교해 보세요.

변수 중요도

#df

모델에 대한 각 특성의 상대적 중요도를 나타내는 점수 집합입니다.

예를 들어 주택 가격을 추정하는 결정 트리가 있다고 가정해 보겠습니다. 이 결정 트리에서 크기, 나이, 스타일의 세 가지 특성을 사용한다고 가정해 보겠습니다. 세 가지 특성의 변수 중요도 집합이 {size=5.8, age=2.5, style=4.7}로 계산되면 연령이나 스타일보다 크기가 결정 트리에 더 중요합니다.

다양한 중요도 측정항목이 존재하므로 ML 전문가에게 모델의 다양한 측면에 대한 정보를 제공할 수 있습니다

변이 자동 인코더 (VAE)

#language

입력과 출력 간의 불일치를 활용하여 수정된 버전의 입력을 생성하는 자동 인코더 유형입니다. 변이 자동 인코더는 생성형 AI에 유용합니다.

VAE는 확률 모델의 매개변수를 추정하는 기법인 변이 추론을 기반으로 합니다.

벡터

서로 다른 수학 및 과학 분야에 따라 의미가 다른 매우 과부하된 용어입니다. 머신러닝 내에서 벡터는 두 가지 속성을 갖습니다.

  • 데이터 유형: 머신러닝의 벡터는 일반적으로 부동 소수점 숫자를 보유합니다.
  • 요소 수: 벡터의 길이 또는 크기입니다.

예를 들어 8개의 부동 소수점 숫자를 포함하는 특성 벡터가 있다고 가정해 보겠습니다. 이 특성 벡터의 길이 또는 차원은 8입니다. 머신러닝 벡터는 많은 차원을 갖는 경우가 많습니다.

다양한 종류의 정보를 벡터로 나타낼 수 있습니다. 예를 들면 다음과 같습니다.

  • 지구 표면의 모든 위치는 2차원 벡터로 표현될 수 있습니다. 여기서 한 차원은 위도이고 다른 한 쪽은 경도입니다.
  • 500개 주식 각각의 현재 가격은 500차원 벡터로 표현할 수 있습니다.
  • 유한한 수의 클래스에 대한 확률 분포를 벡터로 표현할 수 있습니다. 예를 들어 세 가지 출력 색상 (빨간색, 녹색, 노란색) 중 하나를 예측하는 멀티클래스 분류 시스템은 P[red]=0.3, P[green]=0.2, P[yellow]=0.5를 의미하는 벡터 (0.3, 0.2, 0.5)를 출력할 수 있습니다.

벡터를 연결할 수 있으므로 다양한 미디어를 단일 벡터로 표현할 수 있습니다. 일부 모델은 여러 원-핫 인코딩을 직접 연결하여 작동합니다.

TPU와 같은 특수 프로세서는 벡터에서 수학 연산을 실행하도록 최적화되어 있습니다.

벡터는 순위 1의 텐서입니다.

W

바세르스타인 손실

생성된 데이터와 실제 데이터 분포 사이의 지구 이동자 거리를 기반으로 생성적 적대 신경망에서 일반적으로 사용되는 손실 함수 중 하나입니다.

weight

#fundamentals

모델이 다른 값과 곱하는 값입니다. 학습은 모델의 이상적인 가중치를 결정하는 프로세스입니다. 추론은 학습된 가중치를 사용하여 예측하는 프로세스입니다.

Weighted Alternating Least Squares (WALS)

#recsystems

추천 시스템행렬 분해 중에 목적 함수를 최소화하는 알고리즘으로, 누락된 예의 가중치를 낮출 수 있습니다. WALS는 행 인수분해와 열 인수분해를 번갈아 가며 사용하여 원본 행렬과 재구성 사이의 가중 제곱 오차를 최소화합니다. 최소 제곱 볼록 최적화를 통해 각 최적화를 해결할 수 있습니다. 자세한 내용은 추천 시스템 과정을 참고하세요.

가중치가 적용된 합계

#fundamentals

관련된 모든 입력 값의 합계에 해당 가중치를 곱한 값입니다. 예를 들어 관련 입력이 다음과 같이 구성되어 있다고 가정해 보겠습니다.

입력 값 입력 가중치
2 1.3 감소
-1 0.6
3 0.4

따라서 가중치가 적용된 합계는 다음과 같습니다.

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

가중치가 적용된 합계는 활성화 함수의 입력 인수입니다.

와이드 모델

일반적으로 많은 희소 입력 특성을 갖는 선형 모델입니다. 이러한 모델은 출력 노드에 직접 연결되는 다수의 입력을 갖는 특수한 유형의 신경망이므로 '와이드'라고 합니다. 와이드 모델은 심층 모델보다 디버그 및 검사하기가 더 쉬운 경우가 많습니다. 와이드 모델은 히든 레이어를 통해 비선형성을 표현할 수 없지만 와이드 모델은 특성 교차버킷화와 같은 변환을 사용하여 다양한 방식으로 비선형성을 모델링할 수 있습니다.

심층 모델과 대비되는 개념입니다.

너비

신경망의 특정 레이어에 있는 뉴런의 수입니다.

군중의 지혜

#df

대규모 집단 ('군중')의 의견이나 추정치를 평균하면 놀라울 정도로 좋은 결과를 얻는 경우가 많습니다. 예를 들어 커다란 병에 담긴 젤리빈의 수를 추측하는 게임을 생각해 보세요. 대부분의 개별 추측은 정확하지 않을 수 있지만, 모든 추측의 평균은 놀랍게도 항아리 속의 실제 젤리빈 수에 가까운 것으로 경험적으로 드러났습니다.

앙상블(Ensembles)은 대중의 지혜를 나타내는 소프트웨어 아날로그입니다. 개별 모델이 매우 부정확한 예측을 하더라도 많은 모델의 예측을 평균하면 놀라울 정도로 우수한 예측이 생성되는 경우가 많습니다. 예를 들어 개별 결정 트리는 잘못된 예측을 할 수 있지만 결정 포레스트는 매우 우수한 예측을 하는 경우가 많습니다.

단어 임베딩

#language

임베딩 벡터 내 단어 집합의 각 단어를 표현합니다. 즉, 각 단어를 0.0~1.0 사이의 부동 소수점 값 벡터로 표현합니다. 의미가 비슷한 단어는 의미가 다른 단어보다 더 비슷한 의미를 지닙니다. 예를 들어 당근, 셀러리, 오이는 모두 상대적으로 유사하게 표현되어 비행기, 선글라스, 치약과는 매우 다릅니다.

X

XLA (가속 선형 대수)

GPU, CPU, ML 가속기용 오픈소스 머신러닝 컴파일러입니다.

XLA 컴파일러는 PyTorch, TensorFlow, JAX와 같이 널리 사용되는 ML 프레임워크에서 모델을 가져와 GPU, CPU, ML 가속기를 포함한 다양한 하드웨어 플랫폼에서 고성능 실행을 위해 모델을 최적화합니다.

Z

제로샷 학습

모델이 아직 학습하지 않은 작업에 대해 예측을 추론하는 머신러닝 학습 유형입니다. 즉, 모델에 작업별 학습 가 제공되지 않지만 해당 작업에 대해 추론을 요청받게 됩니다.

제로샷 프롬프팅

#language
#생성형AI

대규모 언어 모델의 응답 방식에 대한 예시를 제공하지 않는 프롬프트 예를 들면 다음과 같습니다.

프롬프트 하나에 포함되는 요소 Notes
지정된 국가의 공식 통화는 무엇인가요? LLM이 답변하기를 원하는 질문입니다.
인도: 실제 쿼리입니다.

대규모 언어 모델은 다음 중 하나로 응답할 수 있습니다.

  • 루피 기호
  • INR
  • 인도 루피
  • 루피
  • 인도 루피

모두 정답입니다. 특정 형식을 선호할 수도 있습니다.

제로샷 프롬프팅을 다음 용어와 비교 및 대조하세요.

Z-점수 정규화

#fundamentals

원시 특성 값을 해당 특성 평균으로부터의 표준 편차 수를 나타내는 부동 소수점 값으로 바꾸는 조정 기법입니다. 예를 들어 평균이 800이고 표준 편차가 100인 특성이 있다고 가정해 보겠습니다. 다음 표는 Z-점수 정규화를 통해 원시 값을 Z-점수에 매핑하는 방법을 보여줍니다.

원본 값 Z-점수
800 0
950 +1.5
575 -2.25리라

그러면 머신러닝 모델은 원시 값이 아닌 해당 특성의 Z-점수를 기준으로 학습합니다.