이 페이지는 Cloud Translation API를 통해 번역되었습니다.

LLM: 대규모 언어 모델이란 무엇인가요?

최신 기술인 대규모 언어 모델 (LLM)은 토큰 또는 토큰 시퀀스를 예측하며, 때로는 여러 단락에 해당하는 예측 토큰을 예측하기도 합니다. 토큰은 단어, 하위 단어 (단어의 하위 집합), 단일 문자일 수 있습니다. LLM은 다음과 같은 이유로 N-gram 언어 모델이나 순환 신경망보다 훨씬 더 나은 예측을 수행합니다.

LLM에는 순환 모델보다 훨씬 많은 매개변수가 포함되어 있습니다.
LLM은 훨씬 더 많은 컨텍스트를 수집합니다.

이 섹션에서는 LLM을 빌드하는 데 가장 성공적이고 널리 사용되는 아키텍처인 트랜스포머를 소개합니다.

트랜스포머란 무엇인가요?

트랜스포머는 번역과 같은 다양한 언어 모델 애플리케이션을 위한 최신 아키텍처입니다.

그림 1. 입력은 '나는 착한 강아지야'입니다. 트랜스포머 기반 번역기는 이 입력을 출력인 Je suis un bon chien으로 변환합니다. 이는 동일한 문장을 프랑스어로 번역한 것입니다. — **그림 1.** 영어를 프랑스어로 번역하는 트랜스포머 기반 애플리케이션

전체 트랜스포머는 인코더와 디코더로 구성됩니다.

인코더는 입력 텍스트를 중간 표현으로 변환합니다. 인코더는 거대한 신경망입니다.
디코더는 중간 표현을 유용한 텍스트로 변환합니다. 디코더도 거대한 신경망입니다.

예를 들어 번역기에서 다음과 같이 사용할 수 있습니다.

인코더는 입력 텍스트 (예: 영어 문장)를 중간 표현으로 처리합니다.
디코더는 중간 표현을 출력 텍스트 (예: 이에 상응하는 프랑스어 문장)로 변환합니다.

그림 2. 트랜스포머 기반 번역기는 영어 문장의 중간 표현을 생성하는 인코더로 시작합니다. 디코더는 중간 표현을 프랑스어 출력 문장으로 변환합니다. — **그림 2.** 전체 트랜스포머에는 인코더와 디코더가 모두 포함됩니다.

아이콘을 클릭하여 부분 트랜스포머에 대해 자세히 알아보세요.

이 모듈에서는 인코더와 디코더가 모두 포함된 전체 트랜스포머에 중점을 둡니다. 하지만 인코더 전용 및 디코더 전용 아키텍처도 있습니다.

인코더 전용 아키텍처는 입력 텍스트를 중간 표현 (임베딩 레이어인 경우가 많음)으로 매핑합니다. 인코더 전용 아키텍처의 사용 사례는 다음과 같습니다.
- 입력 시퀀스의 토큰을 예측합니다 (언어 모델의 일반적인 역할).
- 분류기와 같은 다른 시스템의 입력으로 사용할 수 있는 정교한 임베딩을 만듭니다.
디코더 전용 아키텍처는 이미 생성된 텍스트에서 새 토큰을 생성합니다. 디코더 전용 모델은 일반적으로 시퀀스 생성에 탁월합니다. 최신 디코더 전용 모델은 생성 기능을 사용하여 대화 기록 및 기타 프롬프트의 연속을 만들 수 있습니다.

셀프 어텐션이란 무엇인가요?

컨텍스트를 강화하기 위해 트랜스포머는 셀프 어텐션이라는 개념에 크게 의존합니다. 효과적으로, 입력의 각 토큰을 대신하여 셀프 어텐션은 다음 질문을 합니다.

'입력의 다른 토큰이 이 토큰의 해석에 얼마나 영향을 미치나요?'

'자체 주목'의 '자체'는 입력 시퀀스를 나타냅니다. 일부 어텐션 메커니즘은 입력 토큰과 출력 시퀀스(예: 번역)의 토큰 또는 다른 시퀀스의 토큰 간의 관계에 가중치를 부여합니다. 하지만 self-attention은 입력 시퀀스에서 토큰 간 관계의 중요도만 가중치를 부여합니다.

간단하게 하기 위해 각 토큰이 단어이고 전체 컨텍스트는 단일 문장이라고 가정합니다. 다음 문장을 생각해 보세요.

The animal didn't cross the street because it was too tired.

위 문장에는 11개의 단어가 포함되어 있습니다. 11개의 단어 각각은 다른 10개의 단어에 주의를 기울이며 각 단어가 자신에게 얼마나 중요한지 궁금해합니다. 예를 들어 문장에 대명사 it이 포함되어 있습니다. 대명사는 모호한 경우가 많습니다. 대명사 it은 일반적으로 최근 명사 또는 명사구를 가리키지만, 예시 문장에서 it은 어떤 최근 명사를 가리키나요? 동물인가요, 아니면 거리인가요?

셀프 어텐션 메커니즘은 it이라는 대명사와 각 주변 단어 간의 관련성을 결정합니다. 그림 3은 결과를 보여줍니다. 선이 파란색에 가까울수록 해당 단어가 대명사 it에 더 중요합니다. 즉, 동물이 거리보다 대명사 그것에 더 중요합니다.

그림 3. 문장 'The animal didn't cross the street because it was too tired'에 있는 11개 단어 각각의 관련성을 대명사 'it'에 대해 나타냅니다. '동물'이라는 단어가 '그것'이라는 대명사와 가장 관련이 있습니다. — **그림 3.** 대명사 it의 셀프 어텐션 Transformer: A Novel Neural Network Architecture for Language Understanding에서 발췌

반대로 문장의 마지막 단어가 다음과 같이 변경된다고 가정해 보겠습니다.

The animal didn't cross the street because it was too wide.

이 수정된 문장에서 셀프 어텐션은 대명사 it에 대해 animal보다 street이 더 관련성이 높다고 평가할 것입니다.

일부 셀프 어텐션 메커니즘은 양방향입니다. 즉, 어텐션이 적용되는 단어의 앞에 오는 토큰과 뒤에 오는 토큰의 관련성 점수를 계산합니다. 예를 들어 그림 3에서 it의 양쪽 단어가 검사됩니다. 따라서 양방향 자체 주의 메커니즘은 주의를 기울이는 단어의 양쪽 단어에서 맥락을 수집할 수 있습니다. 반면 단방향 자체 주목 메커니즘은 주목하는 단어의 한쪽 단어에서만 맥락을 수집할 수 있습니다. 양방향 자체 주목은 전체 시퀀스의 표현을 생성하는 데 특히 유용하며, 토큰별로 시퀀스를 생성하는 애플리케이션에는 단방향 자체 주목이 필요합니다. 이러한 이유로 인코더는 양방향 자체 주목을 사용하는 반면 디코더는 단방향을 사용합니다.

멀티 헤드 멀티 레이어 셀프 어텐션이란 무엇인가요?

각 셀프 어텐션 레이어는 일반적으로 여러 셀프 어텐션 헤드로 구성됩니다. 레이어의 출력은 다양한 헤드의 출력에 대한 수학 연산 (예: 가중 평균 또는 내적)입니다.

각 헤드의 매개변수는 무작위 값으로 초기화되므로 서로 다른 헤드는 주의를 기울이는 각 단어와 주변 단어 간의 서로 다른 관계를 학습할 수 있습니다. 예를 들어 이전 섹션에 설명된 셀프 어텐션 헤드는 대명사 it이 가리키는 명사를 결정하는 데 중점을 두었습니다. 하지만 동일한 레이어 내의 다른 셀프 어텐션 헤드는 각 단어와 다른 모든 단어 간의 문법적 관련성을 학습하거나 다른 상호작용을 학습할 수 있습니다.

완전한 트랜스포머 모델은 여러 셀프 어텐션 레이어를 서로 위에 쌓습니다. 이전 레이어의 출력이 다음 레이어의 입력이 됩니다. 이러한 스태킹을 통해 모델은 텍스트에 대한 점진적으로 더 복잡하고 추상적인 이해를 구축할 수 있습니다. 이전 레이어는 기본 문법에 중점을 두는 반면, 더 깊은 레이어는 이 정보를 통합하여 전체 입력에 걸쳐 감정, 맥락, 주제별 연결과 같은 더 미묘한 개념을 파악할 수 있습니다.

아이콘을 클릭하여 LLM의 Big O에 대해 알아보세요.

셀프 어텐션은 컨텍스트의 모든 단어가 컨텍스트에 있는 다른 모든 단어의 관련성을 학습하도록 합니다. 따라서 다음을 충족하는 O(N²) 문제라고 선언하고 싶을 것입니다.

N은 컨텍스트의 토큰 수입니다.

위의 Big O가 충분히 거슬리지 않는 것처럼 트랜스포머에는 자체 주목 계층당 여러 자체 주목 계층과 여러 자체 주목 헤드가 포함되어 있으므로 Big O는 실제로 다음과 같습니다.

O(N² · S · D)

각 항목의 의미는 다음과 같습니다.

S는 셀프 어텐션 레이어의 수입니다.
D는 레이어당 헤드 수입니다.

아이콘을 클릭하여 LLM 학습 방법에 대해 자세히 알아보세요.

처음부터 LLM을 학습시킬 일은 없을 것입니다. 산업용 LLM을 학습시키려면 막대한 양의 ML 전문 지식, 컴퓨팅 리소스, 시간이 필요합니다. 어쨌든 자세한 내용을 알아보기 위해 아이콘을 클릭하셨으니 설명을 드려야 합니다.

LLM을 빌드하는 데 필요한 기본 요소는 엄청난 양의 학습 데이터 (텍스트)이며, 일반적으로 어느 정도 필터링됩니다. 학습의 첫 번째 단계는 일반적으로 해당 학습 데이터에 대한 비지도 학습의 한 형태입니다. 특히 모델은 마스크 처리된 예측을 기반으로 학습합니다. 즉, 학습 데이터의 특정 토큰이 의도적으로 숨겨집니다. 모델은 누락된 토큰을 예측하려고 시도하여 학습합니다. 예를 들어 다음 문장이 학습 데이터의 일부라고 가정해 보겠습니다.

The residents of the sleepy town weren't prepared for what came next.

무작위 토큰이 삭제됩니다. 예를 들면 다음과 같습니다.

The ___ of the sleepy town weren't prepared for ___ came next.

LLM은 신경망일 뿐이므로 손실 (모델이 올바르게 고려한 마스크 처리된 토큰 수)은 역전파가 매개변수 값을 업데이트하는 정도를 안내합니다.

누락된 데이터를 예측하도록 학습된 트랜스포머 기반 모델은 누락된 토큰에 관한 단서를 얻기 위해 데이터에서 패턴과 고차 구조를 감지하는 방법을 점진적으로 학습합니다. 다음 마스크 처리된 인스턴스를 참고하세요.

Oranges are traditionally ___ by hand. Once clipped from a tree, __ don't ripen.

마스크 처리된 수많은 예에 대한 광범위한 학습을 통해 LLM은 '수확한' 또는 '따온'이 첫 번째 토큰과 일치할 가능성이 높고 '오렌지' 또는 '그것들'이 두 번째 토큰에 적합하다는 것을 학습합니다.

명령어 조정이라는 추가 학습 단계를 선택적으로 수행하면 LLM의 명령어 준수 능력을 개선할 수 있습니다.

트랜스포머가 이렇게 큰 이유는 무엇인가요?

트랜스포머에는 수천억 또는 수조 개의 매개변수가 포함되어 있습니다. 이 과정에서는 일반적으로 매개변수 수가 많은 모델보다 매개변수 수가 적은 모델을 빌드하는 것이 좋습니다. 결국 매개변수 수가 적은 모델은 매개변수 수가 많은 모델보다 예측을 생성하는 데 더 적은 리소스를 사용합니다. 하지만 연구에 따르면 매개변수가 많은 트랜스포머가 매개변수가 적은 트랜스포머보다 일관되게 성능이 우수합니다.

하지만 LLM은 어떻게 텍스트를 생성할까요?

연구자들이 LLM을 학습시켜 누락된 단어 하나 또는 두 개를 예측하는 방법을 보셨을 수도 있고, 인상적이지 않다고 생각하실 수도 있습니다. 결국 한두 단어를 예측하는 것은 다양한 텍스트, 이메일, 작성 소프트웨어에 내장된 자동 완성 기능과 본질적으로 같습니다. LLM이 차익 거래에 관한 문장, 단락 또는 하이쿠를 어떻게 생성할 수 있는지 궁금할 수 있습니다.

사실 LLM은 수천 개의 토큰을 자동으로 예측 (완성)할 수 있는 자동 완성 메커니즘입니다. 예를 들어 마스크 처리된 문장이 뒤따르는 문장을 생각해 보세요.

My dog, Max, knows how to perform many traditional dog tricks.
___ (masked sentence)

LLM은 다음과 같은 마스크 처리된 문장의 확률을 생성할 수 있습니다.

확률	단어
3.1%	예를 들어 앉기, 기다리기, 굴러다니기 등을 할 수 있습니다.
2.9%	예를 들어 앉아, 멈춰, 굴러와 같은 명령을 알고 있습니다.

충분히 큰 LLM은 단락과 전체 에세이에 대한 확률을 생성할 수 있습니다. LLM에 대한 사용자의 질문을 '주어진' 문장과 상상 속 마스크가 뒤따르는 것으로 생각할 수 있습니다. 예를 들면 다음과 같습니다.

User's question: What is the easiest trick to teach a dog?
LLM's response:  ___

LLM이 다양한 가능한 대답에 대한 확률을 생성합니다.

또 다른 예로, 방대한 수의 수학 '서술형 문제'로 학습된 LLM은 정교한 수학적 추론을 수행하는 것처럼 보일 수 있습니다. 하지만 이러한 LLM은 기본적으로 단어 문제 프롬프트를 자동 완성하는 것일 뿐입니다.

LLM의 이점

LLM은 다양한 타겟층을 대상으로 명확하고 이해하기 쉬운 텍스트를 생성할 수 있습니다. LLM은 명시적으로 학습된 작업에 대해 예측할 수 있습니다. 일부 연구자는 LLM이 명시적으로 학습되지 않은 입력에 대해서도 예측할 수 있다고 주장하지만 다른 연구자는 이 주장을 반박했습니다.

LLM의 문제점

LLM을 학습하는 데는 다음과 같은 여러 문제가 따릅니다.

엄청난 학습 세트를 수집합니다.
여러 달 동안 엄청난 컴퓨팅 리소스와 전기를 소비합니다.
동시 로드 문제 해결

LLM을 사용하여 예측을 추론하면 다음과 같은 문제가 발생합니다.

LLM은 환각을 일으키므로 예측에 오류가 포함되는 경우가 많습니다.
LLM은 막대한 양의 컴퓨팅 리소스와 전기를 소비합니다. 일반적으로 더 큰 데이터 세트로 LLM을 학습하면 추론에 필요한 리소스 양이 줄어들지만, 더 큰 학습 세트에는 더 많은 학습 리소스가 필요합니다.
모든 ML 모델과 마찬가지로 LLM은 다양한 편향을 나타낼 수 있습니다.

연습: 학습 내용 점검하기

트랜스포머가 코끼리라는 단어가 하나 이상 포함된 수천 개의 문서를 비롯해 10억 개의 문서로 학습되었다고 가정해 보겠습니다. 다음 중 사실일 가능성이 높은 설명은 무엇인가요?

아카시아 나무는 코끼리 식단의 중요한 부분으로, 코끼리라는 단어와 함께 점차 높은 셀프 어텐션 점수를 얻게 됩니다.

예. 이렇게 하면 트랜스포머가 코끼리의 식단에 관한 질문에 답변할 수 있습니다.

트랜스포머는 코끼리라는 단어를 포함하는 다양한 관용구와 코끼리라는 단어를 연결합니다.

예, 시스템은 코끼리라는 단어와 코끼리 관용구의 다른 단어 사이에 높은 셀프 어텐션 점수를 부여하기 시작합니다.

트랜스포머는 학습 데이터에서 코끼리라는 단어를 비꼬거나 반어적으로 사용하는 것을 점차 무시하게 됩니다.

충분히 광범위한 학습 세트로 학습된 충분히 큰 트랜스포머는 비꼬는 말, 유머, 반어법을 인식하는 데 능숙해집니다. 따라서 트랜스포머는 비꼬는 말과 반어법을 무시하는 대신 이를 통해 학습합니다.

고객센터

소개: 언어 모델이란 무엇인가요? (10분)

미세 조정, 정제, 프롬프트 엔지니어링 (10분)

LLM: 대규모 언어 모델이란 무엇인가요? 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.