머신러닝이란 무엇인가요?

머신러닝 (ML)은 번역 앱에서 자율 주행 차량에 이르기까지 우리가 사용하는 가장 중요한 기술 중 일부를 지원합니다. 이 과정에서는 ML의 핵심 개념을 설명합니다

ML은 문제를 해결하고 복잡한 질문에 답하며 새로운 콘텐츠를 만드는 새로운 방법을 제공합니다. ML은 날씨를 예측하고, 이동 시간을 예상하고, 노래를 추천하고, 문장을 자동 완성하고, 기사를 요약하고, 처음 보는 이미지를 생성할 수 있습니다.

기본적으로 ML은 model이라고 하는 소프트웨어를 학습하여 유용한 예측을 수행하거나 데이터에서 콘텐츠를 생성하는 프로세스입니다.

예를 들어 강우를 예측하는 앱을 만든다고 가정해 보겠습니다. 기존 접근 방식 또는 ML 접근 방식을 사용할 수 있습니다 기존의 접근 방식을 사용하여 물리학을 기반으로 지구의 대기와 표면을 표현하고 엄청난 양의 유체 역학 방정식을 계산합니다. 이는 굉장히 어려운 일입니다.

ML 모델이 서로 다른 양의 강수량을 생성하는 날씨 패턴 간의 수학적 관계를 결국 학습할 때까지 ML 모델에 방대한 양의 날씨 데이터를 제공합니다. 그런 다음 모델에 현재 날씨 데이터를 제공하고 강수량을 예측합니다.

이해도 확인

머신러닝에서 '모델'이란 무엇인가요?
모델은 ML 시스템이 예측을 수행하는 데 사용하는 데이터에서 파생된 수학적 관계입니다.
모델은 컴퓨터 하드웨어의
모델은 연구 중인 것을 더 작게 표현한 것입니다.

ML 시스템의 유형

ML 시스템은 예측을 수행하거나 콘텐츠를 생성하는 방법을 학습하는 방법에 따라 다음 카테고리 중 하나 이상으로 분류됩니다.

  • 지도 학습
  • 비지도 학습
  • 강화 학습
  • 생성형 AI

지도 학습

지도 학습 모델은 정답이 포함된 많은 데이터를 확인한 후 정답을 생성하는 데이터 요소 간의 연결을 발견한 후 예측을 수행할 수 있습니다. 이는 마치 학생이 질문과 답이 모두 포함된 이전 시험을 보고 새로운 자료를 배우는 것과 같습니다. 이전 시험에 충분히 대비한 학생은 새 시험을 치를 준비가 된 것입니다. 이러한 ML 시스템은 사람이 ML 시스템 데이터에 알려진 정확한 결과를 제공한다는 점에서 '지도' 방식을 사용합니다.

지도 학습의 가장 일반적인 두 가지 사용 사례는 회귀와 분류입니다.

회귀

회귀 모델은 숫자 값을 예측합니다. 예를 들어 강수량을 인치 또는 밀리미터 단위로 예측하는 날씨 모델은 회귀 모델입니다.

회귀 모델의 추가 예는 아래 표를 참고하세요.

시나리오 가능한 입력 데이터 숫자 예측
향후 주택 가격 면적, 우편번호, 침실 및 욕실 수, 부지 규모, 주택담보대출 금리, 재산세율, 건축비, 해당 지역의 매매 주택 수 주택의 가격입니다.
향후 탑승 시간 이전 교통상황 (스마트폰, 교통 센서, 차량 호출, 기타 내비게이션 애플리케이션에서 수집), 목적지로부터의 거리, 기상 상태 목적지에 도착하는 데 걸리는 시간(분/초)

분류

분류 모델은 특정 항목이 카테고리에 속할 가능성을 예측합니다. 출력이 숫자인 회귀 모델과 달리 분류 모델은 특정 카테고리에 속하는지 여부를 나타내는 값을 출력합니다. 예를 들어 이메일이 스팸인지 또는 사진에 고양이가 포함되어 있는지를 예측하는 데 분류 모델이 사용됩니다.

분류 모델은 이진 분류와 다중 클래스 분류라는 두 그룹으로 나뉩니다. 이진 분류 모델은 값이 두 개만 포함된 클래스(예: rain 또는 no rain를 출력하는 모델)의 값을 출력합니다. 다중 클래스 분류 모델은 값이 3개 이상인 클래스의 값을 출력합니다(예: rain, hail, snow, sleet 중 하나를 출력할 수 있는 모델).

이해도 확인

ML 모델을 사용하여 상업용 건물의 에너지 사용량을 예측하려면 어떤 유형의 모델을 사용해야 하나요?
회귀
에너지 사용량은 킬로와트시(kWh)(숫자) 단위로 측정되므로 회귀 모델을 사용하는 것이 좋습니다.
분류
분류 모델은 무언가가 카테고리에 속하는지 여부를 예측하는 반면, 회귀 모델은 숫자를 예측합니다. 에너지 사용량은 킬로와트시(kWh)(숫자) 단위로 측정되므로 회귀 모델을 사용하는 것이 좋습니다.

비지도 학습

비지도 학습 모델은 정답이 없는 데이터를 입력하여 예측을 수행합니다. 비지도 학습 모델의 목표는 데이터 중에서 유의미한 패턴을 식별하는 것입니다. 즉, 모델은 각 데이터를 분류하는 방법에 관한 힌트가 없지만 대신 자체 규칙을 추론해야 합니다.

일반적으로 사용되는 비지도 학습 모델은 클러스터링이라는 기법을 사용합니다. 이 모델은 자연스러운 그룹화를 구분하는 데이터 포인트를 찾습니다

여러 색상의 점을 클러스터로 표시하는 이미지입니다.

그림 1. 유사한 데이터 포인트를 클러스터링하는 ML 모델

여러 색상의 점이 여러 모양으로 둘러싸여 서로 경계로 둘러싸인 모습을 보여주는 이미지입니다.

그림 2. 자연스러운 경계가 있는 클러스터 그룹

범주는 사용자가 정의하는 것이 아니기 때문에 클러스터링은 분류와 다릅니다. 예를 들어 비지도 모델은 온도를 기준으로 날씨 데이터 세트를 클러스터링하여 계절을 정의하는 세분화를 나타낼 수 있습니다. 그런 다음 데이터 세트에 대한 이해를 바탕으로 클러스터 이름을 지정해 볼 수 있습니다.

눈, 비, 우박, 비 오지 않음으로 라벨이 지정된 클러스터 안에 색상 점이 있는 이미지입니다.

그림 3. 유사한 날씨 패턴을 클러스터링하는 ML 모델

눈, 비, 우박, 비가 오지 않음으로 라벨이 지정된 여러 색의 점이 도형으로 둘러싸여 서로 경계로 표시된 이미지를 보여주는 이미지입니다.

그림 4. 눈, 진눈깨비, 비, 비 오지 않음으로 라벨이 지정된 날씨 패턴의 클러스터입니다.

이해도 확인

지도 접근 방식과 비지도 접근 방식의 차이점은 무엇인가요?
지도 접근 방식에서는 정답이 포함된 데이터가 제공됩니다.
지도 접근 방식에서는 정답이 포함된 데이터가 제공됩니다. 모델의 역할은 데이터에서 정답을 도출하는 연결을 찾는 것입니다. 비지도 접근 방식에서는 정답이 없는 데이터가 제공됩니다. 데이터에서 그룹을 찾는 역할을 합니다.
지도 방식은 일반적으로 클러스터링을 사용합니다.
비지도 접근 방식에서는 클러스터링을 사용합니다.
비지도 접근 방식은 데이터 클러스터에 라벨을 지정하는 방법을 알고 있습니다.
비지도 접근 방식은 데이터 클러스터의 의미를 모릅니다. 데이터에 대한 이해에 따라 데이터를 정의하는 것은 사용자의 몫입니다.

강화 학습

강화 학습 모델은 환경 내에서 수행된 작업을 바탕으로 보상이나 페널티를 받는 방식으로 예측합니다. 강화 학습 시스템은 보상을 최대한 받기 위한 최적의 전략을 정의하는 정책을 생성합니다.

강화 학습은 방 안을 걷는 것과 같은 작업을 수행하도록 로봇을 학습시키고 AlphaGo와 같은 소프트웨어 프로그램을 통해 바둑 게임을 하는 데 사용됩니다.

생성형 AI

생성형 AI는 사용자 입력에서 콘텐츠를 생성하는 모델 클래스입니다 예를 들어 생성형 AI는 고유한 이미지, 음악작품, 농담을 만들 수 있습니다. 기사를 요약하거나, 작업 수행 방법을 설명하거나, 사진을 편집할 수 있습니다.

생성형 AI는 다양한 입력을 받고 텍스트, 이미지, 오디오, 동영상과 같은 다양한 출력을 생성할 수 있습니다 또한 이러한 조합을 취하여 만들 수도 있습니다. 예를 들어 모델은 이미지를 입력으로 사용하고 이미지와 텍스트를 출력으로 만들거나, 이미지와 텍스트를 입력으로 사용하고 동영상을 출력으로 만들 수 있습니다.

일반적으로 '입력 유형' 대 '출력 유형'으로 작성되는 입력 및 출력별로 생성 모델을 설명할 수 있습니다. 예를 들어 다음은 생성 모델의 일부 입력 및 출력의 일부 목록입니다.

  • 텍스트 간 변환
  • 텍스트 이미지 변환
  • 텍스트 동영상 변환
  • 텍스트 코드 변환
  • 텍스트 음성 변환
  • 이미지 및 텍스트 이미지 변환

다음 표에는 생성 모델의 예시, 입력, 가능한 출력 예시가 나와 있습니다.

모델 입력 출력 예
텍스트 간 변환 르망 레이스는 누가 발명했을까요? 르망 24시는 1906년에 설립된 자동차 협회인 ACO(Automobile Club de l'Ouest)에서 설립했습니다. 첫 번째 레이스는 1923년 5월 26일과 27일에 프랑스 르망 인근에 위치한 13.426km의 도로 회로인 사르트 서킷에서 열렸습니다. 이 경주는 원래 ACO와 사르트 지역을 홍보하기 위한 방법으로 구상되었습니다.
출처: Bard
텍스트 이미지 변환 외계 문어가 신문을 읽고 포털을 떠다니고 있습니다. 만화 문어의 이미지입니다.
출처: Imagen
텍스트 동영상 변환 사실적인 테디베어가 샌프란시스코의 바다를 헤엄치고 있습니다. 테디베어가 물속으로 갑니다. 테디베어가 다채로운 물고기들과 함께 물속에서 계속 헤엄치고 있습니다. 물속에서 헤엄치는 판다곰입니다. 물속에서 헤엄치는 테디베어를 보여주는 동영상
출처: Phenaki
텍스트 코드 변환 숫자 목록을 반복하여 소수를 출력하는 Python 루프를 작성합니다.
for number in numbers:
  # Check if the number is prime.
  is_prime = True
  for i in range(2, number):
    if number % i == 0:
        is_prime = False
        break
  # If the number is prime, print it.
  if is_prime:
    print(number)

출처: Bard
이미지 텍스트 변환 플라밍고의 이미지입니다. 플라밍고입니다. 카리브해에 서식합니다.
출처: Google DeepMind

생성형 AI는 어떻게 작동하나요? 상위 수준에서 생성 모델은 새롭지만 유사한 데이터를 생성하는 것을 목표로 데이터 패턴을 학습합니다. 생성 모델은 다음과 같습니다.

  • 사람들의 행동과 발언 스타일을 관찰하여 다른 사람을 모방하는 법을 배우는 코미디언
  • 특정 스타일의 회화를 많이 공부하여 특정 스타일로 그림 그리기를 배우는 아티스트
  • 특정 그룹의 음악을 많이 들으며 특정 음악 그룹의 소리를 배우는 커버 밴드

생성 모델은 고유하고 창의적인 결과를 얻기 위해 처음에는 비지도 방식으로 학습되며, 이 경우 모델이 학습된 데이터를 모방하도록 학습합니다. 기사 요약, 사진 수정 등 모델이 수행하도록 요청할 수 있는 작업과 관련된 특정 데이터를 지도 학습 또는 강화 학습을 통해 추가로 학습시키기도 합니다.

생성형 AI는 새로운 사용 사례가 끊임없이 발견되는 빠르게 진화하는 기술입니다 예를 들어 생성 모델은 기업이 주의를 분산시키는 배경을 자동으로 삭제하거나 저해상도 이미지의 품질을 개선하여 전자상거래 제품 이미지를 미세 조정하는 데 도움이 됩니다.