머신러닝이란 무엇인가요?

머신러닝 (ML)은 번역 앱부터 자율 주행 차량에 이르기까지 우리가 사용하는 가장 중요한 기술 중 일부를 지원합니다. 이 과정에서는 ML의 핵심 개념을 설명합니다

ML은 문제를 해결하고, 복잡한 질문에 답하며, 새로운 콘텐츠를 만들 수 있는 새로운 방법을 제공합니다 ML은 날씨, 이동 시간 예측, 노래 추천, 문장 자동 완성, 기사를 요약하고 이전에 본 적 없는 이미지를 생성할 수 있습니다.

기본적으로 ML은 model이라고 하는 소프트웨어를 학습하여 유용한 예측을 하거나 데이터에서 콘텐츠를 생성하는 프로세스입니다.

예를 들어 강우를 예측하는 앱을 만든다고 가정해 보겠습니다. 기존의 접근 방식이나 ML 접근 방식을 사용할 수 있습니다 기존의 접근 방식을 사용하여 지구의 대기와 표면을 물리학에 기반하여 표현하고 엄청난 양의 유체역학 방정식을 계산했습니다. 이는 엄청나게 어려운 작업입니다.

ML 접근 방식을 사용하면 ML 모델이 서로 다른 양의 강우를 생성하는 날씨 패턴 간의 수학적 관계를 최종적으로 학습할 때까지 ML 모델에 방대한 양의 날씨 데이터를 제공합니다. 그런 다음 모델에 현재 날씨 데이터를 제공하고 강수량을 예측합니다.

이해도 확인

머신러닝에서 '모델'이란 무엇인가요?
모델은 ML 시스템이 예측을 수행하는 데 사용하는 데이터에서 파생된 수학적 관계입니다.
모델은 컴퓨터 하드웨어의 조각으로
모델은 공부하고 있는 대상을 작은 표현으로 나타냅니다.

ML 시스템 유형

ML 시스템은 예측을 수행하거나 콘텐츠를 생성하는 방법을 학습하는 방법에 따라 다음 카테고리 중 하나 이상으로 분류됩니다.

  • 지도 학습
  • 비지도 학습
  • 강화 학습
  • 생성형 AI

지도 학습

지도 학습 모델은 정답이 있는 많은 데이터를 확인한 후 정답을 얻는 데이터 요소 간의 연결을 발견한 후 예측을 수행할 수 있습니다. 이는 학생이 질문과 답이 모두 포함된 이전 시험을 공부하여 새로운 자료를 배우는 것과 같습니다. 학생이 이전 시험에 대해 충분히 학습하면 새 시험을 치를 준비가 된 것입니다. 이러한 ML 시스템은 사람이 ML 시스템 데이터에 알려진 정확한 결과를 제공한다는 점에서 '지도'됩니다.

지도 학습의 가장 일반적인 두 가지 사용 사례는 회귀와 분류입니다.

회귀

회귀 모델은 숫자 값을 예측합니다. 예를 들어 강수량을 인치 또는 밀리미터 단위로 예측하는 날씨 모델은 회귀 모델입니다.

회귀 모델의 추가 예는 아래 표를 참고하세요.

시나리오 가능한 입력 데이터 숫자 예측
향후 주택 가격 면적, 우편번호, 침실 및 욕실 수, 부지 규모, 주택담보대출 금리, 부동산 세율, 건축비, 해당 지역의 매매 주택 수 주택 가격입니다.
향후 탑승 시간 이전 교통상황 (스마트폰, 교통 센서, 차량 호출, 기타 내비게이션 애플리케이션에서 수집), 목적지로부터의 거리, 기상 상태 목적지에 도착하는 데 걸리는 시간(분/초)입니다.

분류

분류 모델은 무언가가 카테고리에 속할 가능성을 예측합니다. 출력이 숫자인 회귀 모델과 달리 분류 모델은 무언가가 특정 카테고리에 속하는지 여부를 나타내는 값을 출력합니다. 예를 들어 이메일이 스팸인지 또는 사진에 고양이가 포함되어 있는지 예측하는 데 분류 모델을 사용합니다.

분류 모델은 이진 분류와 멀티클래스 분류라는 두 그룹으로 나뉩니다. 이진 분류 모델은 값이 두 개만 포함된 클래스(예: rain 또는 no rain를 출력하는 모델)에서 값을 출력합니다. 다중 클래스 분류 모델은 값이 3개 이상인 클래스(예: rain, hail, snow 또는 sleet를 출력할 수 있는 모델)에서 값을 출력합니다.

이해도 확인

ML 모델을 사용하여 상업용 건물의 에너지 사용량을 예측하려면 어떤 유형의 모델을 사용해야 하나요?
회귀
에너지 사용량은 숫자인 킬로와트시 (kWh) 단위로 측정되므로 회귀 모델을 사용하는 것이 좋습니다.
분류
분류 모델은 무언가가 카테고리에 속하는지 여부를 예측하는 반면 회귀 모델은 숫자를 예측합니다. 에너지 사용량은 숫자인 킬로와트시 (kWh) 단위로 측정되므로 회귀 모델을 사용하는 것이 좋습니다.

비지도 학습

비지도 학습 모델은 정답을 포함하지 않는 데이터를 주어진 방식으로 예측합니다. 비지도 학습 모델의 목표는 데이터 중에서 유의미한 패턴을 식별하는 것입니다. 즉, 모델은 각 데이터를 분류하는 방법에 대한 힌트가 없지만 대신 자체 규칙을 추론해야 합니다.

흔히 사용되는 비지도 학습 모델에서는 클러스터링이라는 기법이 사용됩니다. 이 모델은 자연스러운 그룹을 구분하는 데이터 포인트를 찾습니다.

여러 색상의 점을 클러스터로 보여주는 이미지입니다.

그림 1. 유사한 데이터 포인트를 클러스터링하는 ML 모델

여러 색상의 점이 포함된 클러스터 내에서 도형으로 둘러싸여 서로의 테두리를 보여주는 이미지입니다.

그림 2. 자연스러운 경계가 있는 클러스터 그룹입니다.

클러스터링은 카테고리가 사용자가 정의하지 않으므로 분류와 다릅니다. 예를 들어 비지도 모델은 온도를 기준으로 날씨 데이터 세트를 클러스터링하여 계절을 정의하는 세분화를 나타낼 수 있습니다. 그런 다음 데이터 세트에 대한 이해를 바탕으로 클러스터의 이름을 지정할 수 있습니다.

눈, 비, 우박, 비 오지 않음으로 라벨이 지정된 클러스터의 색상 점을 보여주는 이미지입니다.

그림 3. 유사한 날씨 패턴을 클러스터링하는 ML 모델

눈, 비, 우박, 비 오지 않음으로 라벨이 지정된 클러스터 내에 색상 점이 있고 도형으로 둘러싸여 서로 경계를 이루고 있는 이미지입니다.

그림 4. 눈, 진눈깨비, 비, 비 없음으로 라벨이 지정된 날씨 패턴의 클러스터입니다.

이해도 확인

지도 접근법과 비지도 접근법의 차이점은 무엇인가요?
지도 학습 방식은 정답이 포함된 데이터를 조건으로 합니다.
지도 학습 방식은 정답이 포함된 데이터를 조건으로 합니다. 모델의 역할은 정답을 제시하는 데이터에서 연결을 찾는 것입니다. 비지도 접근 방식은 정답이 없는 데이터를 제공하게 됩니다. 데이터에서 그룹을 찾는 역할을 합니다.
지도 방식은 일반적으로 클러스터링을 사용합니다.
비지도 접근 방식은 클러스터링을 사용합니다.
비지도 접근 방식은 데이터 클러스터에 라벨을 지정하는 방법을 알고 있습니다.
비지도 접근법은 데이터 클러스터의 의미를 알지 못합니다. 데이터에 대한 이해를 바탕으로 데이터를 정의하는 것은 사용자의 몫입니다.

강화 학습

강화 학습 모델은 환경 내에서 수행된 작업에 따라 보상이나 페널티를 받는 방식으로 예측을 합니다. 강화 학습 시스템은 최대한 많은 보상을 얻기 위한 최상의 전략을 정의하는 정책을 생성합니다.

강화 학습은 방 안을 걷는 것과 같은 작업을 수행하도록 로봇을 학습시키고 AlphaGo와 같은 소프트웨어 프로그램을 통해 바둑 게임을 하는 데 사용됩니다.

생성형 AI

생성형 AI는 사용자 입력을 받아 콘텐츠를 생성하는 모델 클래스입니다 예를 들어 생성형 AI는 새로운 이미지, 음악작품, 농담을 만들고 기사를 요약하거나 작업 수행 방법을 설명하거나 사진을 편집할 수 있습니다.

생성형 AI는 다양한 입력을 받고 텍스트, 이미지, 오디오, 동영상과 같은 다양한 출력을 생성할 수 있습니다. 이들을 조합하여 만들 수도 있습니다 예를 들어 모델은 이미지를 입력으로 가져와서 이미지와 텍스트를 출력으로 만들거나, 이미지와 텍스트를 입력으로 받아 동영상을 출력으로 만들 수 있습니다.

생성 모델은 일반적으로 '입력 유형 대 출력 유형'으로 작성되는 입력과 출력으로 설명할 수 있습니다. 예를 들어 다음은 생성 모델의 일부 입력 및 출력의 일부 목록입니다.

  • 텍스트 간 변환
  • 텍스트 이미지 변환
  • 텍스트 동영상 변환
  • 텍스트 코드 변환
  • 텍스트 음성 변환
  • 이미지 및 텍스트 이미지 변환

다음 표에는 생성 모델의 예시, 입력 내용, 가능한 출력의 예시가 나와 있습니다.

모델 입력 출력 예
텍스트 간 변환 르망 레이스는 누가 고안했나요? 르망 24시간은 1906년에 설립된 자동차 관리 단체인 ACO(Automobile Club de l'Ouest)에서 설립했습니다. 첫 번째 레이스는 1923년 5월 26일과 27일에 프랑스 르망 인근에 위치한 13.426km(8.345마일)의 도로 서킷인 사르트 서킷에서 개최되었습니다. 이 경주는 원래 ACO와 사르트 지역을 홍보하기 위한 수단으로 구상되었습니다.
출처: Bard
텍스트 이미지 변환 외계 문어가 포털을 통해 신문을 읽고 있습니다. 만화 문어 이미지입니다.
출처: Imagen
텍스트 동영상 변환 실감 나는 테디베어가 샌프란시스코의 바다에서 헤엄치고 있습니다. 테디베어가 물속에 갑니다. 테디베어가 다채로운 물고기들과 함께 물속에서 계속 헤엄치고 있습니다. 물속에서 헤엄치는 판다곰입니다. 물속에서 헤엄치는 테디베어 동영상
출처: Phenaki
텍스트 코드 변환 숫자 목록을 반복하고 소수를 출력하는 Python 루프를 작성합니다.
for number in numbers:
  # Check if the number is prime.
  is_prime = True
  for i in range(2, number):
    if number % i == 0:
        is_prime = False
        break
  # If the number is prime, print it.
  if is_prime:
    print(number)

출처: Bard
이미지 텍스트 변환 플라밍고의 이미지입니다. 플라밍고입니다. 카리브해에 서식합니다.
출처: Google DeepMind

생성형 AI는 어떻게 작동하나요? 상위 수준에서 생성 모델은 새롭지만 유사한 데이터를 생성하는 것을 목표로 데이터 패턴을 학습합니다. 생성 모델은 다음과 같습니다.

  • 사람들의 행동과 말투를 관찰하여 타인을 모방하는 법을 배우는 코미디언
  • 특정 스타일의 그림을 많이 공부하여 특정 스타일의 색을 배우는 아티스트
  • 특정 음악 그룹의 음악을 많이 들으면서 특정 음악 그룹의 소리를 배우는 커버 밴드

생성 모델은 고유하고 창의적인 결과를 얻기 위해 처음에는 비지도 접근 방식을 사용하여 학습되며, 이때 모델은 학습된 데이터를 모방하도록 학습합니다. 기사 요약, 사진 수정 등 모델에 요청할 수 있는 작업과 관련된 특정 데이터에 대한 지도 학습 또는 강화 학습을 통해 모델을 추가 학습하는 경우도 있습니다.

생성형 AI는 새로운 사용 사례가 끊임없이 발견되는 빠르게 발전하는 기술입니다. 예를 들어 생성 모델은 산만한 배경을 자동으로 삭제하거나 저해상도 이미지의 품질을 개선하여 전자상거래 제품 이미지를 미세 조정하는 데 도움이 됩니다.