실적 평가

ML 구현이 가치 있는 작업이었는지 어떻게 알 수 있을까요? 언제 축하를 시작해야 할까요? 모델이 프로덕션으로 이동하여 첫 번째 예측을 제공한 직후일까요, 아니면 정량적 비즈니스 측정항목이 올바른 방향으로 움직이기 시작한 후에만 축하해야 할까요?

프로젝트를 시작하기 전에 성공 측정항목을 정의하고 결과물에 동의하는 것이 중요합니다. 다음 두 가지 유형의 측정항목을 정의하고 추적해야 합니다.

비즈니스 측정항목

비즈니스 측정항목이 가장 중요합니다. 비즈니스를 개선하고 싶기 때문에 ML을 사용하는 것입니다.

정량화 가능한 제품 또는 비즈니스 측정항목부터 시작하세요. 측정항목은 최대한 세부적이고 집중되어야 합니다. 다음은 구체적이고 정량화 가능한 비즈니스 측정항목의 예입니다.

  • 데이터 센터의 월별 전기 비용을 30% 절감합니다.
  • 제품 추천으로 인한 수익을 12% 늘립니다.
  • 클릭률을 9% 높입니다.
  • 수신 동의 설문조사에서 고객 감정을 20% 높입니다.
  • 페이지에 머문 시간을 4% 늘립니다.

비즈니스 측정항목 추적

개선하려는 비즈니스 측정항목을 추적하지 않는 경우 먼저 해당 측정항목을 추적할 수 있는 인프라를 구현하세요. 현재 클릭률을 측정하지 않고 클릭률을 15% 높이겠다는 목표를 설정하는 것은 논리적이지 않습니다.

무엇보다 문제에 적합한 측정항목을 측정하고 있는지 확인하세요. 예를 들어 더 중요한 측정항목이 추천으로 인한 수익인 경우 클릭률을 추적하는 도구를 작성하는 데 시간을 낭비하지 마세요.

프로젝트가 진행됨에 따라 타겟 성공 측정항목이 실제로 현실적인 타겟인지 알 수 있습니다. 정의된 성공 측정항목을 고려할 때 프로젝트가 실행 가능하지 않다고 판단될 수도 있습니다.

모델 측정항목

언제 모델을 프로덕션에 적용해야 하나요? AUC가 특정 값일 때 모델이 특정 F1 점수에 도달하는 경우 이 질문에 대한 답은 해결하려는 문제의 유형과 비즈니스 측정항목을 개선하는 데 필요하다고 생각하는 예측 품질에 따라 달라집니다.

모델을 평가할 측정항목을 결정할 때는 다음 사항을 고려하세요.

  • 최적화할 단일 측정항목을 결정합니다. 예를 들어 분류 모델은 다양한 측정항목(AUC, AUC-PR 등)에 대해 평가할 수 있습니다. 측정항목에 따라 선호하는 모델이 다를 경우 최적의 모델을 선택하기 어려울 수 있습니다. 따라서 모델을 평가할 단일 측정항목에 동의해야 합니다.

  • 충족해야 하는 허용 가능성 목표를 결정합니다. 허용 가능성 목표는 모델 평가 측정항목과 다릅니다. 이는 의도한 사용 사례에 적합한 것으로 간주되기 위해 모델이 충족해야 하는 목표를 나타냅니다. 예를 들어 허용 가능성 목표는 '잘못된 출력이 0.1% 미만' 또는 '상위 5개 카테고리의 재현율이 97% 이상'일 수 있습니다.

예를 들어 이진 분류 모델이 사기 거래를 감지한다고 가정해 보겠습니다. 최적화 측정항목은 재현율이고 허용 가능성 목표는 정밀도일 수 있습니다. 즉, 정밀도가 특정 값 이상으로 유지되도록 하면서 (실제 사기 거래 식별) 재현율 (대부분의 경우 사기를 올바르게 식별)을 우선시합니다.

모델 측정항목과 비즈니스 측정항목 간의 연결

기본적으로 비즈니스 측정항목과 인과관계가 있는 예측 품질의 모델을 개발하려고 합니다. 모델 측정항목이 우수하다고 해서 비즈니스 측정항목이 개선되는 것은 아닙니다. 팀에서 인상적인 측정항목을 갖춘 모델을 개발할 수 있지만 모델의 예측이 비즈니스 측정항목을 개선하지 못할 수도 있습니다.

모델의 예측 품질이 만족스러우면 모델의 측정항목이 비즈니스 측정항목에 어떤 영향을 미치는지 파악해 보세요. 일반적으로 팀은 모델을 사용자 중 1% 에게 배포한 다음 비즈니스 측정항목을 모니터링합니다.

예를 들어 팀에서 고객 이탈을 예측하여 수익을 늘리는 모델을 개발한다고 가정해 보겠습니다. 이론적으로 고객이 플랫폼을 떠날 가능성을 예측할 수 있다면 고객이 플랫폼에 계속 머물도록 유도할 수 있습니다.

팀에서 예측 품질이 95% 인 모델을 만들고 소규모 사용자 샘플을 대상으로 테스트합니다. 하지만 수익은 증가하지 않습니다. 고객 이탈이 실제로 증가합니다. 다음은 몇 가지 가능한 설명입니다.

  • 예측이 너무 늦게 발생하여 조치를 취할 수 없습니다. 모델은 7일 이내의 고객 이탈만 예측할 수 있으므로 고객이 플랫폼에 계속 머물도록 인센티브를 제공하기에는 너무 늦습니다.

  • 불완전한 기능 학습 데이터 세트에 포함되지 않은 다른 요인이 고객 이탈에 영향을 미칠 수도 있습니다.

  • 기준이 충분히 높지 않음 모델이 유용하려면 예측 품질이 97% 이상이어야 할 수 있습니다.

이 간단한 예에서는 다음 두 가지 사항을 강조합니다.

  • 모델의 측정항목과 비즈니스 측정항목 간의 연결을 증명하고 이해하기 위해 초기 사용자 테스트를 실행하는 것이 중요합니다.
  • 모델 측정항목이 우수하다고 비즈니스 측정항목이 개선되는 것은 아닙니다.

생성형 AI

생성형 AI 출력을 평가하는 데는 고유한 어려움이 있습니다. 개방형 또는 창의적인 출력과 같은 경우 기존 ML 출력을 평가하는 것보다 더 어렵습니다.

LLM은 다양한 측정항목에 따라 측정하고 평가할 수 있습니다. 모델을 평가할 측정항목은 사용 사례에 따라 다릅니다.

주의사항

모델의 성공과 비즈니스의 성공을 혼동하지 마세요. 즉, 뛰어난 측정항목을 갖춘 모델이 비즈니스 성공을 보장하지는 않습니다.

숙련된 엔지니어는 인상적인 측정항목을 갖춘 모델을 만들 수 있습니다. 충분히 좋은 모델을 학습하는 것은 일반적으로 문제가 되지 않습니다. 비즈니스 측정항목이 개선되지 않기 때문입니다. 비즈니스 측정항목과 모델 측정항목 간의 불일치로 인해 ML 프로젝트가 실패할 수 있습니다.

이해도 확인

고객 지원 에이전트로서 LLM을 사용하는 데 있어 명확한 비즈니스 문제와 잘 정의된 솔루션이 있습니다. 솔루션의 성공 여부를 측정하는 방법을 어떻게 생각해야 할까요?
사람의 개입이 필요한 해결된 지원 케이스 수가 72% 에서 50%로 감소합니다.
정답입니다. 추적할 수 있는 정량화 가능한 비즈니스 측정항목입니다.
LLM의 평가 측정항목이 지속적으로 높습니다.
모델 측정항목이 좋다고 해서 비즈니스 측정항목이 개선된다는 보장은 없습니다.
초기 사용자 테스트의 의견은 매우 긍정적입니다.
초기 사용자 피드백은 일반적으로 정량적보다 정성적입니다. 성공을 측정하기 위한 정량화 가능한 비즈니스 측정항목을 결정해야 합니다.