측정항목을 사용하여 모델 평가

ML 모델을 디버깅하기란 어려울 수 있지만 모델 측정항목을 통해 어디서부터 시작해야 할지 알 수 있습니다. 다음 섹션에서는 측정항목을 사용하여 실적을 평가하는 방법을 설명합니다.

모델 측정항목을 사용한 품질 평가

모델의 품질을 평가하기 위해 일반적으로 사용되는 측정항목은 다음과 같습니다.

이러한 측정항목을 해석하는 방법은 머신러닝 비정상 종료 콘텐츠에 링크된 링크를 참조하세요. 특정 문제에 대한 추가 안내는 다음 표를 참고하세요.

문제 품질 평가
회귀 절대 평균 제곱 오차(MSE)를 줄이는 것 외에도 라벨 값을 기준으로 MSE를 줄입니다. 예를 들어 평균 가격이 5, 100인 2개 항목의 가격을 예측한다고 가정해 보겠습니다. 두 경우 모두 MSE가 5라고 가정합니다. 첫 번째 경우 MSE는 평균 가격의 100% 로, 명백히 큰 오류입니다. 두 번째 경우는 MSE가 평균 가격의 5% 로, 합리적인 오류입니다.
멀티클래스 분류 소수의 클래스를 예측하는 경우 클래스별 측정항목을 개별적으로 확인합니다. 많은 클래스를 예측할 때 클래스별 측정항목을 평균하여 전체 분류 측정항목을 추적할 수 있습니다. 또는 필요에 따라 특정 품질 목표의 우선순위를 지정할 수 있습니다. 예를 들어 이미지 속 객체를 분류하는 경우 다른 객체보다 사용자에 대한 분류 품질을 우선시할 수 있습니다.

중요한 데이터 슬라이스의 측정항목 확인

고품질 모델을 만든 후에도 데이터 하위 집합에서 모델의 성능이 저하될 수 있습니다. 예를 들어 유니콘 예측자는 사하라 사막과 뉴욕시 그리고 하루 종일 잘 예측해야 합니다. 그러나 사하라 사막에 대한 학습 데이터는 적습니다. 따라서 사하라 사막에 맞게 모델 품질을 추적하려는 경우 이러한 데이터 하위 집합을 사하라 사막에 해당하는 하위 집합이라고 하며, 이를 데이터 슬라이스라고 합니다. 성능이 특히 중요하거나 모델의 성능이 좋지 않은 데이터 슬라이스를 별도로 모니터링해야 합니다.

데이터에 대한 이해를 바탕으로 관심 있는 데이터 슬라이스를 식별할 수 있습니다. 그런 다음 데이터 슬라이스의 모델 측정항목을 전체 데이터 세트의 측정항목과 비교합니다. 모든 데이터 슬라이스에서 성능이 우수한 모델인지 확인하면 편향을 제거하는 데 도움이 됩니다. 자세한 내용은 공정성: 편향 평가를 참고하세요.

실제 측정항목 사용하기

모델 측정항목이 실제 모델의 영향을 측정하지는 않습니다. 예를 들어 초매개변수를 변경하고 AUC를 늘릴 수 있지만 변경사항이 사용자 환경에 어떤 영향을 주었나요? 실제 영향을 측정하려면 별도의 측정항목을 정의해야 합니다. 예를 들어 유니콘 모양 예측을 본 사용자를 대상으로 유니콘을 봤는지 확인할 수 있습니다. 실제 영향을 측정하면 모델을 반복하는 품질을 비교할 수 있습니다.