Істинно позитивні, хибно позитивні, істинно негативні й хибно негативні результати використовуються, щоб обчислити кілька корисних метрик для оцінювання моделей. Те, які метрики оцінювання найзначущіші, залежить від моделі, завдання, того, у скільки обійдуться різні неправильні результати класифікації і чи є набір даних збалансованим.
Усі метрики, що розглядаються в цьому розділі, обчислюються за одним фіксованим пороговим значенням і змінюються разом із ним. Дуже часто користувачі налаштовують порогове значення, щоб оптимізувати одну із цих метрик.
Точність
Точність – це частка всіх правильно класифікованих даних (позитивних і негативних результатів). Математично вона виражається так:
\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]
У прикладі класифікації спаму точністю вимірюють частку всіх правильно класифікованих електронних листів.
Ідеальна модель мала б нуль хибнопозитивних і нуль хибнонегативних результатів, а отже, точність би становила 1,0, або 100%.
Оскільки вона включає всі чотири результати з матриці помилок (TP, FP, TN, FN), за умови збалансованого набору даних з однаковою кількістю прикладів в обох класах точність може служити загальним показником якості моделі. Із цієї причини точність часто є метрикою оцінювання за умовчанням для типових моделей чи тих, які не виконують спеціальні завдання.
Однак якщо набір даних незбалансований або один вид помилки (FN або FP) обходиться дорожче, ніж інший (на практиці таке буває майже завжди), краще провести оптимізацію за однією з інших метрик.
Якщо набори даних сильно незбалансовані й один клас з’являється дуже рідко (наприклад, 1% часу), точність модель, яка прогнозує негативний результат у 100% випадків, становитиме 99% попри те, що вона не приносить користі.
Повнота, або коефіцієнт істинно позитивних результатів
Коефіцієнт істинно позитивних результатів (TPR), або частку всіх фактичних позитивних результатів, які правильно класифіковано як позитивні, ще називають повнотою.
Математично повнота виражається так:
\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]
Хибно негативні результати – це фактичні позитивні результати, які неправильно класифіковано як негативні, тому вони в знаменнику. У прикладі класифікації спаму повнота – це частка спам-листів, які правильно класифіковано як спам. Ось чому повноту ще називають імовірністю виявлення: це відповідь на запитання "Яку частку спам-листів виявляє модель?"
Гіпотетична ідеальна модель матиме нуль хибнонегативних результатів, а отже, повноту (TPR) 1,0, тобто рівень виявлення 100%.
Якщо набір даних не збалансовано й кількість фактичних позитивних результатів дуже низька (скажімо, усього 1–2 приклади), повнота є менш значущою і менш корисною метрикою.
Коефіцієнт хибно позитивних результатів
Коефіцієнт хибнопозитивних результатів (FPR), або частку всіх фактичних негативних результатів, які неправильно класифіковано як позитивні, ще називають імовірністю хибної тривоги. Математично він виражається так:
\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]
Хибнопозитивні результати – це фактичні негативні результати, які неправильно класифіковано, тому вони в знаменнику. У прикладі класифікації спаму FPR – це частка звичайних електронних листів, які неправильно класифіковано як спам, або коефіцієнт хибних тривог у моделі.
Ідеальна модель мала б нуль хибнопозитивних результатів, а отже, FPR 0,0, тобто кількість хибних тривог становила б 0%.
Якщо набір даних не збалансовано й кількість фактичних негативних результатів дуже низька (скажімо, усього 1–2 приклади), FPR є менш значущою і менш корисною метрикою.
Влучність
Влучність – це частка всіх результатів, які модель класифікує як позитивні і які й справді такі. Математично вона виражається так:
\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]
У прикладі класифікації спаму влучність – це частка листів, класифікованих як спам, що й справді такі.
Гіпотетична ідеальна модель мала б нуль хибнопозитивних результатів, а отже, влучність становила б 1,0.
Якщо набір даних не збалансовано й кількість фактичних позитивних результатів дуже низька (скажімо, усього 1–2 приклади), влучність є менш значущою і менш корисною метрикою.
Влучність покращується зі зменшенням хибнопозитивних результатів, тоді як повнота – зі зменшенням хибнонегативних. Але, як ви вже знаєте з попереднього розділу, якщо підвищити порогові значення класифікації, кількість хибнопозитивних результатів зменшиться, а кількість хибнонегативних – збільшиться, тоді як зниження порогових значень має протилежний ефект. Як наслідок, влучність і повнота часто демонструють обернено пропорційний зв’язок, тобто покращення однієї із цих метрик призводить до погіршення іншого.
Спробуйте самостійно:
Що означає NaN у цій метриці?
NaN, або "не число", з’являється через ділення на 0, що може статися під час обчислення будь-якої із цих метрик. Наприклад, якщо TP й FP дорівнюють 0, у знаменнику формули влучність становитиме 0, що призведе до значення NaN. Хоча іноді значення NaN може вказувати на ідеальну ефективність і його можна замінити балом 1,0, воно також може з’являтися, якщо модель практично не приносить користі. Наприклад, модель, яка ніколи не передбачає позитивних результатів, матиме 0 TP й 0 FP; якщо обчислити її влучність, вона дорівнюватиме NaN.
Вибір метрики й компроміси
Метрики, яким ви надаєте пріоритет при оцінюванні моделі й виборі порогового значення, залежать від витрат, переваг і ризиків конкретної задачі, враховуючи практичні наслідки застосування моделі Візьмімо приклад класифікації спаму: часто доцільно надавати пріоритет повноті (щоб визначати всі спам-листи), влучності (щоб гарантувати, що листи, позначені як спам, справді такі) або певному балансу між ними вище деякого мінімального рівня точності.
Метрика | Рекомендації |
---|---|
Точність | Використовуйте як приблизний індикатор прогресу навчання та/або збіжності моделі для збалансованих наборів даних. Щоб визначати ефективність моделі, використовуйте лише в поєднанні з іншими метриками. Уникайте, якщо працюєте з незбалансованими наборами даних. У цьому разі краще використати іншу метрику. |
Повнота (коефіцієнт істинно позитивних результатів) |
Використовуйте, коли хибно негативні результати обходяться дорожче, ніж хибно позитивні. |
Коефіцієнт хибно позитивних результатів | Використовуйте, коли хибно позитивні результати обходяться дорожче, ніж хибно негативні. |
Влучність | Використовуйте, коли дуже важливо, щоб позитивні прогнози були точними. |
F1-міра (необов’язково, поглиблене вивчення)
F1-міра – це середнє гармонійне (різновид середнього значення) влучності й повноти.
Математична формула:
Ця метрика врівноважує важливість влучності й повноти і є кращою за точність для наборів даних із незбалансованими класами. Коли як влучність, так і повнота мають ідеальні оцінки 1,0, F1-міра також матиме ідеальне значення 1,0. У широкому сенсі, коли влучність і повнота близькі за величиною, F1-міра буде наближена до їх значення. А коли вони далекі, F1-міра буде наближена до гіршої метрики.