Глоссарий машинного обучения: метрики

Эта страница содержит термины глоссария Metrics. Для всех терминов глоссария нажмите здесь .

А

точность

#основы
#Метрика

Количество правильных предсказаний классификации, деленное на общее количество предсказаний. То есть:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Например, модель, которая сделала 40 правильных прогнозов и 10 неправильных прогнозов, будет иметь точность:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Двоичная классификация предоставляет конкретные названия для различных категорий правильных и неправильных предсказаний . Таким образом, формула точности для бинарной классификации выглядит следующим образом:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

где:

Сравните и сопоставьте точность с точностью и полнотой .

Для получения дополнительной информации см . раздел «Классификация: точность, полнота, достоверность и связанные с ними показатели» в ускоренном курсе по машинному обучению.

площадь под кривой PR

#Метрика

См. PR AUC (площадь под кривой PR) .

площадь под кривой ROC

#Метрика

См. AUC (площадь под кривой ROC) .

AUC (площадь под кривой ROC)

#основы
#Метрика

Число от 0,0 до 1,0, представляющее способность модели бинарной классификации разделять положительные классы от отрицательных . Чем ближе AUC к 1,0, тем лучше способность модели разделять классы друг от друга.

Например, на следующем рисунке показана модель классификации , которая идеально разделяет положительные классы (зеленые овалы) от отрицательных классов (фиолетовые прямоугольники). Эта нереалистично идеальная модель имеет AUC 1,0:

Числовая прямая с 8 положительными примерами на одной стороне и 9 отрицательными примерами на другой стороне.

Напротив, следующая иллюстрация показывает результаты для модели классификации , которая генерировала случайные результаты. Эта модель имеет AUC 0,5:

Числовая прямая с 6 положительными примерами и 6 отрицательными примерами. Последовательность примеров: положительный, отрицательный, положительный, отрицательный, положительный, отрицательный, положительный, отрицательный, положительный, отрицательный, положительный, отрицательный.

Да, в предыдущей модели AUC составляет 0,5, а не 0,0.

Большинство моделей находятся где-то между двумя крайностями. Например, следующая модель несколько разделяет положительные и отрицательные значения, и поэтому имеет AUC где-то между 0,5 и 1,0:

Числовая прямая с 6 положительными примерами и 6 отрицательными примерами. Последовательность примеров: отрицательный, отрицательный, отрицательный, отрицательный, положительный, отрицательный, положительный, положительный, отрицательный, положительный, положительный.

AUC игнорирует любое значение, которое вы устанавливаете для порога классификации . Вместо этого AUC учитывает все возможные пороги классификации.

Для получения дополнительной информации см. раздел Классификация: ROC и AUC в ускоренном курсе по машинному обучению.

средняя точность при k

#язык
#Метрика

Метрика для суммирования производительности модели по одному запросу, которая генерирует ранжированные результаты, такие как пронумерованный список рекомендаций книг. Средняя точность при k — это, в общем, среднее значение точности при k для каждого соответствующего результата. Формула для средней точности при k , таким образом, следующая:

\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]

где:

  • \(n\) — количество соответствующих элементов в списке.

Сравните с отзывом в точке k .

Б

базовый уровень

#Метрика

Модель, используемая в качестве точки отсчета для сравнения того, насколько хорошо работает другая модель (обычно более сложная). Например, модель логистической регрессии может служить хорошей базой для глубокой модели .

Для конкретной проблемы базовый уровень помогает разработчикам моделей количественно оценить минимальную ожидаемую производительность, которую должна достичь новая модель, чтобы она была полезной.

С

расходы

#Метрика

Синоним слова «потеря» .

контрфактуальная справедливость

#ответственный
#Метрика

Метрика справедливости , которая проверяет, дает ли модель классификации тот же результат для одного человека, что и для другого человека, который идентичен первому, за исключением одного или нескольких чувствительных атрибутов . Оценка модели классификации на контрфактическую справедливость является одним из методов выявления потенциальных источников смещения в модели.

Для получения дополнительной информации см. один из следующих источников:

кросс-энтропия

#Метрика

Обобщение Log Loss для задач многоклассовой классификации . Перекрестная энтропия количественно определяет разницу между двумя распределениями вероятностей. См. также perplexity .

Кумулятивная функция распределения (CDF)

#Метрика

Функция, которая определяет частоту выборок, меньших или равных целевому значению. Например, рассмотрим нормальное распределение непрерывных значений. CDF сообщает, что приблизительно 50% выборок должны быть меньше или равны среднему значению и приблизительно 84% выборок должны быть меньше или равны одному стандартному отклонению выше среднего значения.

Д

демографический паритет

#ответственный
#Метрика

Метрика справедливости , которая выполняется, если результаты классификации модели не зависят от заданного чувствительного атрибута .

Например, если и лилипуты, и бробдингнегцы подают заявления в университет Глаббдабдриб, демографический паритет достигается, если процент принятых лилипутов совпадает с процентом принятых бробдингнегцев, независимо от того, является ли одна группа в среднем более квалифицированной, чем другая.

Сравните с уравненными шансами и равенством возможностей , которые позволяют результатам классификации в совокупности зависеть от чувствительных атрибутов, но не позволяют результатам классификации для определенных указанных меток истинности зависеть от чувствительных атрибутов. См. «Атака дискриминации с помощью более умного машинного обучения» для визуализации, изучающей компромиссы при оптимизации для демографического паритета.

Для получения дополнительной информации см. раздел «Справедливость: демографический паритет» в учебном курсе «Машинное обучение».

Э

расстояние землеройной машины (EMD)

#Метрика

Мера относительного сходства двух распределений . Чем меньше расстояние между землеройными машинами, тем более схожи распределения.

редактировать расстояние

#язык
#Метрика

Измерение того, насколько похожи две текстовые строки друг на друга. В машинном обучении расстояние редактирования полезно по следующим причинам:

  • Расстояние редактирования легко вычислить.
  • Расстояние редактирования позволяет сравнивать две строки, заведомо похожие друг на друга.
  • Расстояние редактирования может определять степень сходства различных строк с заданной строкой.

Существует несколько определений расстояния редактирования, каждое из которых использует различные строковые операции. См. пример расстояния Левенштейна .

эмпирическая кумулятивная функция распределения (eCDF или EDF)

#Метрика

Кумулятивная функция распределения , основанная на эмпирических измерениях из реального набора данных. Значение функции в любой точке по оси x представляет собой долю наблюдений в наборе данных, которые меньше или равны указанному значению.

энтропия

#дф
#Метрика

В теории информации — описание того, насколько непредсказуемо распределение вероятностей. В качестве альтернативы энтропия также определяется как объем информации, содержащейся в каждом примере . Распределение имеет максимально возможную энтропию, когда все значения случайной величины равновероятны.

Энтропия набора с двумя возможными значениями «0» и «1» (например, метки в задаче бинарной классификации ) имеет следующую формулу:

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

где:

  • H — энтропия.
  • p — доля примеров «1».
  • q — доля примеров «0». Обратите внимание, что q = (1 - p)
  • log обычно равен log 2. В этом случае единицей энтропии является бит.

Например, предположим следующее:

  • 100 примеров содержат значение "1"
  • 300 примеров содержат значение "0"

Следовательно, значение энтропии равно:

  • р = 0,25
  • д = 0,75
  • H = (-0,25)log 2 (0,25) - (0,75)log 2 (0,75) = 0,81 бит на пример

Идеально сбалансированный набор (например, 200 "0" и 200 "1") будет иметь энтропию 1,0 бит на пример. По мере того, как набор становится более несбалансированным , его энтропия приближается к 0,0.

В деревьях решений энтропия помогает сформулировать прирост информации , чтобы помочь разделителю выбрать условия в процессе роста дерева решений классификации.

Сравните энтропию с:

Энтропию часто называют энтропией Шеннона .

Дополнительную информацию см. в разделе «Точный разделитель для бинарной классификации с числовыми признаками» курса «Леса решений».

равенство возможностей

#ответственный
#Метрика

Метрика справедливости для оценки того, предсказывает ли модель желаемый результат одинаково хорошо для всех значений чувствительного атрибута . Другими словами, если желаемый результат для модели — это положительный класс , цель будет заключаться в том, чтобы истинно положительный показатель был одинаковым для всех групп.

Равенство возможностей связано с уравниванием шансов , что требует, чтобы как истинно положительные, так и ложноположительные показатели были одинаковыми для всех групп.

Предположим, что университет Глаббдабдриб принимает и лилипутов, и бробдингнегцев на строгую математическую программу. Средние школы лилипутов предлагают надежную программу занятий по математике, и подавляющее большинство учащихся имеют право на университетскую программу. Средние школы бробдингнегцев вообще не предлагают занятий по математике, и в результате гораздо меньше их учащихся имеют право на это. Равенство возможностей удовлетворяется для предпочтительного ярлыка «принят» в отношении национальности (лилипут или бробдингнегец), если квалифицированные студенты с равной вероятностью будут приняты независимо от того, являются ли они лилипутами или бробдингнегцами.

Например, предположим, что 100 лилипутов и 100 бробдингнегцев подают заявления в университет Глаббдабдриб, и решения о приеме принимаются следующим образом:

Таблица 1. Кандидаты-лилипуты (90% соответствуют требованиям)

Квалифицированный Неквалифицированный
Допущенный 45 3
Отклоненный 45 7
Общий 90 10
Процент принятых квалифицированных студентов: 45/90 = 50%
Процент отклоненных неквалифицированных студентов: 7/10 = 70%
Общий процент принятых студентов-лилипутов: (45+3)/100 = 48%

Таблица 2. Кандидаты из Бробдингнега (10% соответствуют требованиям):

Квалифицированный Неквалифицированный
Допущенный 5 9
Отклоненный 5 81
Общий 10 90
Процент принятых квалифицированных студентов: 5/10 = 50%
Процент отклоненных неквалифицированных студентов: 81/90 = 90%
Общий процент принятых студентов Бробдингнега: (5+9)/100 = 14%

Приведенные выше примеры удовлетворяют принципу равенства возможностей для приема квалифицированных студентов, поскольку как квалифицированные лилипуты, так и бробдингнегцы имеют 50% шанс быть принятыми.

Хотя равенство возможностей соблюдается, следующие два показателя справедливости не соблюдаются:

  • Демографический паритет : лилипуты и бробдингнегцы принимаются в университет с разной скоростью; принимается 48% студентов-лилипутов, но только 14% студентов-бробдингнегцев.
  • уравненные шансы : в то время как квалифицированные лилипуты и бробдингнегцы имеют одинаковые шансы быть принятыми, дополнительное ограничение, что неквалифицированные лилипуты и бробдингнегцы имеют одинаковые шансы быть отклоненными, не выполняется. Неквалифицированные лилипуты имеют 70%-ный уровень отклонения, тогда как неквалифицированные бробдингнегцы имеют 90%-ный уровень отклонения.

Для получения дополнительной информации см. статью «Справедливость: равенство возможностей в ускоренном курсе машинного обучения».

уравняли шансы

#ответственный
#Метрика

Метрика справедливости для оценки того, предсказывает ли модель результаты одинаково хорошо для всех значений чувствительного атрибута в отношении как положительного , так и отрицательного класса , а не только одного или другого класса. Другими словами, как истинно положительный показатель , так и ложноотрицательный показатель должны быть одинаковыми для всех групп.

Уравненные шансы связаны с равенством возможностей , которое фокусируется только на частоте ошибок для одного класса (положительного или отрицательного).

Например, предположим, что университет Глаббдабдриб принимает и лилипутов, и бробдингнегцев на строгую математическую программу. Средние школы лилипутов предлагают надежную программу занятий по математике, и подавляющее большинство учеников имеют право на университетскую программу. Средние школы бробдингнегцев вообще не предлагают занятий по математике, и в результате гораздо меньше их учеников имеют право на это. Уравненные шансы удовлетворяются при условии, что независимо от того, является ли абитуриент лилипутом или бробдингнегцем, если они имеют право, они с равной вероятностью будут приняты на программу, а если они не имеют права, они с равной вероятностью будут отклонены.

Предположим, что 100 лилипутов и 100 бробдингнегцев подают заявления в университет Глаббдабдриб, и решения о приеме принимаются следующим образом:

Таблица 3. Кандидаты-лилипуты (90% соответствуют требованиям)

Квалифицированный Неквалифицированный
Допущенный 45 2
Отклоненный 45 8
Общий 90 10
Процент принятых квалифицированных студентов: 45/90 = 50%
Процент отклоненных неквалифицированных студентов: 8/10 = 80%
Общий процент принятых студентов-лилипутов: (45+2)/100 = 47%

Таблица 4. Кандидаты из Бробдингнега (10% соответствуют требованиям):

Квалифицированный Неквалифицированный
Допущенный 5 18
Отклоненный 5 72
Общий 10 90
Процент принятых квалифицированных студентов: 5/10 = 50%
Процент отклоненных неквалифицированных студентов: 72/90 = 80%
Общий процент принятых студентов Бробдингнега: (5+18)/100 = 23%

Уравнение шансов выполняется, поскольку квалифицированные лилипуты и бробдингнегцы имеют 50% шанс быть принятыми, а неквалифицированные лилипуты и бробдингнегцы имеют 80% шанс быть отклоненными.

Уравненные шансы формально определены в «Равенстве возможностей в контролируемом обучении» следующим образом: «предиктор Ŷ удовлетворяет уравненным шансам относительно защищенного атрибута A и результата Y, если Ŷ и A независимы и зависят от Y».

оценки

#язык
#генеративныйИИ
#Метрика

В основном используется как аббревиатура для LLM evaluations . В более широком смысле evals — это аббревиатура для любой формы оценки .

оценка

#язык
#генеративныйИИ
#Метрика

Процесс измерения качества модели или сравнения различных моделей друг с другом.

Чтобы оценить контролируемую модель машинного обучения , вы обычно оцениваете ее по набору проверки и тестовому набору . Оценка LLM обычно включает в себя более широкие оценки качества и безопасности.

Ф

Ф 1

#Метрика

Метрика бинарной классификации "свертки", которая опирается как на точность , так и на полноту . Вот формула:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

метрика справедливости

#ответственный
#Метрика

Математическое определение "справедливости", которое можно измерить. Некоторые часто используемые метрики справедливости включают:

Многие показатели справедливости являются взаимоисключающими; см. несовместимость показателей справедливости .

ложноотрицательный результат (ЛО)

#основы
#Метрика

Пример, в котором модель ошибочно предсказывает отрицательный класс . Например, модель предсказывает, что определенное сообщение электронной почты не является спамом (отрицательный класс), но это сообщение электронной почты на самом деле является спамом .

ложноотрицательный показатель

#Метрика

Доля фактических положительных примеров, для которых модель ошибочно предсказала отрицательный класс. Следующая формула вычисляет ложноотрицательный показатель:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

Для получения дополнительной информации см. раздел «Пороговые значения и матрица путаницы» в краткосрочном курсе по машинному обучению.

ложноположительный результат (ЛП)

#основы
#Метрика

Пример, в котором модель ошибочно предсказывает положительный класс . Например, модель предсказывает, что определенное сообщение электронной почты является спамом (положительный класс), но это сообщение электронной почты на самом деле не является спамом .

Для получения дополнительной информации см. раздел «Пороговые значения и матрица путаницы» в краткосрочном курсе по машинному обучению.

Коэффициент ложноположительных результатов (FPR)

#основы
#Метрика

Доля фактических отрицательных примеров, для которых модель ошибочно предсказала положительный класс. Следующая формула вычисляет ложноположительный уровень:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Показатель ложноположительных результатов — это ось x на ROC-кривой .

Для получения дополнительной информации см. раздел Классификация: ROC и AUC в ускоренном курсе по машинному обучению.

особенности важности

#дф
#Метрика

Синоним переменных важностей .

доля успехов

#генеративныйИИ
#Метрика

Метрика для оценки сгенерированного текста модели ML. Доля успехов — это количество «успешных» сгенерированных текстовых выходов, деленное на общее количество сгенерированных текстовых выходов. Например, если большая языковая модель сгенерировала 10 блоков кода, пять из которых были успешными, то доля успехов составит 50%.

Хотя доля успешных попыток широко используется в статистике, в машинном обучении эта метрика в первую очередь полезна для измерения проверяемых задач, таких как генерация кода или решение математических задач.

Г

примесь джини

#дф
#Метрика

Метрика, похожая на энтропию . Разделители используют значения, полученные либо из примеси Джини, либо из энтропии, чтобы составить условия для деревьев решений классификации. Прирост информации выводится из энтропии. Не существует общепринятого эквивалентного термина для метрики, полученной из примеси Джини; однако эта безымянная метрика так же важна, как и прирост информации.

Примесь Джини также называется индексом Джини или просто Джини .

ЧАС

потеря шарнира

#Метрика

Семейство функций потерь для классификации , разработанное для нахождения границы решения как можно дальше от каждого обучающего примера, тем самым максимизируя разницу между примерами и границей. KSVM используют потерю шарнира (или связанную функцию, например квадратичную потерю шарнира). Для бинарной классификации функция потери шарнира определяется следующим образом:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

где y — истинная метка, либо -1, либо +1, а y' — необработанный вывод модели классификации :

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Следовательно, график зависимости потери шарнира от (y * y') выглядит следующим образом:

Декартов график, состоящий из двух соединенных отрезков. Первый отрезок начинается в точке (-3, 4) и заканчивается в точке (1, 0). Второй отрезок начинается в точке (1, 0) и продолжается бесконечно с наклоном 0.

я

несовместимость показателей справедливости

#ответственный
#Метрика

Идея о том, что некоторые понятия справедливости взаимно несовместимы и не могут быть удовлетворены одновременно. В результате не существует единой универсальной метрики для количественной оценки справедливости, которая может быть применена ко всем проблемам МО.

Хотя это может показаться обескураживающим, несовместимость метрик справедливости не означает, что усилия по справедливости бесплодны. Вместо этого это предполагает, что справедливость должна определяться контекстуально для данной проблемы МО с целью предотвращения вреда, специфичного для ее вариантов использования.

Более подробное обсуждение несовместимости показателей справедливости см. в разделе «О (не)возможности справедливости» .

индивидуальная справедливость

#ответственный
#Метрика

Метрика справедливости, которая проверяет, классифицируются ли похожие лица одинаково. Например, Brobdingnagian Academy может захотеть удовлетворить индивидуальную справедливость, гарантируя, что два студента с одинаковыми оценками и результатами стандартизированных тестов будут иметь равную вероятность поступления.

Обратите внимание, что индивидуальная справедливость полностью зависит от того, как вы определяете «сходство» (в данном случае это оценки и результаты тестов), и вы рискуете создать новые проблемы со справедливостью, если ваша метрика сходства не учитывает важную информацию (например, строгость учебной программы учащегося).

Более подробное обсуждение индивидуальной справедливости см. в разделе «Справедливость через осознание» .

получение информации

#дф
#Метрика

В лесах решений — разница между энтропией узла и взвешенной (по числу примеров) суммой энтропии его дочерних узлов. Энтропия узла — это энтропия примеров в этом узле.

Например, рассмотрим следующие значения энтропии:

  • энтропия родительского узла = 0,6
  • Энтропия одного дочернего узла с 16 соответствующими примерами = 0,2
  • энтропия другого дочернего узла с 24 соответствующими примерами = 0,1

Итак, 40% примеров находятся в одном дочернем узле, а 60% — в другом дочернем узле. Следовательно:

  • Взвешенная сумма энтропии дочерних узлов = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Итак, прирост информации составляет:

  • прирост информации = энтропия родительского узла - взвешенная сумма энтропии дочерних узлов
  • прирост информации = 0,6 - 0,14 = 0,46

Большинство разделителей стремятся создать условия , которые максимизируют получение информации.

межэкспертное соглашение

#Метрика

Измерение того, как часто оценщики-люди соглашаются при выполнении задания. Если оценщики не согласны, инструкции к заданию могут нуждаться в улучшении. Иногда также называется межаннотаторским соглашением или межоценочной надежностью . См. также каппа Коэна , которая является одним из самых популярных измерений межоценочного соглашения.

Для получения дополнительной информации см. Категориальные данные: распространенные проблемы в ускоренном курсе по машинному обучению.

Л

Л 1 потеря

#основы
#Метрика

Функция потерь , которая вычисляет абсолютное значение разницы между фактическими значениями метки и значениями, которые предсказывает модель . Например, вот расчет потерь L 1 для партии из пяти примеров :

Фактическое значение примера Прогнозируемое значение модели Абсолютное значение дельты
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
8 = потеря L1

Потеря L 1 менее чувствительна к выбросам , чем потеря L 2 .

Средняя абсолютная ошибка — это средняя потеря L1 на пример.

Для получения дополнительной информации см. Линейная регрессия: краткий курс по потерям в машинном обучении.

Потеря L 2

#основы
#Метрика

Функция потерь , которая вычисляет квадрат разницы между фактическими значениями метки и значениями, которые предсказывает модель . Например, вот расчет потерь L 2 для партии из пяти примеров :

Фактическое значение примера Прогнозируемое значение модели Квадрат дельты
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
16 = потеря L2

Из-за возведения в квадрат потеря L 2 усиливает влияние выбросов . То есть потеря L 2 сильнее реагирует на плохие прогнозы, чем потеря L 1. Например, потеря L 1 для предыдущей партии будет 8, а не 16. Обратите внимание, что один выброс составляет 9 из 16.

В регрессионных моделях в качестве функции потерь обычно используется потеря L2 .

Среднеквадратическая ошибка — это средний убыток L 2 на пример. Квадратичный убыток — это другое название убытка L 2 .

Для получения дополнительной информации см. раздел «Логистическая регрессия: потери и регуляризация» в ускоренном курсе по машинному обучению.

Оценки LLM (оценки)

#язык
#генеративныйИИ
#Метрика

Набор метрик и контрольных показателей для оценки производительности больших языковых моделей (LLM). На высоком уровне оценки LLM:

  • Помогите исследователям определить области, в которых магистрам права необходимо улучшить свою работу.
  • Полезны для сравнения различных степеней LLM и определения лучшей степени LLM для конкретной задачи.
  • Помогите обеспечить безопасность и этичность использования степеней LLM.

Для получения дополнительной информации см. раздел «Большие языковые модели (LLM)» в ускоренном курсе по машинному обучению.

потеря

#основы
#Метрика

В процессе обучения контролируемой модели — мера того, насколько далеко предсказание модели от ее метки .

Функция потерь вычисляет потери.

Для получения дополнительной информации см. Линейная регрессия: краткий курс по потерям в машинном обучении.

функция потерь

#основы
#Метрика

Во время обучения или тестирования, математическая функция, которая вычисляет потери на пакете примеров. Функция потерь возвращает меньшие потери для моделей, которые делают хорошие прогнозы, чем для моделей, которые делают плохие прогнозы.

Целью обучения обычно является минимизация потерь, возвращаемых функцией потерь.

Существует множество различных видов функций потерь. Выберите соответствующую функцию потерь для типа модели, которую вы строите. Например:

М

Средняя абсолютная ошибка (MAE)

#Метрика

Средний убыток на пример при использовании убытка L 1. Рассчитайте среднюю абсолютную ошибку следующим образом:

  1. Рассчитайте потери L 1 для партии.
  2. Разделите потерю L 1 на количество образцов в партии.

Например, рассмотрим расчет убытка L 1 для следующей партии из пяти примеров:

Фактическое значение примера Прогнозируемое значение модели Убыток (разница между фактическим и прогнозируемым)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
8 = потеря L1

Итак, потеря L 1 равна 8, а количество примеров равно 5. Следовательно, средняя абсолютная ошибка равна:

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

Сравните среднюю абсолютную ошибку со средней квадратической ошибкой и среднеквадратической ошибкой .

средняя средняя точность при k (mAP@k)

#язык
#генеративныйИИ
#Метрика

Статистическое среднее значение всех средних значений точности при k баллах в наборе данных проверки. Одно из применений средней точности при k — оценка качества рекомендаций, сгенерированных рекомендательной системой .

Хотя фраза «среднее среднее» звучит избыточно, название метрики вполне уместно. В конце концов, эта метрика находит среднее значение точности множественных средних при значениях k .

Среднеквадратическая ошибка (СКО)

#Метрика

Средний убыток на пример при использовании убытка L 2. Рассчитайте среднюю квадратичную ошибку следующим образом:

  1. Рассчитайте потери L 2 для партии.
  2. Разделите потерю L 2 на количество образцов в партии.

Например, рассмотрим убыток по следующей партии из пяти примеров:

Фактическое значение Прогноз модели Потеря Квадратный убыток
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = потеря L2

Таким образом, среднеквадратическая ошибка равна:

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

Среднеквадратическая ошибка — популярный оптимизатор обучения, особенно для линейной регрессии .

Сравните среднюю квадратическую ошибку со средней абсолютной ошибкой и среднеквадратической ошибкой .

TensorFlow Playground использует среднеквадратичную ошибку для расчета значений потерь.

метрика

#ТензорныйПоток
#Метрика

Статистика, которая вас волнует.

Цель — это показатель, который система машинного обучения пытается оптимизировать.

API метрик (tf.metrics)

#Метрика

API TensorFlow для оценки моделей. Например, tf.metrics.accuracy определяет, как часто предсказания модели соответствуют меткам.

минимаксный убыток

#Метрика

Функция потерь для генеративно-состязательных сетей , основанная на перекрестной энтропии между распределением сгенерированных данных и реальных данных.

В первой статье для описания генеративно-состязательных сетей используется минимаксная потеря.

См. Функции потерь в курсе генеративных состязательных сетей для получения дополнительной информации.

модель емкости

#Метрика

Сложность проблем, которые модель может изучить. Чем сложнее проблемы, которые может изучить модель, тем выше способность модели. Емкость модели обычно увеличивается с количеством параметров модели. Для формального определения способности классификации модели см. Dimension VC .

Н

отрицательный класс

#основы
#Метрика

В бинарной классификации один класс называется положительным , а другой называется отрицательным . Положительный класс - это то, что модель тестирует, а отрицательный класс - другая возможность. Например:

  • Отрицательный класс в медицинском тесте может быть «не опухоль».
  • Отрицательный класс в модели классификации электронной почты может быть «не спам».

Контраст с положительным классом .

О

цель

#Метрика

Метрика , которую ваш алгоритм пытается оптимизировать.

целевая функция

#Метрика

Математическая формула или метрика , которую модель стремится оптимизировать. Например, целевой функцией для линейной регрессии обычно является средняя потери в квадрате . Следовательно, при обучении модели линейной регрессии, обучение направлено на минимизацию средней потери в квадрате.

В некоторых случаях цель состоит в том, чтобы максимизировать целевую функцию. Например, если целевой функцией является точность, цель состоит в том, чтобы максимизировать точность.

Смотрите также потерю .

П

пройти в K (Pass@k)

#Метрика

Метрика для определения качества кода (например, Python), который генерирует большая языковая модель . В частности, Pass at K сообщает вам о вероятности, что по крайней мере один сгенерированный блок кода из K , сгенерированных блоков кода, пройдет все его модульные тесты.

Большие языковые модели часто изо всех сил пытаются создать хороший код для сложных задач программирования. Инженеры -программисты адаптируются к этой проблеме, побуждая большую языковую модель для создания нескольких ( k ) решений для одной и той же проблемы. Затем инженеры -программисты проверяют каждое из решений против модульных тестов. Расчет прохода в K зависит от результата модульных тестов:

  • Если одно или несколько из этих решений проходят модульный тест, то LLM выполняет эту задачу генерации кода.
  • Если ни одно из решений проходит модульный тест, то LLM не выполняет эту задачу генерации кода.

Формула для прохода в K заключается в следующем:

\[\text{pass at k} = \frac{\text{total number of passes}} {\text{total number of challenges}}\]

В целом, более высокие значения k производят более высокий проход при оценках K; Тем не менее, более высокие значения K требуют более крупной языковой модели и ресурсов модульного тестирования.

производительность

#Метрика

Перегруженный термин со следующими значениями:

  • Стандартное значение в разработке программного обеспечения. А именно: как быстро (или эффективно) работает эта часть программного обеспечения?
  • Значение в машинном обучении. Здесь производительность отвечает на следующий вопрос: насколько правильно эта модель ? То есть, насколько хороши прогнозы модели?

Переменные импорты переменной

#дф
#Метрика

Тип важности переменной , который оценивает увеличение ошибки прогнозирования модели после пересечения значений функции. Важность переменной перестановки-это независимая модель метрика.

недоумение

#Метрика

Одна мера того, насколько хорошо модель выполняет свою задачу. Например, предположим, что ваша задача состоит в том, чтобы прочитать первые несколько букв слова, которые пользователь печатает на телефонной клавиатуре, и предложить список возможных слов завершения. Смущение, P, для этой задачи примерно количество предположений, которые вы должны предложить, чтобы ваш список содержал фактическое слово, которое пользователь пытается напечатать.

Недоумение связано с перекрестной энтропией следующим образом:

$$P= 2^{-\text{cross entropy}}$$

положительный класс

#основы
#Метрика

Класс, на который вы тестируете.

Например, положительным классом в модели рака может быть «опухоль». Позитивным классом в модели классификации электронной почты может быть «спам».

Контраст с негативным классом .

PR AUC (область под кривой PR)

#Метрика

Площадь под интерполированной кривой точно-рецизионной , полученной путем построения (отзыв, точность) точки для различных значений порога классификации .

точность

#Метрика

Метрика для классификационных моделей , которая отвечает на следующий вопрос:

Когда модель предсказывала положительный класс , какой процент прогнозов был правильным?

Вот формула:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

где:

  • Истинный положительный означает, что модель правильно предсказала положительный класс.
  • Неверно положительный означает, что модель ошибочно предсказала положительный класс.

Например, предположим, что модель сделала 200 положительных прогнозов. Из этих 200 положительных прогнозов:

  • 150 были настоящими положительными.
  • 50 были ложными положительными.

В этом случае:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

Сравните с точностью и отзывом .

См. Классификацию: Точность, отзыв, точность и связанные с ними метрики в курсе сбоя машинного обучения для получения дополнительной информации.

Точность в K (Precision@K)

#язык
#Метрика

Метрика для оценки рангового (упорядоченного) списка элементов. Точность в K идентифицирует долю первых k элементов в этом списке, которые являются «актуальными». Это:

\[\text{precision at k} = \frac{\text{relevant items in first k items of the list}} {\text{k}}\]

Значение k должно быть меньше или равно длине возвращаемого списка. Обратите внимание, что длина возвращаемого списка не является частью расчета.

Актуальность часто субъективна; Даже опытные оценщики человека часто не согласны с тем, какие предметы актуальны.

Сравните с:

Кривая точности

#Метрика

Кривая точности в зависимости от воспоминания на разных порогах классификации .

предвзятость прогнозирования

#Метрика

Значение, указывающее, насколько далеко друг от друга среднее показатели , от среднего значения метки в наборе данных.

Не путать с термином смещения в моделях машинного обучения или с предвзятостью в этике и справедливости .

прогнозирующая паритет

#ответственный
#Метрика

Метрика справедливости , которая проверяет, являются ли для данного классификатора точные показатели эквивалентны для рассматриваемых подгрупп.

Например, модель, которая прогнозирует принятие колледжа, удовлетворит прогнозирующую паритет для национальности, если его точность одинакова для лиллипутов и бробдингнагианцев.

Предсказательный паритет иногда также называется паритетом прогнозной скорости .

См. «Определения справедливости, объясненные» (раздел 3.2.1) для более подробного обсуждения прогнозной паритета.

Прогнозирующая скорость паритета

#ответственный
#Метрика

Другое название для прогнозирующего паритета .

функция плотности вероятности

#Метрика

Функция, которая идентифицирует частоту образцов данных, имеющих именно определенное значение. Когда значения набора данных являются непрерывными числами с плавающей точкой, точные совпадения редко встречаются. Однако интеграция функции плотности вероятности от значения x до значения y дает ожидаемую частоту образцов данных между x и y .

Например, рассмотрим нормальное распределение, составляющее среднее значение 200 и стандартное отклонение 30. Чтобы определить ожидаемую частоту образцов данных, падающих в диапазоне 211,4 до 218,7, вы можете интегрировать функцию плотности вероятности для нормального распределения от 211,4 до 218,7.

Р

отзывать

#Метрика

Метрика для классификационных моделей , которая отвечает на следующий вопрос:

Когда наземная правда была положительным классом , какой процент прогнозов модель правильно идентифицировала как положительный класс?

Вот формула:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

где:

  • Истинный положительный означает, что модель правильно предсказала положительный класс.
  • Ложный отрицательный означает, что модель ошибочно предсказала отрицательный класс .

Например, предположим, что ваша модель сделала 200 прогнозов по примерам, для которых основная истина была положительным классом. Из этих 200 прогнозов:

  • 180 были настоящими положительными.
  • 20 были ложными негативами.

В этом случае:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

См. Классификацию: Точность, отзыв, точность и связанные с ними метрики для получения дополнительной информации.

Напомним в K (Remeply@K)

#язык
#Метрика

Метрика для оценки систем, которые выводят рантин (упорядоченный) список элементов. Напомним, что в K определяет долю соответствующих элементов в первых k пунктах в этом списке из общего числа возвращаемых соответствующих элементов.

\[\text{recall at k} = \frac{\text{relevant items in first k items of the list}} {\text{total number of relevant items in the list}}\]

Контраст с точностью в k .

Кривая ROC (операционная характеристика приемника)

#основы
#Метрика

График истинной положительной скорости и ложной положительной скорости для различных порогов классификации в бинарной классификации.

Форма кривой ROC предполагает способность бинарной классификационной модели отделять положительные классы от негативных классов. Предположим, например, что модель бинарной классификации идеально отделяет все отрицательные классы от всех положительных классов:

Номерная строка с 8 положительными примерами на правой стороне и           7 отрицательных примеров слева.

Кривая ROC для предыдущей модели выглядит следующим образом:

Кривая ROC. Ось X является ложной положительной скоростью и осью Y           это истинный положительный показатель. Кривая имеет инвертированную форму L. Кривая           начинается с (0,0,0,0) и идет прямо до (0,0,1,0). Тогда кривая           переходит от (0,0,1,0) до (1,0,1,0).

Напротив, в следующих графиках иллюстрации значения необработанной логистической регрессии для ужасной модели, которая вообще не может отделить отрицательные классы от положительных классов:

Числовая строка с положительными примерами и отрицательными классами           Полностью смешан.

Кривая ROC для этой модели выглядит следующим образом:

Кривая ROC, которая на самом деле является прямой линией от (0,0,0,0)           к (1,0,1,0).

Между тем, в реальном мире большинство моделей бинарной классификации в некоторой степени разделяют положительные и отрицательные классы, но обычно не совсем идеально. Итак, типичная кривая ROC падает где -то между двумя крайностями:

Кривая ROC. Ось X является ложной положительной скоростью и осью Y           это истинный положительный показатель. Кривая ROC приближается к шаткой дуге           переселение точек компаса с запада на север.

Точка на кривой ROC, ближайшей к (0,0,1,0), теоретически идентифицирует идеальный порог классификации. Тем не менее, несколько других реальных проблем влияют на выбор идеального порога классификации. Например, возможно, ложные негативы вызывают гораздо большую боль, чем ложные позитивы.

Численная метрика, называемая AUC , суммирует кривую ROC в единое значение с плавающей точкой.

Средняя ошибка в квадрате корня (RMSE)

#основы
#Метрика

Квадратный корень средней квадратной ошибки .

Rouge (отзыв, ориентированная на отзыв, для расстояния оценки)

#язык
#Метрика

Семейство показателей, которые оценивают автоматическую суммирование и модели машинного перевода . Метрики Rouge определяют степень, в которой эталонный текст перекрывает текст сгенерированного модели ML. Каждый член семейных мер Rouge перекрывается по -разному. Более высокие оценки Rouge указывают на большее сходство между эталонным текстом и сгенерированным текстом, чем более низкие оценки Rouge.

Каждый член семьи Rouge обычно генерирует следующие показатели:

  • Точность
  • Отзывать
  • Ф 1

Для получения подробной информации и примеров см.

Rouge-L

#язык
#Метрика

Член семьи Руж сосредоточился на продолжительности самой длинной общей последующей последовательности в эталонном тексте и сгенерированном тексту . Следующие формулы рассчитывают отзыв и точность для Rouge-L:

$$\text{ROUGE-L recall} = \frac{\text{longest common sequence}} {\text{number of words in the reference text} }$$
$$\text{ROUGE-L precision} = \frac{\text{longest common sequence}} {\text{number of words in the generated text} }$$

Затем вы можете использовать F 1 , чтобы свернуть отзыв Rouge-L и точность Rouge-L в одну метрику:

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{ROUGE-L recall} * \text{ROUGE-L precision}} {\text{ROUGE-L recall} + \text{ROUGE-L precision} }$$

Rouge-L игнорирует любые новеньши в эталонном тексте и сгенерированный текст, поэтому самая длинная общая последовательность может пересекать несколько предложений. Когда ссылочный текст и сгенерированный текст включают несколько предложений, изменение Rouge-L, называемое Rouge-LSUM, как правило, является лучшей метрикой. Rouge-LSUM определяет самую длинную общую последующую последовательность для каждого предложения в отрывке, а затем вычисляет среднее значение для самых длинных общих подпоследований.

Rouge-n

#язык
#Метрика

Набор метрик в семействе Rouge , который сравнивает общие N-граммы определенного размера в эталонном тексте и сгенерированном тексту . Например:

  • Rouge-1 измеряет количество общих токенов в эталонном тексте и сгенерированном тексту.
  • Rouge-2 измеряет количество общих биграм (2 грамма) в эталонном тексте и сгенерированном тексту.
  • Rouge-3 измеряет количество общих триграмм (3 грамма) в эталонном тексте и сгенерированном тексту.

Вы можете использовать следующие формулы для расчета Rouge-N Recall и Rouge-N. Точность для любого члена семьи Rouge-N:

$$\text{ROUGE-N recall} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the reference text} }$$
$$\text{ROUGE-N precision} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the generated text} }$$

Затем вы можете использовать F 1 , чтобы свернуть Rouge-n Remoad и Rouge-N. Точность в одну метрику:

$$\text{ROUGE-N F}{_1} = \frac{\text{2} * \text{ROUGE-N recall} * \text{ROUGE-N precision}} {\text{ROUGE-N recall} + \text{ROUGE-N precision} }$$

Rouge-S.

#язык
#Метрика

Прощающая форма Rouge-n , которая позволяет сопоставлять скип-грамм . То есть Rouge-N считает только N-граммы , которые точно соответствуют, но Rouge-S также считает N-граммы, разделенные одним или несколькими словами. Например, рассмотрим следующее:

При расчете Rouge-N 2-граммовые белые облака не соответствуют белым вздымающимся облакам . Однако при расчете Rouge-S белые облака соответствуют белым вздымающимся облакам .

R-квадрат

#Метрика

Метрика регрессии , указывающая, сколько изменений в метке обусловлен индивидуальной функцией или набором функций. R-Squared-это значение от 0 до 1, которое вы можете интерпретировать следующим образом:

  • R-квадрат 0 означает, что ни один из вариаций метки не связан с набором функций.
  • R-квадрат 1 означает, что все изменения этикетки обусловлены набором функций.
  • R-квадрат между 0 и 1 указывает на степень, в которой вариация метки может быть предсказан из определенной функции или набора функций. Например, R-квадрат 0,10 означает, что 10 процентов дисперсии на этикетке обусловлено набором функций, R-квадрат 0,20 означает, что 20 процентов связано с набором функций и т. Д.

R-Squared-это квадрат коэффициента корреляции Пирсона между значениями, которые предсказывали модель, и наземной истиной .

С

подсчет очков

#recsystems
#Метрика

Часть системы рекомендаций , которая обеспечивает значение или ранжирование для каждого элемента, созданного этапом генерации кандидатов .

мера сходства

#clustering
#Метрика

В алгоритмах кластеризации метрика использовалась для определения одинаковых (насколько похожи) какие -либо два примера.

разреженность

#Метрика

Количество элементов, установленных на ноль (или нулевое) в векторе или матрице, деленное на общее количество записей в этом векторе или матрице. Например, рассмотрим матрицу из 100 элементов, в которой 98 ячеек содержат ноль. Расчет разреженности заключается в следующем:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

Чувство редактирования относится к разрешению вектора функций; Модель разреженности относится к разрешению весов модели.

квадратная потеря шарнира

#Метрика

Квадрат потери шарнира . Потеря в квадрате шарнира наказывает выбросы более резко, чем обычная потеря шарнира.

квадратная потеря

#основы
#Метрика

Синоним L 2 потери .

Т

Тестовая потеря

#основы
#Метрика

Метрика , представляющая потерю модели против испытательного набора . При создании модели вы обычно пытаетесь минимизировать потерю тестов. Это связано с тем, что низкая потеря тестов является более сильным сигналом качества, чем низкая потери тренировок или низкая потери проверки .

Большой разрыв между потерей теста и потерей обучения или потерей проверки иногда предполагает, что вам необходимо увеличить частоту регуляризации .

точность Top-K

#язык
#Метрика

Процент раз, когда «целевая метка» появляется в первых позициях k сгенерированных списков. Списки могут быть персонализированными рекомендациями или списком предметов, заказанных Softmax .

Точность Top-K также известна как точность в K.

токсичность

#язык
#Метрика

Степень, в которой контент является оскорбительным, угрожающим или оскорбительным. Многие модели машинного обучения могут идентифицировать и измерять токсичность. Большинство из этих моделей идентифицируют токсичность по нескольким параметрам, таким как уровень оскорбительного языка и уровень угрожающего языка.

Потеря обучения

#основы
#Метрика

Метрика , представляющая потерю модели во время конкретной учебной итерации. Например, предположим, что функция потери является средней квадратной ошибкой . Возможно, потери обучения (средняя квадратная ошибка) для 10 -й итерации составляет 2,2, а утрата обучения для 100 -й итерации составляет 1,9.

Кривая потерь определяет потерю обучения по сравнению с количеством итераций. Кривая потерь дает следующие намеки на обучение:

  • Нисходящий наклон подразумевает, что модель улучшается.
  • Вверх уклон подразумевает, что модель ухудшается.
  • Плоский наклон подразумевает, что модель достигла сходимости .

Например, на следующей несколько идеализированной кривой потерь показывает:

  • Крутой наклон вниз во время начальных итераций, что подразумевает быстрое улучшение модели.
  • Постепенно сглаживающий (но все еще вниз) наклон до конца тренировок, что подразумевает продолжающееся улучшение модели в несколько более медленном темпе, чем во время начальных итераций.
  • Плоский склон к концу тренировок, который предполагает сходимость.

Сюжет потери обучения по сравнению с итерациями. Эта кривая потерь начинается      с крутым вниз склоном. Склон постепенно сглаживается, пока      склон становится нулевым.

Хотя убытка обучения важна, см. Также обобщение .

истинный отрицательный (TN)

#основы
#Метрика

Пример, в котором модель правильно предсказывает отрицательный класс . Например, модель делает, что конкретное сообщение электронной почты не является спамом , и это сообщение электронной почты на самом деле не спам .

истинный положительный (TP)

#основы
#Метрика

Пример, в котором модель правильно предсказывает положительный класс . Например, модель делает, что конкретным сообщением электронной почты является спам, и это сообщение электронной почты действительно является спамом.

Истинная положительная скорость (TPR)

#основы
#Метрика

Синоним для отзывов . Это:

$$\text{true positive rate} = \frac {\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Истинная положительная скорость-ось Y в кривой ROC .

В

убытка валидации

#основы
#Метрика

Метрика , представляющая потерю модели при наборе проверки во время конкретной итерации обучения.

См. Также кривая обобщения .

переменные импорты

#дф
#Метрика

Набор результатов, которые указывают на относительную важность каждой функции для модели.

Например, рассмотрим дерево решений , которое оценивает цены на жилье. Предположим, что это дерево решений использует три функции: размер, возраст и стиль. Если набор переменных импортов для трех функций рассчитывается как {size = 5,8, возраст = 2,5, стиль = 4,7}, то размер более важен для дерева решений, чем возраст или стиль.

Существуют различные показатели важности переменной, которые могут информировать экспертов ML о различных аспектах моделей.

Вт

Вассерштейн потеря

#Метрика

Одна из функций потерь, обычно используемых в генеративных состязательных сетях , на основе расстояния грунта Земли между распределением сгенерированных данных и реальными данными.