Эта страница переведена с помощью Cloud Translation API.

Глоссарий машинного обучения: метрики

На этой странице представлены термины глоссария метрик. Для просмотра всех терминов глоссария нажмите здесь .

А

точность

#основы

#Метрическая система

Количество правильных классификационных прогнозов, деленное на общее количество прогнозов. То есть:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Например, модель, сделавшая 40 правильных и 10 неправильных прогнозов, будет иметь точность:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Бинарная классификация предоставляет конкретные названия для различных категорий правильных и неправильных прогнозов . Таким образом, формула точности для бинарной классификации выглядит следующим образом:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

где:

TP — это количество истинно положительных результатов (правильных прогнозов).
TN — это количество истинно отрицательных результатов (правильных предсказаний).
FP — это количество ложноположительных результатов (неверных прогнозов).
FN — это количество ложноотрицательных результатов (неверных прогнозов).

Сравните и сопоставьте точность с прецизией и полнотой .

Нажмите на значок, чтобы получить подробную информацию о точности и несбалансированности классов в наборах данных.

Хотя точность является ценным показателем в некоторых ситуациях, в других она может вводить в заблуждение. В частности, точность обычно является плохим показателем для оценки моделей классификации, обрабатывающих наборы данных с несбалансированным распределением классов .

Например, предположим, что в одном субтропическом городе снег выпадает всего 25 дней в столетие. Поскольку количество дней без снега (отрицательный класс) значительно превышает количество дней со снегом (положительный класс), набор данных о снеге для этого города является несбалансированным по классам. Представьте себе модель бинарной классификации , которая должна предсказывать либо снег, либо его отсутствие каждый день, но просто предсказывает «нет снега» каждый день. Эта модель очень точна, но не обладает прогностической способностью. В следующей таблице приведены результаты прогнозов за столетие:

Категория	Число
TP	0
ТН	36499
FP	0
ФН	25

Таким образом, точность данной модели составляет:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36499) / (0 + 36499 + 0 + 25) = 0.9993 = 99.93%

Хотя точность в 99,93% кажется очень впечатляющей, на самом деле модель не обладает прогностической способностью.

Точность и полнота обычно являются более полезными метриками, чем правильность, для оценки моделей, обученных на наборах данных с несбалансированным распределением классов.

Дополнительную информацию см. в разделе «Классификация: точность, полнота, прецизионность и связанные с ними показатели» в кратком курсе по машинному обучению.

площадь под кривой PR

#Метрическая система

См. PR AUC (площадь под кривой PR) .

площадь под кривой ROC

#Метрическая система

См. AUC (площадь под ROC-кривой) .

AUC (Площадь под ROC-кривой)

#основы

#Метрическая система

Число от 0,0 до 1,0, представляющее способность модели бинарной классификации разделять положительные и отрицательные классы . Чем ближе AUC к 1,0, тем лучше модель способна разделять классы.

Например, на следующем рисунке показана модель классификации , которая идеально разделяет положительные классы (зеленые овалы) от отрицательных классов (фиолетовые прямоугольники). Эта нереалистично идеальная модель имеет показатель AUC, равный 1,0:

Числовая прямая с 8 положительными примерами на одной стороне и 9 отрицательными примерами на другой стороне.

Напротив, на следующем рисунке показаны результаты для модели классификации , которая генерировала случайные результаты. Для этой модели показатель AUC равен 0,5:

Числовая прямая с 6 положительными и 6 отрицательными примерами. Последовательность примеров: положительный, отрицательный, положительный, отрицательный, положительный, отрицательный, положительный, отрицательный, положительный, отрицательный, положительный, отрицательный.

Да, у предыдущей модели показатель AUC равен 0,5, а не 0,0.

Большинство моделей находятся где-то между этими двумя крайностями. Например, следующая модель несколько разделяет положительные и отрицательные значения, и поэтому имеет AUC где-то между 0,5 и 1,0:

Числовая прямая с 6 положительными примерами и 6 отрицательными примерами. Последовательность примеров: отрицательный, отрицательный, отрицательный, отрицательный, положительный, отрицательный, положительный, положительный, отрицательный, положительный, положительный, положительный.

AUC игнорирует любые значения, которые вы задаете для порога классификации . Вместо этого AUC учитывает все возможные пороги классификации.

Нажмите на значок, чтобы узнать о взаимосвязи между AUC и ROC-кривыми.

AUC представляет собой площадь под ROC-кривой . Например, ROC-кривая для модели, которая идеально разделяет положительные и отрицательные результаты, выглядит следующим образом:

AUC — это площадь серой области на предыдущем рисунке. В этом необычном случае площадь — это просто длина серой области (1,0), умноженная на ширину серой области (1,0). Таким образом, произведение 1,0 и 1,0 дает AUC, равное ровно 1,0, что является максимально возможным значением AUC.

Напротив, ROC-кривая для модели классификации , которая вообще не может разделять классы, выглядит следующим образом. Площадь этой серой области составляет 0,5.

Типичная ROC-кривая выглядит примерно так:

Вычисление площади под этой кривой вручную было бы трудоемким процессом, поэтому большинство значений AUC обычно рассчитываются программами.

Нажмите на значок, чтобы получить более формальное определение AUC.

AUC — это вероятность того, что модель классификации будет более уверена в том, что случайно выбранный положительный пример действительно является положительным, чем в том, что случайно выбранный отрицательный пример действительно является положительным.

Дополнительную информацию см. в разделе «Классификация: ROC и AUC в экспресс-курсе по машинному обучению».

средняя точность при k

#Метрическая система

Метрика, суммирующая производительность модели при обработке одного запроса, генерирующего ранжированные результаты, например, нумерованный список рекомендаций книг. Средняя точность в точке k — это, собственно, среднее значение точности в точке k для каждого релевантного результата. Формула для расчета средней точности в точке k выглядит следующим образом:

\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]

где:

$n$ — это количество релевантных элементов в списке.

Сравните с результатами запоминания в точке k .

Нажмите на значок, чтобы увидеть пример.

Предположим, что большой языковой модели подается следующий запрос:

List the 6 funniest movies of all time in order.

А большая языковая модель возвращает следующий список:

Генерал
Дрянные девчонки
Взвод
Подружки невесты
Гражданин Кейн
Это Spinal Tap

Четыре фильма из полученного списка очень смешные (то есть, они соответствуют теме), а два фильма — драмы (не соответствуют теме). В следующей таблице подробно представлены результаты:

Позиция	Фильм	Соответствующий?	Точность при k
1	Генерал	Да	1.0
2	Дрянные девчонки	Да	1.0
3	Взвод	Нет	не имеет отношения к делу
4	Подружки невесты	Да	0,75
5	Гражданин Кейн	Нет	не имеет отношения к делу
6	Это Spinal Tap	Да	0,67

Количество релевантных результатов равно 4. Следовательно, среднюю точность можно рассчитать следующим образом:

$${\text{average precision at 6}} = \frac{1}{4} {\text{(1.0 + 1.0 + 0.75 + 0.67)} } $$$${\text{average precision at 6}} = {\text{~0.85} } $$

Б

исходный уровень

#Метрическая система

Модель, используемая в качестве эталона для сравнения эффективности другой модели (как правило, более сложной). Например, модель логистической регрессии может служить хорошей базовой моделью для глубокой модели .

Для решения конкретной задачи базовый уровень помогает разработчикам моделей количественно оценить минимальную ожидаемую производительность, которую должна достичь новая модель, чтобы быть полезной.

Логические вопросы (BoolQ)

#Метрическая система

Набор данных для оценки умения студентов магистратуры отвечать на вопросы с вариантами ответа «да» или «нет». Каждое из заданий в наборе данных состоит из трех компонентов:

Запрос
Отрывок, подразумевающий ответ на вопрос.
Правильный ответ — да или нет .

Например:

Вопрос : Есть ли в Мичигане атомные электростанции?
Текст : ...три атомные электростанции обеспечивают штат Мичиган примерно 30% его электроэнергии.
Правильный ответ : Да

Исследователи собрали вопросы из анонимизированных, агрегированных поисковых запросов Google, а затем использовали страницы Википедии для подтверждения полученной информации.

Для получения дополнительной информации см. BoolQ: Изучение удивительной сложности естественных вопросов типа «да/нет» .

BoolQ является компонентом ансамбля SuperGLUE .

BoolQ

#Метрическая система

Сокращение для логических вопросов .

С

КБ

#Метрическая система

Сокращенное название CommitmentBank .

F-мера N-граммы символа (ChrF)

#Метрическая система

Метрика для оценки моделей машинного перевода . Показатель F-меры для N-грамм символов определяет степень перекрытия N-грамм в эталонном тексте с N-граммами в тексте, сгенерированном моделью машинного перевода.

Показатель F-меры для N-грамм символов аналогичен метрикам семейств ROUGE и BLEU , за исключением того, что:

Показатель F-score для символьных N-грамм применяется к символьным N-граммам.
ROUGE и BLEU работают с N-граммами или токенами слов .

Выбор правдоподобных альтернатив (COPA)

#Метрическая система

Набор данных для оценки того, насколько хорошо LLM может определить лучший из двух альтернативных ответов на предпосылку. Каждое из заданий в наборе данных состоит из трех компонентов:

Предпосылка, которая обычно представляет собой утверждение, за которым следует вопрос.
На поставленный в предпосылке вопрос можно ответить двумя способами, один из которых верен, а другой неверен.
Правильный ответ

Например:

Исходное предположение: Мужчина сломал палец на ноге. В чём причина этого?
Возможные ответы:
1. У него в носке образовалась дырка.
2. Он уронил молоток себе на ногу.
Правильный ответ: 2

COPA является компонентом ансамбля SuperGLUE .

CommitmentBank (CB)

#Метрическая система

Набор данных для оценки уровня владения студентом магистратуры правом определять, верит ли автор отрывка текста целевому предложению в этом отрывке. Каждая запись в наборе данных содержит:

Отрывок
Целевое предложение в этом отрывке
Логическое значение, указывающее, верит ли автор отрывка целевому предложению.

Например:

Отрывок: Как же приятно слышать смех Артемиды. Она такая серьёзная девочка. Я и не знала, что у неё есть чувство юмора.
Целевое условие: у неё было чувство юмора
Логическое значение : True, что означает, что автор верит целевому предложению.

CommitmentBank является компонентом комплекса SuperGLUE .

КОПА

#Метрическая система

Сокращение от "Выбор правдоподобных альтернатив" .

расходы

#Метрическая система

Синоним слова « потеря» .

контрфактуальная справедливость

#ответственный

#Метрическая система

Метрика справедливости , которая проверяет, дает ли модель классификации одинаковый результат для одного человека и для другого человека, идентичного первому, за исключением одного или нескольких конфиденциальных атрибутов . Оценка модели классификации на предмет контрфактической справедливости — один из методов выявления потенциальных источников предвзятости в модели.

Для получения более подробной информации обратитесь к одному из следующих источников:

Справедливость: контрфактуальная справедливость в кратком курсе по машинному обучению.
Когда миры сталкиваются: интеграция различных контрфактических предположений в контексте справедливости

перекрестная энтропия

#Метрическая система

Обобщение функции логарифмической потери на задачи многоклассовой классификации . Перекрестная энтропия количественно оценивает разницу между двумя распределениями вероятностей. См. также перплексию .

Функция кумулятивного распределения (ФКР)

#Метрическая система

Функция, определяющая частоту выборок, меньших или равных целевому значению. Например, рассмотрим нормальное распределение непрерывных значений. Функция распределения показывает, что приблизительно 50% выборок должны быть меньше или равны среднему значению, а приблизительно 84% выборок должны быть меньше или равны одному стандартному отклонению выше среднего значения.

Д

демографическое равенство

#ответственный

#Метрическая система

Показатель справедливости , который считается выполненным, если результаты классификации модели не зависят от заданного конфиденциального атрибута .

Например, если в университет Глуббдубдриба подают заявки как лилипуты, так и бробдингнаги, демографическое равенство достигается, если процент принятых лилипутов совпадает с процентом принятых бробдингнагов, независимо от того, является ли одна группа в среднем более квалифицированной, чем другая.

В отличие от принципов выравнивания шансов и равенства возможностей , которые допускают зависимость результатов классификации в целом от конфиденциальных атрибутов, но не допускают зависимости результатов классификации для определенных заданных эталонных меток от конфиденциальных атрибутов. См. «Борьба с дискриминацией с помощью более интеллектуального машинного обучения» для визуализации, демонстрирующей компромиссы при оптимизации для достижения демографического равенства.

Дополнительную информацию см. в разделе «Справедливость: демографическое равенство» в кратком курсе по машинному обучению.

Е

Расстояние перемещения экскаватора (EMD)

#Метрическая система

Мера относительного сходства двух распределений . Чем меньше расстояние, пройденное землеройной машиной, тем больше сходство распределений.

расстояние редактирования

#Метрическая система

Показатель степени сходства двух текстовых строк. В машинном обучении расстояние редактирования полезно по следующим причинам:

Расстояние редактирования вычислить несложно.
Функция Edit Distance позволяет сравнивать две строки, заведомо похожие друг на друга.
Расстояние редактирования может определять степень сходства различных строк с заданной строкой.

Существует несколько определений расстояния редактирования, каждое из которых использует различные строковые операции. Пример можно найти в расстоянии Левенштейна .

эмпирическая кумулятивная функция распределения (eCDF или EDF)

#Метрическая система

Кумулятивная функция распределения, основанная на эмпирических измерениях из реального набора данных. Значение функции в любой точке вдоль оси x представляет собой долю наблюдений в наборе данных, которые меньше или равны заданному значению.

энтропия

#df

#Метрическая система

В теории информации энтропия — это описание непредсказуемости распределения вероятностей. В качестве альтернативы, энтропия также определяется как количество информации, содержащейся в каждом примере . Распределение имеет максимально возможную энтропию, когда все значения случайной переменной одинаково вероятны.

Энтропия множества с двумя возможными значениями «0» и «1» (например, метки в задаче бинарной классификации ) имеет следующую формулу:

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

где:

H — это энтропия.
p — это доля примеров с "1" результатом.
q — это доля примеров с "0" значениями. Заметим, что q = (1 - p)
Обычно log равен log _2. В данном случае единицей измерения энтропии является бит.

Например, предположим следующее:

100 примеров содержат значение «1»
В 300 примерах содержится значение «0».

Следовательно, значение энтропии равно:

p = 0,25
q = 0,75
H = (-0,25)log ₂ (0,25) - (0,75)log ₂ (0,75) = 0,81 бит на пример

Идеально сбалансированный набор (например, 200 нулей и 200 единиц) будет иметь энтропию 1,0 бит на пример. По мере того, как набор становится всё более несбалансированным , его энтропия стремится к 0,0.

В деревьях решений энтропия помогает сформулировать информационный выигрыш , который позволяет алгоритму разделения выбирать условия в процессе построения дерева решений для классификации.

Сравните энтропию с:

примесь Джини
функция потерь перекрестной энтропии

Энтропию часто называют энтропией Шеннона .

Для получения дополнительной информации см. раздел «Точный разделитель для бинарной классификации с использованием числовых признаков» в курсе «Лесто решений».

равенство возможностей

#ответственный

#Метрическая система

Показатель справедливости, позволяющий оценить, насколько хорошо модель предсказывает желаемый результат для всех значений чувствительного атрибута . Другими словами, если желаемый результат для модели — положительный класс , цель состоит в том, чтобы доля истинно положительных результатов была одинаковой для всех групп.

Равенство возможностей связано с выравниванием шансов , что требует, чтобы как показатели истинно положительных результатов, так и показатели ложноположительных результатов были одинаковыми для всех групп.

Предположим, что Университет Глуббдубдриб принимает как лилипутов, так и бробдингнагцев на строгую математическую программу. Средние школы лилипутов предлагают насыщенную программу по математике, и подавляющее большинство учеников соответствуют требованиям для поступления в университет. Средние школы бробдингнагцев вообще не предлагают математических классов, и в результате гораздо меньше их учеников соответствуют требованиям. Равенство возможностей для предпочтительного статуса «принят» в зависимости от национальности (лилипут или бробдингнагец), если вероятность приема квалифицированных студентов одинакова независимо от того, являются ли они лилипутами или бробдингнагцами.

Например, предположим, что 100 лилипутов и 100 бробдингнагцев подают заявления в университет Глуббдубдриб, и решения о приеме принимаются следующим образом:

Таблица 1. Лилипуты среди претендентов (90% соответствуют требованиям)

	Квалифицированный	Неквалифицированный
Допущенный	45	3
Отклоненный	45	7
Общий	90	10
Процент принятых студентов, отвечающих требованиям: 45/90 = 50% Процент студентов, не прошедших отбор, составляет 7/10 = 70%. Общий процент принятых студентов-лилипутов: (45+3)/100 = 48%

Таблица 2. Огромное количество претендентов (10% соответствуют требованиям):

	Квалифицированный	Неквалифицированный
Допущенный	5	9
Отклоненный	5	81
Общий	10	90
Процент принятых студентов, отвечающих требованиям: 5/10 = 50% Процент студентов, не прошедших отбор, составляет: 81/90 = 90%. Общий процент принятых студентов из Бробдингнага: (5+9)/100 = 14%

Приведенные выше примеры удовлетворяют условию равенства возможностей для приема квалифицированных студентов, поскольку и лилипуты, и бробдингнаги имеют 50%-ный шанс быть принятыми.

Хотя принцип равенства возможностей соблюдается, следующие два показателя справедливости не соблюдаются:

Демографическое равенство : лилипуты и бробдингнаги поступают в университет с разной частотой; принимается 48% студентов-лилипутов, но только 14% студентов-бробдингнагов.
Уравненные шансы : Хотя у квалифицированных студентов-лилипутов и студентов-бробдингнагов одинаковые шансы на поступление, дополнительное ограничение, согласно которому у неквалифицированных лилипутов и студентов-бробдингнагов одинаковые шансы на отказ, не выполняется. У неквалифицированных лилипутов процент отказов составляет 70%, а у неквалифицированных студентов-бробдингнагов — 90%.

Дополнительную информацию см. в разделе «Справедливость: равенство возможностей в экспресс-курсе по машинному обучению».

уравненные шансы

#ответственный

#Метрическая система

Показатель справедливости, позволяющий оценить, насколько хорошо модель прогнозирует результаты для всех значений чувствительного атрибута как для положительного , так и для отрицательного класса, а не только для одного класса в отдельности. Другими словами, как показатель истинно положительных результатов , так и показатель ложноотрицательных результатов должны быть одинаковыми для всех групп.

Принцип выравнивания шансов связан с равенством возможностей , который фокусируется только на частоте ошибок для одного класса (положительного или отрицательного).

Например, предположим, что Университет Глуббдубдриб принимает как лилипутов, так и бробдингнагцев на строгую математическую программу. Средние школы лилипутов предлагают насыщенную программу по математике, и подавляющее большинство учеников соответствуют требованиям для поступления в университет. Средние школы бробдингнагцев вообще не предлагают математических курсов, и в результате гораздо меньше их учеников соответствуют требованиям. Уравненные шансы выполняются при условии, что независимо от того, является ли абитуриент лилипутом или бробдингнагцем, если он соответствует требованиям, у него одинаковая вероятность быть принятым в программу, а если он не соответствует требованиям, у него одинаковая вероятность получить отказ.

Предположим, 100 лилипутов и 100 бробдингнагцев подают заявления в университет Глуббдубдриб, и решения о приеме принимаются следующим образом:

Таблица 3. Лилипуты среди претендентов (90% соответствуют требованиям)

	Квалифицированный	Неквалифицированный
Допущенный	45	2
Отклоненный	45	8
Общий	90	10
Процент принятых студентов, отвечающих требованиям: 45/90 = 50% Процент студентов, не прошедших отбор, составляет 8/10 = 80%. Общий процент принятых студентов-лилипутов: (45+2)/100 = 47%

Таблица 4. Огромное количество претендентов (10% соответствуют требованиям):

	Квалифицированный	Неквалифицированный
Допущенный	5	18
Отклоненный	5	72
Общий	10	90
Процент принятых студентов, отвечающих требованиям: 5/10 = 50% Процент студентов, не прошедших отбор, составил: 72/90 = 80%. Общий процент принятых студентов из Бробдингнага: (5+18)/100 = 23%

Уравненные шансы соблюдены, поскольку у квалифицированных студентов уровня лилипута и бробдингнага вероятность поступления составляет 50%, а у неквалифицированных студентов уровня лилипута и бробдингнага — 80%.

В работе «Равенство возможностей в контролируемом обучении» формально определяется принцип выравнивания шансов следующим образом: «предиктор Ŷ удовлетворяет принципу выравнивания шансов по отношению к защищаемому атрибуту A и результату Y, если Ŷ и A независимы при условии Y».

оценки

#генеративныйИИ

#Метрическая система

В основном используется как аббревиатура для обозначения оценок в рамках магистерских программ . В более широком смысле, «оценки» — это аббревиатура для любой формы оценки .

оценка

#генеративныйИИ

#Метрическая система

Процесс оценки качества модели или сравнения различных моделей друг с другом.

Для оценки модели машинного обучения с учителем обычно проводят сравнение с проверочным и тестовым наборами данных . Оценка модели машинного обучения с учителем, как правило, включает в себя более широкие оценки качества и безопасности.

точное совпадение

#Метрическая система

Метрика типа «всё или ничего», при которой выходные данные модели либо точно соответствуют истинным значениям или эталонному тексту , либо нет. Например, если истинные значения — «оранжевый» , то единственным результатом работы модели, удовлетворяющим условию точного совпадения, будет «оранжевый» .

Точное совпадение также может оценивать модели, выходные данные которых представляют собой последовательность (ранжированный список элементов). В общем случае, для точного совпадения требуется, чтобы сгенерированный ранжированный список точно соответствовал истинным значениям; то есть каждый элемент в обоих списках должен быть в одном и том же порядке. Однако, если истинные значения состоят из нескольких правильных последовательностей, то для точного совпадения достаточно, чтобы выходные данные модели совпадали только с одной из правильных последовательностей.

Экстремальное суммирование (xsum)

#Метрическая система

Набор данных для оценки способности магистра права (LLM) обобщать содержание одного документа. Каждая запись в наборе данных состоит из:

Документ, подготовленный Британской вещательной корпорацией (BBC).
Краткое изложение этого документа в одном предложении.

Подробности см. в статье «Не вдавайтесь в подробности, только краткое изложение! Тематически ориентированные сверточные нейронные сети для экстремального суммирования» .

Ф

Ф ₁

#Метрическая система

Сводная метрика бинарной классификации , основанная как на точности , так и на полноте . Вот формула:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

Нажмите на значок, чтобы посмотреть примеры.

Предположим, что точность и полнота имеют следующие значения:

точность = 0,6
полнота = 0,4

Значение _F1 рассчитывается следующим образом:

$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

Когда точность и полнота достаточно близки (как в предыдущем примере), _F1 близок к их среднему значению. Когда точность и полнота значительно различаются, _F1 ближе к меньшему значению. Например:

точность = 0,9
полнота = 0,1

$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

метрика справедливости

#ответственный

#Метрическая система

Математическое определение «справедливости», поддающееся измерению. К числу часто используемых показателей справедливости относятся:

уравненные шансы
прогнозируемая паритетность
контрфактуальная справедливость
демографическое равенство

Многие показатели справедливости являются взаимоисключающими; см. несовместимость показателей справедливости .

ложноотрицательный результат (FN)

#основы

#Метрическая система

Пример, в котором модель ошибочно предсказывает отрицательный класс . Например, модель предсказывает, что конкретное электронное письмо не является спамом (отрицательный класс), но на самом деле это письмо является спамом .

частота ложноотрицательных результатов

#Метрическая система

Доля фактически положительных примеров, для которых модель ошибочно предсказала отрицательный класс. Следующая формула вычисляет частоту ложноотрицательных результатов:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

Более подробную информацию см. в разделе «Пороги и матрица ошибок» в кратком курсе по машинному обучению.

ложноположительный результат (FP)

#основы

#Метрическая система

Пример, в котором модель ошибочно предсказывает положительный класс . Например, модель предсказывает, что конкретное электронное письмо является спамом (положительный класс), но на самом деле это электронное письмо не является спамом .

Более подробную информацию см. в разделе «Пороги и матрица ошибок» в кратком курсе по машинному обучению.

Частота ложноположительных результатов (FPR)

#основы

#Метрическая система

Доля фактически отрицательных примеров, для которых модель ошибочно предсказала положительный класс. Следующая формула вычисляет частоту ложноположительных результатов:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Показатель ложноположительных результатов отображается по оси X на ROC-кривой .

Дополнительную информацию см. в разделе «Классификация: ROC и AUC в экспресс-курсе по машинному обучению».

важность функций

#df

#Метрическая система

Синоним переменных важностей .

фундаментальная модель

#генеративныйИИ

#Метрическая система

Очень большая предварительно обученная модель, обученная на огромном и разнообразном обучающем наборе данных . Базовая модель может выполнять обе следующие функции:

Умеет оперативно реагировать на широкий круг запросов.
Служит базовой моделью для дальнейшей тонкой настройки или других модификаций.

Иными словами, базовая модель уже в общем смысле очень функциональна, но её можно дополнительно адаптировать, чтобы сделать ещё более полезной для решения конкретной задачи.

доля успехов

#генеративныйИИ

#Метрическая система

Метрика для оценки текста, сгенерированного моделью машинного обучения. Доля успешных результатов — это количество «успешных» сгенерированных текстовых результатов, деленное на общее количество сгенерированных текстовых результатов. Например, если большая языковая модель сгенерировала 10 блоков кода, пять из которых были успешными, то доля успешных результатов составит 50%.

Хотя показатель доли успешных результатов широко используется в статистике, в машинном обучении он в первую очередь полезен для оценки проверяемых задач, таких как генерация кода или решение математических задач.

Г

примесь Джини

#df

#Метрическая система

Метрика, аналогичная энтропии . Разделители используют значения, полученные либо из коэффициента Джини, либо из энтропии, для составления условий для деревьев решений классификации. Прирост информации выводится из энтропии. Универсально принятого эквивалентного термина для метрики, полученной из коэффициента Джини, не существует; однако эта неназванная метрика так же важна, как и прирост информации.

Коэффициент Джини также называют индексом Джини или просто Джини .

Нажмите на значок, чтобы получить подробные математические данные о коэффициенте Джини.

Коэффициент Джини — это вероятность неправильной классификации нового фрагмента данных, взятого из того же распределения. Коэффициент Джини для множества с двумя возможными значениями «0» и «1» (например, метки в задаче бинарной классификации ) рассчитывается по следующей формуле:

I = 1 - ( ^p² + ^q² ) = 1 - ( ^p² + (1-p) ^² )

где:

I — это примесь Джини.
p — это доля примеров с "1" результатом.
q — это доля примеров с "0" значениями. Заметим, что q = 1-p

Например, рассмотрим следующий набор данных:

100 меток (0,25 от набора данных) содержат значение «1».
300 меток (0,75 от всего набора данных) содержат значение «0».

Следовательно, коэффициент Джини равен:

p = 0,25
q = 0,75
I = 1 - ( ^0,25² + ^0,75² ) = 0,375

Следовательно, случайная метка из того же набора данных будет иметь 37,5% вероятность быть неправильно классифицированной и 62,5% вероятность быть правильно классифицированной.

Идеально сбалансированная метка (например, 200 «0» и 200 «1») будет иметь коэффициент Джини 0,5. Сильно несбалансированная метка будет иметь коэффициент Джини, близкий к 0,0.

ЧАС

потеря шарнира

#Метрическая система

Семейство функций потерь для классификации , предназначенных для нахождения границы принятия решения как можно дальше от каждого обучающего примера, тем самым максимизируя расстояние между примерами и границей. KSVM используют функцию потерь типа «шарнир» (или аналогичную функцию, например, квадратичную функцию потерь типа «шарнир»). Для бинарной классификации функция потерь типа «шарнир» определяется следующим образом:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

где y — истинная метка, либо -1, либо +1, а y' — исходный результат работы модели классификации :

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Следовательно, график зависимости потерь шарнира от (y * y') выглядит следующим образом:

Декартова диаграмма, состоящая из двух соединенных отрезков. Первый отрезок начинается в точке (-3, 4) и заканчивается в точке (1, 0). Второй отрезок начинается в точке (1, 0) и продолжается бесконечно с наклоном, равным 0.

я

несовместимость метрик справедливости

#ответственный

#Метрическая система

Идея заключается в том, что некоторые понятия справедливости взаимоисключающи и не могут быть удовлетворены одновременно. В результате не существует единой универсальной метрики для количественной оценки справедливости, применимой ко всем задачам машинного обучения.

Хотя это может показаться обескураживающим, несовместимость метрик справедливости не означает, что усилия по обеспечению справедливости бесплодны. Напротив, это говорит о том, что справедливость должна определяться контекстуально для конкретной задачи машинного обучения с целью предотвращения вреда, специфичного для ее вариантов использования.

Более подробное обсуждение несовместимости показателей справедливости см. в разделе "О (не)возможности справедливости" .

индивидуальная справедливость

#ответственный

#Метрическая система

Показатель справедливости, проверяющий, классифицируются ли похожие люди одинаково. Например, Бробдингнагианская академия может стремиться к обеспечению индивидуальной справедливости, гарантируя, что два студента с одинаковыми оценками и результатами стандартизированных тестов имеют равные шансы на поступление.

Следует отметить, что индивидуальная справедливость полностью зависит от того, как вы определяете «сходство» (в данном случае, оценки и результаты тестов), и вы рискуете столкнуться с новыми проблемами справедливости, если ваш показатель сходства не учитывает важную информацию (например, сложность учебной программы студента).

Более подробное обсуждение индивидуальной справедливости см. в разделе «Справедливость через осведомленность» .

получение информации

#df

#Метрическая система

В деревьях решений энтропия узла определяется как разница между энтропией узла и взвешенной (по количеству примеров) суммой энтропий его дочерних узлов. Энтропия узла — это энтропия примеров в этом узле.

Например, рассмотрим следующие значения энтропии:

энтропия родительского узла = 0,6
Энтропия одного дочернего узла с 16 релевантными примерами = 0,2
Энтропия другого дочернего узла с 24 релевантными примерами = 0,1

Таким образом, 40% примеров находятся в одном дочернем узле, а 60% — в другом дочернем узле. Следовательно:

Взвешенная сумма энтропии дочерних узлов = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Таким образом, прирост информации составляет:

Прирост информации = энтропия родительского узла - взвешенная сумма энтропий дочерних узлов
Прирост информации = 0,6 - 0,14 = 0,46

Большинство разделителей стремятся создать условия , которые максимизируют прирост информации.

согласованность между экспертами

#Метрическая система

Показатель того, насколько часто мнения экспертов-оценщиков совпадают при выполнении задания. Если мнения экспертов расходятся, возможно, необходимо улучшить инструкции к заданию. Иногда также называется межэкспертным согласием или межэкспертной надежностью . См. также коэффициент Каппа Коэна , который является одним из наиболее популярных показателей межэкспертного согласия.

Дополнительную информацию см. в разделе «Категориальные данные: распространенные проблемы в курсе машинного обучения».

Л

Потеря L ₁

#основы

#Метрическая система

Функция потерь , которая вычисляет абсолютное значение разницы между фактическими значениями меток и значениями, предсказанными моделью . Например, вот расчет функции потерь _L1 для группы из пяти примеров :

Фактическая ценность примера	Прогнозируемое значение модели	Абсолютное значение дельты
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = L ₁ потеря

Функция потерь _L1 менее чувствительна к выбросам , чем функция потерь _L2 .

Средняя абсолютная ошибка — это средняя ошибка _L1 на пример.

Нажмите на значок, чтобы увидеть формальную математическую формулировку.

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

где:

$n$ — количество примеров.
$y$ — это фактическое значение метки.
$\hat{y}$ — это значение, которое модель предсказывает для $y$.

Дополнительную информацию см. в разделе «Линейная регрессия: функция потерь в машинном обучении» (краткий курс).

Потеря L ₂

#основы

#Метрическая система

Функция потерь , которая вычисляет квадрат разницы между фактическими значениями меток и значениями, предсказанными моделью . Например, вот расчет функции потерь _L2 для группы из пяти примеров :

Фактическая ценность примера	Прогнозируемое значение модели	Квадрат дельты
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		16 = L ₂ потери

Вследствие возведения в квадрат, функция потерь _L2 усиливает влияние выбросов . То есть, функция потерь _L2 реагирует на плохие прогнозы сильнее, чем функция потерь _L1 . Например, функция потерь _L1 для предыдущей партии составила бы 8, а не 16. Обратите внимание, что один выброс объясняет 9 из 16.

В регрессионных моделях в качестве функции потерь обычно используется _L2- функция потерь.

Среднеквадратичная ошибка — это средняя ошибка L2 _{-пространства} на пример. Квадратичная ошибка — это другое название ошибки L2 _- пространства.

Нажмите на значок, чтобы увидеть формальную математическую формулировку.

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

где:

$n$ — количество примеров.
$y$ — это фактическое значение метки.
$\hat{y}$ — это значение, которое модель предсказывает для $y$.

Дополнительную информацию см. в разделе «Логистическая регрессия: функция потерь и регуляризация» в книге «Краткий курс по машинному обучению».

Оценка программ магистратуры в области права (LLM)

#генеративныйИИ

#Метрическая система

Набор метрик и критериев для оценки производительности больших языковых моделей (БЛМ). В общих чертах, оценка БЛМ включает в себя:

Помогите исследователям выявить области, в которых программы обучения лингвистическим навыкам нуждаются в улучшении.
Они полезны для сравнения различных моделей обучения и определения наилучшей модели обучения для конкретной задачи.
Помогите обеспечить безопасность и этичность использования LLM-ов.

See Large language models (LLMs) in Machine Learning Crash Course for more information.

потеря

#основы

#Metric

During the training of a supervised model , a measure of how far a model's prediction is from its label .

A loss function calculates the loss.

See Linear regression: Loss in Machine Learning Crash Course for more information.

функция потерь

#основы

#Metric

During training or testing, a mathematical function that calculates the loss on a batch of examples. A loss function returns a lower loss for models that makes good predictions than for models that make bad predictions.

The goal of training is typically to minimize the loss that a loss function returns.

Many different kinds of loss functions exist. Pick the appropriate loss function for the kind of model you are building. For example:

L ₂ loss (or Mean Squared Error ) is the loss function for linear regression .
Log Loss is the loss function for logistic regression .

М

матричная факторизация

In math, a mechanism for finding the matrixes whose dot product approximates a target matrix.

In recommendation systems , the target matrix often holds users' ratings on items . For example, the target matrix for a movie recommendation system might look something like the following, where the positive integers are user ratings and 0 means that the user didn't rate the movie:

	Касабланка	The Philadelphia Story	Чёрная Пантера	Чудо-женщина	Криминальное чтиво
Пользователь 1	5.0	3.0	0.0	2.0	0.0
Пользователь 2	4.0	0.0	0.0	1.0	5.0
Пользователь 3	3.0	1.0	4.0	5.0	0.0

The movie recommendation system aims to predict user ratings for unrated movies. For example, will User 1 like Black Panther ?

One approach for recommendation systems is to use matrix factorization to generate the following two matrixes:

A user matrix , shaped as the number of users X the number of embedding dimensions.
An item matrix , shaped as the number of embedding dimensions X the number of items.

For example, using matrix factorization on our three users and five items could yield the following user matrix and item matrix:

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

The dot product of the user matrix and item matrix yields a recommendation matrix that contains not only the original user ratings but also predictions for the movies that each user hasn't seen. For example, consider User 1's rating of Casablanca , which was 5.0. The dot product corresponding to that cell in the recommendation matrix should hopefully be around 5.0, and it is:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

More importantly, will User 1 like Black Panther ? Taking the dot product corresponding to the first row and the third column yields a predicted rating of 4.3:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

Matrix factorization typically yields a user matrix and item matrix that, together, are significantly more compact than the target matrix.

МБПП

#Metric

Abbreviation for Mostly Basic Python Problems .

Mean Absolute Error (MAE)

#Metric

The average loss per example when L ₁ loss is used. Calculate Mean Absolute Error as follows:

Calculate the L ₁ loss for a batch.
Divide the L ₁ loss by the number of examples in the batch.

Click the icon to see the formal math.

$$\text{Mean Absolute Error} = \frac{1}{n}\sum_{i=0}^n | y_i - \hat{y}_i |$$

где:

$n$ is the number of examples.
$y$ is the actual value of the label.
$\hat{y}$ is the value that the model predicts for $y$.

For example, consider the calculation of L ₁ loss on the following batch of five examples:

Actual value of example	Model's predicted value	Loss (difference between actual and predicted)
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = L ₁ loss

So, L ₁ loss is 8 and the number of examples is 5. Therefore, the Mean Absolute Error is:

Mean Absolute Error = L₁ loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

Contrast Mean Absolute Error with Mean Squared Error and Root Mean Squared Error .

mean average precision at k (mAP@k)

#generativeAI

#Metric

The statistical mean of all average precision at k scores across a validation dataset. One use of mean average precision at k is to judge the quality of recommendations generated by a recommendation system .

Although the phrase "mean average" sounds redundant, the name of the metric is appropriate. After all, this metric finds the mean of multiple average precision at k values.

Click the icon to see an example.

Suppose you build a recommendation system that generates a personalized list of recommended novels for each user. Based on feedback from selected users, you calculate the following five average precision at k scores (one score per user):

0,73
0,77
0,67
0,82
0,76

The mean Average Precision at K is therefore:

$$\text{mean } = \frac{\text{0.73 + 0.77 + 0.67 + 0.82 + 0.76}} {\text{5}} = \text{0.75}$$

Среднеквадратичная ошибка (MSE)

#Metric

The average loss per example when L ₂ loss is used. Calculate Mean Squared Error as follows:

Calculate the L ₂ loss for a batch.
Divide the L ₂ loss by the number of examples in the batch.

Click the icon to see the formal math.

$$\text{Mean Squared Error} = \frac{1}{n}\sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$где:

$n$ is the number of examples.
$y$ is the actual value of the label.
$\hat{y}$ is the model's prediction for $y$.

For example, consider the loss on the following batch of five examples:

Фактическая стоимость	Model's prediction	Потеря	Squared loss
7	6	1	1
5	4	1	1
8	11	3	9
4	6	2	4
9	8	1	1
			16 = L ₂ loss

Therefore, the Mean Squared Error is:

Mean Squared Error = L₂ loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

Mean Squared Error is a popular training optimizer , particularly for linear regression .

Contrast Mean Squared Error with Mean Absolute Error and Root Mean Squared Error .

TensorFlow Playground uses Mean Squared Error to calculate loss values.

Click the icon to see more details about outliers.

Outliers strongly influence Mean Squared Error. For example, a loss of 1 is a squared loss of 1, but a loss of 3 is a squared loss of 9. In the preceding table, the example with a loss of 3 accounts for ~56% of the Mean Squared Error, while each of the examples with a loss of 1 accounts for only 6% of the Mean Squared Error.

Outliers don't influence Mean Absolute Error as strongly as Mean Squared Error. For example, a loss of 3 accounts for only ~38% of the Mean Absolute Error.

Clipping is one way to prevent extreme outliers from damaging your model's predictive ability.

метрика

#TensorFlow

#Metric

A statistic that you care about.

An objective is a metric that a machine learning system tries to optimize.

Metrics API (tf.metrics)

#Metric

A TensorFlow API for evaluating models. For example, tf.metrics.accuracy determines how often a model's predictions match labels.

minimax loss

#Metric

A loss function for generative adversarial networks , based on the cross-entropy between the distribution of generated data and real data.

Minimax loss is used in the first paper to describe generative adversarial networks.

See Loss Functions in the Generative Adversarial Networks course for more information.

model capacity

#Metric

The complexity of problems that a model can learn. The more complex the problems that a model can learn, the higher the model's capacity. A model's capacity typically increases with the number of model parameters. For a formal definition of classification model capacity, see VC dimension .

Импульс

A sophisticated gradient descent algorithm in which a learning step depends not only on the derivative in the current step, but also on the derivatives of the step(s) that immediately preceded it. Momentum involves computing an exponentially weighted moving average of the gradients over time, analogous to momentum in physics. Momentum sometimes prevents learning from getting stuck in local minima.

Mostly Basic Python Problems (MBPP)

#Metric

A dataset for evaluating an LLM's proficiency in generating Python code. Mostly Basic Python Problems provides about 1,000 crowd-sourced programming problems. Each problem in the dataset contains:

A task description
Код решения
Three automated test cases

Н

negative class

#основы

#Metric

In binary classification , one class is termed positive and the other is termed negative . The positive class is the thing or event that the model is testing for and the negative class is the other possibility. For example:

The negative class in a medical test might be "not tumor."
The negative class in an email classification model might be "not spam."

Contrast with positive class .

О

цель

#Metric

A metric that your algorithm is trying to optimize.

целевая функция

#Metric

The mathematical formula or metric that a model aims to optimize. For example, the objective function for linear regression is usually Mean Squared Loss . Therefore, when training a linear regression model, training aims to minimize Mean Squared Loss.

In some cases, the goal is to maximize the objective function. For example, if the objective function is accuracy, the goal is to maximize accuracy.

П

pass at k (pass@k)

#Metric

A metric to determine the quality of code (for example, Python) that a large language model generates. More specifically, pass at k tells you the likelihood that at least one generated block of code out of k generated blocks of code will pass all of its unit tests.

Large language models often struggle to generate good code for complex programming problems. Software engineers adapt to this problem by prompting the large language model to generate multiple ( k ) solutions for the same problem. Then, software engineers test each of the solutions against unit tests. The calculation of pass at k depends on the outcome of the unit tests:

If one or more of those solutions pass the unit test, then the LLM Passes that code generation challenge.
If none of the solutions pass the unit test, then the LLM Fails that code generation challenge.

The formula for pass at k is as follows:

\[\text{pass at k} = \frac{\text{total number of passes}} {\text{total number of challenges}}\]

In general, higher values of k produce higher pass at k scores; however, higher values of k require more large language model and unit testing resources.

Click the icon for an example.

Suppose a software engineer asks a large language model to generate k =10 solutions for n =50 challenging coding problems. Here are the results:

30 Passes
20 Fails

The pass at 10 score is therefore:

$$\text{pass at 10} = \frac{\text{30}} {\text{50}} = 0.6$$

производительность

#Metric

Overloaded term with the following meanings:

The standard meaning within software engineering. Namely: How fast (or efficiently) does this piece of software run?
The meaning within machine learning. Here, performance answers the following question: How correct is this model ? That is, how good are the model's predictions?

permutation variable importances

#df

#Metric

A type of variable importance that evaluates the increase in the prediction error of a model after permuting the feature's values. Permutation variable importance is a model-independent metric.

недоумение

#Metric

One measure of how well a model is accomplishing its task. For example, suppose your task is to read the first few letters of a word a user is typing on a phone keyboard, and to offer a list of possible completion words. Perplexity, P, for this task is approximately the number of guesses you need to offer in order for your list to contain the actual word the user is trying to type.

Perplexity is related to cross-entropy as follows:

$$P= 2^{-\text{cross entropy}}$$

positive class

#основы

#Metric

The class you are testing for.

For example, the positive class in a cancer model might be "tumor." The positive class in an email classification model might be "spam."

Contrast with negative class .

Click the icon for additional notes.

The term positive class can be confusing because the "positive" outcome of many tests is often an undesirable result. For example, the positive class in many medical tests corresponds to tumors or diseases. In general, you want a doctor to tell you, "Congratulations! Your test results were negative." Regardless, the positive class is the event that the test is seeking to find.

Admittedly, you're simultaneously testing for both the positive and negative classes.

PR AUC (area under the PR curve)

#Metric

Area under the interpolated precision-recall curve , obtained by plotting (recall, precision) points for different values of the classification threshold .

точность

#основы

#Metric

A metric for classification models that answers the following question:

When the model predicted the positive class , what percentage of the predictions were correct?

Here is the formula:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

где:

true positive means the model correctly predicted the positive class.
false positive means the model mistakenly predicted the positive class.

For example, suppose a model made 200 positive predictions. Of these 200 positive predictions:

150 were true positives.
50 were false positives.

В этом случае:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

Contrast with accuracy and recall .

See Classification: Accuracy, recall, precision and related metrics in Machine Learning Crash Course for more information.

precision at k (precision@k)

#Metric

A metric for evaluating a ranked (ordered) list of items. Precision at k identifies the fraction of the first k items in that list that are "relevant." That is:

\[\text{precision at k} = \frac{\text{relevant items in first k items of the list}} {\text{k}}\]

The value of k must be less than or equal to the length of the returned list. Note that the length of the returned list is not part of the calculation.

Relevance is often subjective; even expert human evaluators often disagree on which items are relevant.

Сравните с:

average precision at k
mean average precision at k

Click the icon to see an example.

Suppose a large language model is given the following query:

List the 6 funniest movies of all time in order.

And the large language model returns the list shown in the first two columns of the following table:

Позиция	Фильм	Соответствующий?
1	Генерал	Да
2	Дрянные девчонки	Да
3	Взвод	Нет
4	Bridesmaids	Да
5	Гражданин Кейн	Нет
6	Это Spinal Tap	Да

Two of the first three movies are relevant, so precision at 3 is:

$$\text{precision at 3} = \frac{\text{2}} {\text{3}} = 0.67$$

Three of the first five movies are very funny, so precision at 5 is:

$$\text{precision at 5} = \frac{\text{3}} {\text{5}} = 0.6$$

precision-recall curve

#Metric

A curve of precision versus recall at different classification thresholds .

prediction bias

#Metric

A value indicating how far apart the average of predictions is from the average of labels in the dataset.

Not to be confused with the bias term in machine learning models or with bias in ethics and fairness .

predictive parity

#ответственный

#Metric

A fairness metric that checks whether, for a given classification model , the precision rates are equivalent for subgroups under consideration.

For example, a model that predicts college acceptance would satisfy predictive parity for nationality if its precision rate is the same for Lilliputians and Brobdingnagians.

Predictive parity is sometime also called predictive rate parity .

See "Fairness Definitions Explained" (section 3.2.1) for a more detailed discussion of predictive parity.

predictive rate parity

#ответственный

#Metric

Another name for predictive parity .

функция плотности вероятности

#Metric

A function that identifies the frequency of data samples having exactly a particular value. When a dataset's values are continuous floating-point numbers, exact matches rarely occur. However, integrating a probability density function from value x to value y yields the expected frequency of data samples between x and y .

For example, consider a normal distribution having a mean of 200 and a standard deviation of 30. To determine the expected frequency of data samples falling within the range 211.4 to 218.7, you can integrate the probability density function for a normal distribution from 211.4 to 218.7.

Р

Reading Comprehension with Commonsense Reasoning Dataset (ReCoRD)

#Metric

A dataset to evaluate an LLM's ability to perform commonsense reasoning. Each example in the dataset contains three components:

A paragraph or two from a news article
A query in which one of the entities explicitly or implicitly identified in the passage is masked .
The answer (the name of the entity that belongs in the mask)

See ReCoRD for an extensive list of examples.

ReCoRD is a component of the SuperGLUE ensemble.

RealToxicityPrompts

#Metric

A dataset that contains a set of sentence beginnings that might contain toxic content. Use this dataset to evaluate an LLM's ability to generate non-toxic text to complete the sentence. Typically, you use the Perspective API to determine how well the LLM performed at this task.

See RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models for details.

отзывать

#основы

#Metric

A metric for classification models that answers the following question:

When ground truth was the positive class , what percentage of predictions did the model correctly identify as the positive class?

Here is the formula:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

где:

true positive means the model correctly predicted the positive class.
false negative means that the model mistakenly predicted the negative class .

For instance, suppose your model made 200 predictions on examples for which ground truth was the positive class. Of these 200 predictions:

180 were true positives.
20 were false negatives.

В этом случае:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

Click the icon for notes about class-imbalanced datasets.

Recall is particularly useful for determining the predictive power of classification models in which the positive class is rare. For example, consider a class-imbalanced dataset in which the positive class for a certain disease occurs in only 10 patients out of a million. Suppose your model makes five million predictions that yield the following outcomes:

30 True Positives
20 False Negatives
4,999,000 True Negatives
950 False Positives

The recall of this model is therefore:

recall = TP / (TP + FN)
recall = 30 / (30 + 20) = 0.6 = 60%

By contrast, the accuracy of this model is:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

That high value of accuracy looks impressive but is essentially meaningless. Recall is a much more useful metric for class-imbalanced datasets than accuracy.

See Classification: Accuracy, recall, precision and related metrics for more information.

recall at k (recall@k)

#Metric

A metric for evaluating systems that output a ranked (ordered) list of items. Recall at k identifies the fraction of relevant items in the first k items in that list out of the total number of relevant items returned.

\[\text{recall at k} = \frac{\text{relevant items in first k items of the list}} {\text{total number of relevant items in the list}}\]

Contrast with precision at k .

Click the icon to see an example.

Suppose a large language model is given the following query:

List the 10 funniest movies of all time in order.

And the large language model returns the list shown in the first two columns:

Позиция	Фильм	Соответствующий?
1	Генерал	Да
2	Дрянные девчонки	Да
3	Взвод	Нет
4	Bridesmaids	Да
5	Это Spinal Tap	Да
6	Самолёт!	Да
7	День сурка	Да
8	Монти Пайтон и Святой Грааль	Да
9	Оппенгеймер	Нет
10	Бестолковый	Да

Eight of the movies in the preceding list are very funny, so they are "relevant items in the list." Therefore, 8 will be the denominator in all the calculations of recall at k . What about the numerator? Well, 3 of the first 4 items are relevant, so recall at 4 is:

$$\text{recall at 4} = \frac{\text{3}} {\text{8}} = 0.375$$

7 of the first 8 movies are very funny, so recall at 8 is:

$$\text{recall at 8} = \frac{\text{7}} {\text{8}} = 0.875$$

Recognizing Textual Entailment (RTE)

#Metric

A dataset for evaluating an LLM's ability to determine whether a hypothesis can be entailed (logically drawn) from a text passage. Each example in an RTE evaluation consists of three parts:

A passage, typically from news or Wikipedia articles
A hypothesis
The correct answer, which is either:
- True, meaning the hypothesis can be entailed from the passage
- False, meaning the hypothesis can't be entailed from the passage

Например:

Passage: The Euro is the currency of the European Union.
Hypothesis: France uses the Euro as currency.
Entailment: True, because France is part of the European Union.

RTE is a component of the SuperGLUE ensemble.

Записывать

#Metric

Abbreviation for Reading Comprehension with Commonsense Reasoning Dataset .

ROC (receiver operating characteristic) Curve

#основы

#Metric

A graph of true positive rate versus false positive rate for different classification thresholds in binary classification.

The shape of an ROC curve suggests a binary classification model's ability to separate positive classes from negative classes. Suppose, for example, that a binary classification model perfectly separates all the negative classes from all the positive classes:

A number line with 8 positive examples on the right side and
7 negative examples on the left.

The ROC curve for the preceding model looks as follows:

An ROC curve. The x-axis is False Positive Rate and the y-axis
is True Positive Rate. The curve has an inverted L shape. The curve
starts at (0.0,0.0) and goes straight up to (0.0,1.0). Then the curve
goes from (0.0,1.0) to (1.0,1.0).

In contrast, the following illustration graphs the raw logistic regression values for a terrible model that can't separate negative classes from positive classes at all:

A number line with positive examples and negative classes
completely intermixed.

The ROC curve for this model looks as follows:

An ROC curve, which is actually a straight line from (0.0,0.0)
to (1.0,1.0).

Meanwhile, back in the real world, most binary classification models separate positive and negative classes to some degree, but usually not perfectly. So, a typical ROC curve falls somewhere between the two extremes:

An ROC curve. The x-axis is False Positive Rate and the y-axis
is True Positive Rate. The ROC curve approximates a shaky arc
traversing the compass points from West to North.

The point on an ROC curve closest to (0.0,1.0) theoretically identifies the ideal classification threshold. However, several other real-world issues influence the selection of the ideal classification threshold. For example, perhaps false negatives cause far more pain than false positives.

A numerical metric called AUC summarizes the ROC curve into a single floating-point value.

Root Mean Squared Error (RMSE)

#основы

#Metric

The square root of the Mean Squared Error .

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

#Metric

A family of metrics that evaluate automatic summarization and machine translation models. ROUGE metrics determine the degree to which a reference text overlaps an ML model's generated text . Each member of the ROUGE family measures overlap in a different way. Higher ROUGE scores indicate more similarity between the reference text and generated text than lower ROUGE scores.

Each ROUGE family member typically generates the following metrics:

Точность
Отзывать
Ф ₁

For details and examples, see:

РУЖ-Л
ROUGE-N
ROUGE-S

РУЖ-Л

#Metric

A member of the ROUGE family focused on the length of the longest common subsequence in the reference text and generated text . The following formulas calculate recall and precision for ROUGE-L:

$$\text{ROUGE-L recall} = \frac{\text{longest common sequence}} {\text{number of words in the reference text} }$$

$$\text{ROUGE-L precision} = \frac{\text{longest common sequence}} {\text{number of words in the generated text} }$$

You can then use F ₁ to roll up ROUGE-L recall and ROUGE-L precision into a single metric:

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{ROUGE-L recall} * \text{ROUGE-L precision}} {\text{ROUGE-L recall} + \text{ROUGE-L precision} }$$

Click the icon for an example calculation of ROUGE-L.

Consider the following reference text and generated text.

Категория	Who produced?	Текст
Reference text	Human translator	I want to understand a wide variety of things.
Generated text	ML model	I want to learn plenty of things.

Поэтому:

The longest common subsequence is 5 ( I want to of things )
The number of words in the reference text is 9.
The number of words in the generated text is 7.

Следовательно:

$$\text{ROUGE-L recall} = \frac{\text{5}} {\text{9} } = 0.56$$

$$\text{ROUGE-L precision} = \frac{\text{5}} {\text{7} } = 0.71$$

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{0.56} * \text{0.71}} {\text{0.56} + \text{0.71} } = 0.63$$

ROUGE-L ignores any newlines in the reference text and generated text, so the longest common subsequence could cross multiple sentences. When the reference text and generated text involve multiple sentences, a variation of ROUGE-L called ROUGE-Lsum is generally a better metric. ROUGE-Lsum determines the longest common subsequence for each sentence in a passage and then calculates the mean of those longest common subsequences.

Click the icon for an example calculation of ROUGE-Lsum.

Consider the following reference text and generated text.

Категория	Who produced?	Текст
Reference text	Human translator	The surface of Mars is dry. Nearly all the water is deep underground.
Generated text	ML model	Mars has a dry surface. However, the vast majority of water is underground.

Поэтому:

	Первое предложение	Second sentence
Longest common sequence	2 (Mars dry)	3 (water is underground)
Sentence length of reference text	6	7
Sentence length of generated text	5	8

Следовательно:

$$\text{recall of first sentence} = \frac{\text{2}} {\text{6}} = 0.33 $$

$$\text{recall of second sentence} = \frac{\text{3}} {\text{7}} = 0.43 $$

$$\text{ROUGE-Lsum recall} = \frac{\text{0.33} + \text{0.43}} {\text{2}} = 0.38 $$

$$\text{precision of first sentence} = \frac{\text{2}} {\text{5}} = 0.4 $$

$$\text{precision of second sentence} = \frac{\text{3}} {\text{8}} = 0.38 $$

$$\text{ROUGE-Lsum precision} = \frac{\text{0.4} + \text{0.38}} {\text{2}} = 0.39 $$

$$\text{ROUGE-Lsum F}{_1} = \frac{\text{2} * \text{0.38} * \text{0.39}} {\text{0.38} + \text{0.39}} = 0.38 $$

ROUGE-N

#Metric

A set of metrics within the ROUGE family that compares the shared N-grams of a certain size in the reference text and generated text . For example:

ROUGE-1 measures the number of shared tokens in the reference text and generated text.
ROUGE-2 measures the number of shared bigrams (2-grams) in the reference text and generated text.
ROUGE-3 measures the number of shared trigrams (3-grams) in the reference text and generated text.

You can use the following formulas to calculate ROUGE-N recall and ROUGE-N precision for any member of the ROUGE-N family:

$$\text{ROUGE-N recall} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the reference text} }$$

$$\text{ROUGE-N precision} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the generated text} }$$

You can then use F ₁ to roll up ROUGE-N recall and ROUGE-N precision into a single metric:

$$\text{ROUGE-N F}{_1} = \frac{\text{2} * \text{ROUGE-N recall} * \text{ROUGE-N precision}} {\text{ROUGE-N recall} + \text{ROUGE-N precision} }$$

Click the icon for an example.

Suppose you decide to use ROUGE-2 to measure the effectiveness of an ML model's translation compared to a human translator's.

Категория	Who produced?	Текст	Bigrams
Reference text	Human translator	I want to understand a wide variety of things.	I want, want to, to understand, understand a, a wide, wide variety, variety of, of things
Generated text	ML model	I want to learn plenty of things.	I want, want to, to learn, learn plenty, plenty of, of things

Поэтому:

The number of matching 2-grams is 3 ( I want , want to , and of things ).
The number of 2-grams in the reference text is 8.
The number of 2-grams in the generated text is 6.

Следовательно:

$$\text{ROUGE-2 recall} = \frac{\text{3}} {\text{8} } = 0.375$$

$$\text{ROUGE-2 precision} = \frac{\text{3}} {\text{6} } = 0.5$$

$$\text{ROUGE-2 F}{_1} = \frac{\text{2} * \text{0.375} * \text{0.5}} {\text{0.375} + \text{0.5} } = 0.43$$

ROUGE-S

#Metric

A forgiving form of ROUGE-N that enables skip-gram matching. That is, ROUGE-N only counts N-grams that match exactly , but ROUGE-S also counts N-grams separated by one or more words. For example, consider the following:

reference text : White clouds
generated text : White billowing clouds

When calculating ROUGE-N, the 2-gram, White clouds doesn't match White billowing clouds . However, when calculating ROUGE-S, White clouds does match White billowing clouds .

R-squared

#Metric

A regression metric indicating how much variation in a label is due to an individual feature or to a feature set. R-squared is a value between 0 and 1, which you can interpret as follows:

An R-squared of 0 means that none of a label's variation is due to the feature set.
An R-squared of 1 means that all of a label's variation is due to the feature set.
An R-squared between 0 and 1 indicates the extent to which the label's variation can be predicted from a particular feature or the feature set. For example, an R-squared of 0.10 means that 10 percent of the variance in the label is due to the feature set, an R-squared of 0.20 means that 20 percent is due to the feature set, and so on.

R-squared is the square of the Pearson correlation coefficient between the values that a model predicted and ground truth .

РТЭ

#Metric

Abbreviation for Recognizing Textual Entailment .

С

подсчет очков

#Metric

The part of a recommendation system that provides a value or ranking for each item produced by the candidate generation phase.

similarity measure

#clustering

#Metric

In clustering algorithms, the metric used to determine how alike (how similar) any two examples are.

sparsity

#Metric

The number of elements set to zero (or null) in a vector or matrix divided by the total number of entries in that vector or matrix. For example, consider a 100-element matrix in which 98 cells contain zero. The calculation of sparsity is as follows:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

Feature sparsity refers to the sparsity of a feature vector; model sparsity refers to the sparsity of the model weights.

Отряд

#Metric

Acronym for Stanford Question Answering Dataset , introduced in the paper SQuAD: 100,000+ Questions for Machine Comprehension of Text . The questions in this dataset come from people posing questions about Wikipedia articles. Some of the questions in SQuAD have answers, but other questions intentionally don't have answers. Therefore, you can use SQuAD to evaluate an LLM's ability to do both of the following:

Answer questions that can be answered.
Identify questions that cannot be answered.

Exact match in combination with F ₁ are the most common metrics for evaluating LLMs against SQuAD.

squared hinge loss

#Metric

The square of the hinge loss . Squared hinge loss penalizes outliers more harshly than regular hinge loss.

squared loss

#основы

#Metric

Synonym for L ₂ loss .

SuperGLUE

#Metric

An ensemble of datasets for rating an LLM's overall ability to understand and generate text. The ensemble consists of the following datasets:

Boolean Questions (BoolQ)
CommitmentBank (CB)
Choice of Plausible Alternatives (COPA)
Multi-sentence Reading Comprehension (MultiRC)
Reading Comprehension with Commonsense Reasoning Dataset (ReCoRD)
Recognizing Textual Entailment (RTE)
Words in Context (WiC)
Winograd Schema Challenge (WSC)

For details, see SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems .

Т

test loss

#основы

#Metric

A metric representing a model's loss against the test set . When building a model , you typically try to minimize test loss. That's because a low test loss is a stronger quality signal than a low training loss or low validation loss .

A large gap between test loss and training loss or validation loss sometimes suggests that you need to increase the regularization rate .

top-k accuracy

#Metric

The percentage of times that a "target label" appears within the first k positions of generated lists. The lists could be personalized recommendations or a list of items ordered by softmax .

Top-k accuracy is also known as accuracy at k .

Click the icon for an example.

Consider a machine learning system that uses softmax to identify tree probabilities based on a picture of tree leaves. The following table shows output lists generated from five input tree pictures. Each row contains a target label and the five most likely trees. For example, when the target label was maple , the machine learning model identified elm as the most likely tree, oak as the second most likely tree, and so on.

Target label	1	2	3	4	5
клен	вяз	дуб	клен	beech	тополь
кизил	дуб	кизил	тополь	гикори	клен
дуб	дуб	basswood	саранча	ольха	липа
липа	клен	папайя	дуб	basswood	тополь
дуб	саранча	липа	дуб	клен	папайя

The target label appears in the first position only once, so the top-1 accuracy is:

$$\text{top-1 accuracy} = \frac{\text{1}} {\text{5}} = 0.2$$

The target label appears in one of the top three positions four times, so the top-3 accuracy is:

$$\text{top-1 accuracy} = \frac{\text{4}} {\text{5}} = 0.8$$

токсичность

#Metric

The degree to which content is abusive, threatening, or offensive. Many machine learning models can identify, measure, and classify toxicity. Most of these models identify toxicity along multiple parameters, such as the level of abusive language and the level of threatening language.

training loss

#основы

#Metric

A metric representing a model's loss during a particular training iteration. For example, suppose the loss function is Mean Squared Error . Perhaps the training loss (the Mean Squared Error) for the 10th iteration is 2.2, and the training loss for the 100th iteration is 1.9.

A loss curve plots training loss versus the number of iterations. A loss curve provides the following hints about training:

A downward slope implies that the model is improving.
An upward slope implies that the model is getting worse.
A flat slope implies that the model has reached convergence .

For example, the following somewhat idealized loss curve shows:

A steep downward slope during the initial iterations, which implies rapid model improvement.
A gradually flattening (but still downward) slope until close to the end of training, which implies continued model improvement at a somewhat slower pace then during the initial iterations.
A flat slope towards the end of training, which suggests convergence.

The plot of training loss versus iterations. This loss curve starts
with a steep downward slope. The slope gradually flattens until the
slope becomes zero.

Although training loss is important, see also generalization .

Trivia Question Answering

#Metric

Datasets to evaluate an LLM's ability to answer trivia questions. Each dataset contains question-answer pairs authored by trivia enthusiasts. Different datasets are grounded by different sources, including:

Web search (TriviaQA)
Wikipedia (TriviaQA_wiki)

For more information see TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension .

true negative (TN)

#основы

#Metric

An example in which the model correctly predicts the negative class . For example, the model infers that a particular email message is not spam , and that email message really is not spam .

true positive (TP)

#основы

#Metric

An example in which the model correctly predicts the positive class . For example, the model infers that a particular email message is spam, and that email message really is spam.

true positive rate (TPR)

#основы

#Metric

Synonym for recall . That is:

$$\text{true positive rate} = \frac {\text{true positives}} {\text{true positives} + \text{false negatives}}$$

True positive rate is the y-axis in an ROC curve .

Typologically Diverse Question Answering (TyDi QA)

#Metric

A large dataset for evaluating an LLM's proficiency in answering questions. The dataset contains question and answer pairs in many languages.

For details, see TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages .

В

validation loss

#основы

#Metric

A metric representing a model's loss on the validation set during a particular iteration of training.

variable importances

#df

#Metric

A set of scores that indicates the relative importance of each feature to the model.

For example, consider a decision tree that estimates house prices. Suppose this decision tree uses three features: size, age, and style. If a set of variable importances for the three features are calculated to be {size=5.8, age=2.5, style=4.7}, then size is more important to the decision tree than age or style.

Different variable importance metrics exist, which can inform ML experts about different aspects of models.

В

Wasserstein loss

#Metric

One of the loss functions commonly used in generative adversarial networks , based on the earth mover's distance between the distribution of generated data and real data.

WiC

#Metric

Abbreviation for Words in Context .

WikiLingua (wiki_lingua)

#Metric

A dataset for evaluating an LLM's ability to summarize short articles. WikiHow , an encyclopedia of articles explaining how to do various tasks, is the human-authored source for both the articles and the summaries. Each entry in the dataset consists of:

An article, which is created by appending each step of the prose (paragraph) version of the numbered list, minus the opening sentence of each step.
A summary of that article, consisting of the opening sentence of each step in the numbered list.

For details, see WikiLingua: A New Benchmark Dataset for Cross-Lingual Abstractive Summarization .

Winograd Schema Challenge (WSC)

#Metric

A format (or dataset conforming to that format) for evaluating an LLM's ability to determine the noun phrase that a pronoun refers to.

Each entry in a Winograd Schema Challenge consists of:

A short passage, which contains a target pronoun
A target pronoun
Candidate noun phrases, followed by the correct answer (a Boolean). If the target pronoun refers to this candidate, the answer is True. If the target pronoun does not refer to this candidate, the answer is False.

Например:

Passage : Mark told Pete many lies about himself, which Pete included in his book. He should have been more truthful.
Target pronoun : He
Candidate noun phrases :
- Mark: True, because the target pronoun refers to Mark
- Pete: False, because the target pronoun doesn't refer to Peter

The Winograd Schema Challenge is a component of the SuperGLUE ensemble.

Words in Context (WiC)

#Metric

A dataset for evaluating how well an LLM uses context to understand words that have multiple meanings. Each entry in the dataset contains:

Two sentences, each containing the target word
The target word
The correct answer (a Boolean), where:
- True means the target word has the same meaning in the two sentences
- False means the target word has a different meaning in the two sentences

Например:

Two sentences:
- There's a lot of trash on the bed of the river.
- I keep a glass of water next to my bed when I sleep.
The target word: bed
Correct answer : False, because the target word has a different meaning in the two sentences.

For details, see WiC: the Word-in-Context Dataset for Evaluating Context-Sensitive Meaning Representations .

Words in Context is a component of the SuperGLUE ensemble.

WSC

#Metric

Abbreviation for Winograd Schema Challenge .

X

XL-Sum (xlsum)

#Metric

A dataset for evaluating an LLM's proficiency in summarizing text. XL-Sum provides entries in many languages. Each entry in the dataset contains:

An article, taken from the British Broadcasting Company (BBC).
A summary of the article, written by the article's author. Note that that summary can contain words or phrases not present in the article.

For details, see XL-Sum: Large-Scale Multilingual Abstractive Summarization for 44 Languages .

Глоссарий машинного обучения: метрики Оптимизируйте свои подборки Сохраняйте и классифицируйте контент в соответствии со своими настройками.

А

точность

Нажмите на значок, чтобы получить подробную информацию о точности и несбалансированности классов в наборах данных.

площадь под кривой PR

площадь под кривой ROC

AUC (Площадь под ROC-кривой)

Нажмите на значок, чтобы узнать о взаимосвязи между AUC и ROC-кривыми.

Нажмите на значок, чтобы получить более формальное определение AUC.

средняя точность при k

Нажмите на значок, чтобы увидеть пример.

Б

исходный уровень

Логические вопросы (BoolQ)

BoolQ

С

КБ

F-мера N-граммы символа (ChrF)

Выбор правдоподобных альтернатив (COPA)

CommitmentBank (CB)

КОПА

расходы

контрфактуальная справедливость

перекрестная энтропия

Функция кумулятивного распределения (ФКР)

Д

демографическое равенство

Е

Расстояние перемещения экскаватора (EMD)

расстояние редактирования

эмпирическая кумулятивная функция распределения (eCDF или EDF)

энтропия

равенство возможностей

уравненные шансы

оценки

оценка

точное совпадение

Экстремальное суммирование (xsum)

Ф

Ф 1

Нажмите на значок, чтобы посмотреть примеры.

метрика справедливости

ложноотрицательный результат (FN)

частота ложноотрицательных результатов

ложноположительный результат (FP)

Частота ложноположительных результатов (FPR)

важность функций

фундаментальная модель

доля успехов

Г

примесь Джини

Нажмите на значок, чтобы получить подробные математические данные о коэффициенте Джини.

ЧАС

потеря шарнира

я

несовместимость метрик справедливости

индивидуальная справедливость

получение информации

согласованность между экспертами

Л

Потеря L 1

Нажмите на значок, чтобы увидеть формальную математическую формулировку.

Потеря L 2

Нажмите на значок, чтобы увидеть формальную математическую формулировку.

Оценка программ магистратуры в области права (LLM)

потеря

функция потерь

М

матричная факторизация

МБПП

Mean Absolute Error (MAE)

Click the icon to see the formal math.

mean average precision at k (mAP@k)

Click the icon to see an example.

Среднеквадратичная ошибка (MSE)

Click the icon to see the formal math.

Click the icon to see more details about outliers.

метрика

Metrics API (tf.metrics)

minimax loss

Глоссарий машинного обучения: метрики

Ф ₁

Потеря L ₁

Потеря L ₂