Эта страница содержит термины глоссария Image Models. Чтобы просмотреть все термины глоссария, щелкните здесь .
А
дополненная реальность
Технология, которая накладывает созданное компьютером изображение на представление пользователя о реальном мире, таким образом обеспечивая составное представление.
Б
Ограничительная рамка
На изображении координаты ( x , y ) прямоугольника вокруг интересующей области, такой как собака на изображении ниже.
С
свертка
В математике, грубо говоря, смесь двух функций. В машинном обучении свертка смешивает сверточный фильтр и входную матрицу для обучения весов .
Термин «свертка» в машинном обучении часто представляет собой сокращенное обозначение либо операции свертки , либо слоя свертки .
Без сверток алгоритм машинного обучения должен был бы выучить отдельный вес для каждой ячейки в большом тензоре . Например, алгоритм машинного обучения, обучающийся на изображениях размером 2K x 2K, должен будет найти 4 миллиона отдельных весов. Благодаря сверткам алгоритм машинного обучения должен только найти веса для каждой ячейки в сверточном фильтре , что значительно сокращает память, необходимую для обучения модели. Когда применяется сверточный фильтр, он просто реплицируется по ячейкам, так что каждая из них умножается на фильтр.
сверточный фильтр
Один из двух действующих лиц сверточной операции . (Другой актер — это срез входной матрицы.) Сверточный фильтр — это матрица, имеющая тот же ранг , что и входная матрица, но меньшую форму. Например, при входной матрице 28x28 фильтром может быть любая двумерная матрица меньше 28x28.
При фотографических манипуляциях все ячейки в сверточном фильтре обычно имеют постоянный набор единиц и нулей. В машинном обучении сверточные фильтры обычно заполняются случайными числами, а затем сеть обучает идеальные значения.
сверточный слой
Слой глубокой нейронной сети , в котором сверточный фильтр проходит по входной матрице. Например, рассмотрим следующий сверточный фильтр 3x3:
Следующая анимация показывает сверточный слой, состоящий из 9 сверточных операций с использованием входной матрицы 5x5. Обратите внимание, что каждая сверточная операция работает с другим фрагментом входной матрицы размером 3x3. Результирующая матрица 3x3 (справа) состоит из результатов 9 сверточных операций:
сверточная нейронная сеть
Нейронная сеть , в которой хотя бы один слой является свёрточным . Типичная сверточная нейронная сеть состоит из некоторой комбинации следующих слоев:
Сверточные нейронные сети добились больших успехов в определенных задачах, таких как распознавание изображений.
сверточная операция
Следующая двухшаговая математическая операция:
- Поэлементное умножение сверточного фильтра и среза входной матрицы. (Срез входной матрицы имеет тот же ранг и размер, что и сверточный фильтр.)
- Суммирование всех значений в результирующей матрице продукта.
Например, рассмотрим следующую входную матрицу 5x5:
Теперь представьте себе следующий сверточный фильтр 2x2:
Каждая сверточная операция включает один срез входной матрицы размером 2x2. Например, предположим, что мы используем срез 2x2 в верхнем левом углу входной матрицы. Итак, операция свертки на этом срезе выглядит следующим образом:
Сверточный слой состоит из серии сверточных операций, каждая из которых воздействует на отдельный срез входной матрицы.
Д
увеличение данных
Искусственное увеличение диапазона и количества обучающих примеров путем преобразования существующих примеров для создания дополнительных примеров. Например, предположим, что одним из ваших объектов являются изображения, но в вашем наборе данных недостаточно примеров изображений, чтобы модель могла изучить полезные ассоциации. В идеале вы должны добавить в свой набор данных достаточно помеченных изображений, чтобы ваша модель могла правильно обучаться. Если это невозможно, аугментация данных может поворачивать, растягивать и отражать каждое изображение для создания множества вариантов исходного изображения, что может привести к получению достаточного количества размеченных данных для обеспечения отличного обучения.
сверточная нейронная сеть с разделением по глубине (sepCNN)
Архитектура сверточной нейронной сети , основанная на Inception , но где модули Inception заменены разделяемыми по глубине свертками. Также известен как Xception.
Отделимая по глубине свертка (также сокращенно называемая отделимой сверткой) разбивает стандартную трехмерную свертку на две отдельные операции свертки, которые более эффективны в вычислительном отношении: во-первых, глубинная свертка с глубиной 1 (n ✕ n ✕ 1), а затем во-вторых, поточечная свертка с длиной и шириной 1 (1 ✕ 1 ✕ n).
Чтобы узнать больше, см. Xception: Deep Learning with Depthwise Separable Convolutions .
понижение частоты дискретизации
Перегруженный термин, который может означать одно из следующего:
- Уменьшение количества информации в функции для более эффективного обучения модели. Например, перед обучением модели распознавания изображений можно уменьшить разрешение изображений с высоким разрешением до формата с более низким разрешением.
- Обучение на непропорционально низком проценте чрезмерно представленных примеров классов , чтобы улучшить модель обучения на недопредставленных классах. Например, в наборе данных с несбалансированным классом модели, как правило, много узнают о классе большинства и недостаточно о классе меньшинства . Понижающая выборка помогает сбалансировать объем обучения в классах большинства и меньшинства.
я
распознавание изображений
Процесс, который классифицирует объект(ы), шаблон(ы) или понятие(я) в изображении. Распознавание изображений также известно как классификация изображений .
Для получения дополнительной информации см. ML Practicum: Классификация изображений .
пересечение по союзу (IoU)
Пересечение двух множеств, разделенное их объединением. В задачах машинного обучения по обнаружению изображений IoU используется для измерения точности предсказанной ограничивающей рамки модели по отношению к истинной ограничивающей рамке. В этом случае IoU для двух рамок представляет собой отношение между площадью перекрытия и общей площадью, и его значение находится в диапазоне от 0 (нет перекрытия прогнозируемой ограничивающей рамки и ограничивающей рамки наземной достоверности) до 1 (прогнозируемая ограничивающая рамка и наземная ограничительная рамка). -правда ограничивающая рамка имеет точно такие же координаты).
Например, на изображении ниже:
- Предсказанный ограничивающий прямоугольник (координаты, определяющие место, где модель предсказывает расположение ночного столика на картине) обведен фиолетовым.
- Наземная ограничивающая рамка (координаты, определяющие, где фактически находится ночной столик на картине) обведена зеленым.
Здесь пересечение ограничивающих рамок для предсказания и достоверности (внизу слева) равно 1, а объединение ограничивающих рамок для предсказания и достоверности (внизу справа) равно 7, поэтому IoU равен \(\frac{1}{7}\).


К
ключевые точки
Координаты отдельных элементов изображения. Например, для модели распознавания изображений , которая различает виды цветов, ключевыми точками могут быть центр каждого лепестка, стебель, тычинка и т. д.
л
landmarks
Синоним ключевых точек .
М
МНИСТ
Общедоступный набор данных, составленный Лекуном, Кортесом и Берджесом и содержащий 60 000 изображений, каждое из которых показывает, как человек вручную записывал определенную цифру от 0 до 9. Каждое изображение хранится в виде массива целых чисел 28x28, где каждое целое число представляет собой значение в оттенках серого от 0 до 255 включительно.
MNIST — это канонический набор данных для машинного обучения, часто используемый для тестирования новых подходов к машинному обучению. Подробнее см. в Базе данных рукописных цифр MNIST .
п
объединение
Сокращение матрицы (или матриц), созданных более ранним сверточным слоем, до матрицы меньшего размера. Объединение обычно включает в себя получение либо максимального, либо среднего значения по объединенной области. Например, предположим, что у нас есть следующая матрица 3x3:
Операция объединения, как и операция свертки, делит эту матрицу на срезы, а затем сдвигает эту операцию свертки шагами . Например, предположим, что операция объединения делит сверточную матрицу на срезы 2x2 с шагом 1x1. Как показано на следующей диаграмме, выполняются четыре операции объединения. Представьте, что каждая операция объединения выбирает максимальное значение из четырех в этом срезе:
Объединение помогает обеспечить трансляционную инвариантность во входной матрице.
Объединение для приложений машинного зрения формально известно как пространственное объединение . Приложения временных рядов обычно называют пул временным пулом . Менее формально объединение часто называют субдискретизацией или субдискретизацией .
р
вращательная инвариантность
В задаче классификации изображений способность алгоритма успешно классифицировать изображения даже при изменении ориентации изображения. Например, алгоритм все еще может идентифицировать теннисную ракетку, направлена ли она вверх, вбок или вниз. Обратите внимание, что вращательная инвариантность не всегда желательна; например, перевернутая 9 не должна классифицироваться как 9.
См. также трансляционную инвариантность и размерную инвариантность .
С
неизменность размера
В задаче классификации изображений способность алгоритма успешно классифицировать изображения даже при изменении размера изображения. Например, алгоритм все равно может идентифицировать кошку независимо от того, потребляет ли она 2 М или 200 К пикселей. Обратите внимание, что даже самые лучшие алгоритмы классификации изображений по-прежнему имеют практические ограничения на неизменность размера. Например, алгоритм (или человек) вряд ли правильно классифицирует изображение кошки, занимающее всего 20 пикселей.
См. также трансляционную инвариантность и вращательную инвариантность .
пространственное объединение
См. объединение .
шаг
В сверточной операции или объединении дельта в каждом измерении следующей серии входных срезов. Например, следующая анимация демонстрирует шаг (1,1) во время сверточной операции. Следовательно, следующий входной срез начинается на одну позицию правее предыдущего входного слайса. Когда операция достигает правого края, следующий срез находится полностью слева, но на одну позицию ниже.
Предыдущий пример демонстрирует двумерный шаг. Если входная матрица трехмерна, шаг также будет трехмерным.
подвыборка
См. объединение .
Т
трансляционная инвариантность
В задаче классификации изображений способность алгоритма успешно классифицировать изображения даже при изменении положения объектов на изображении. Например, алгоритм все еще может идентифицировать собаку, независимо от того, находится ли она в центре кадра или в левом конце кадра.
См. также размерная инвариантность и вращательная инвариантность .