Глоссарий по машинному обучению: модели изображений

Эта страница содержит термины глоссария Image Models. Чтобы просмотреть все термины глоссария, щелкните здесь .

А

дополненная реальность

#изображение

Технология, которая накладывает созданное компьютером изображение на представление пользователя о реальном мире, таким образом обеспечивая составное представление.

Б

Ограничительная рамка

#изображение

На изображении координаты ( x , y ) прямоугольника вокруг интересующей области, такой как собака на изображении ниже.

Фотография собаки, сидящей на диване. Зеленая ограничивающая рамка с координатами вверху слева (275, 1271) и справа внизу (2954, 2761) описывает тело собаки.

С

свертка

#изображение

В математике, грубо говоря, смесь двух функций. В машинном обучении свертка смешивает сверточный фильтр и входную матрицу для обучения весов .

Термин «свертка» в машинном обучении часто представляет собой сокращенное обозначение либо операции свертки , либо слоя свертки .

Без сверток алгоритм машинного обучения должен был бы выучить отдельный вес для каждой ячейки в большом тензоре . Например, алгоритм машинного обучения, обучающийся на изображениях размером 2K x 2K, должен будет найти 4 миллиона отдельных весов. Благодаря сверткам алгоритм машинного обучения должен только найти веса для каждой ячейки в сверточном фильтре , что значительно сокращает память, необходимую для обучения модели. Когда применяется сверточный фильтр, он просто реплицируется по ячейкам, так что каждая из них умножается на фильтр.

сверточный фильтр

#изображение

Один из двух действующих лиц сверточной операции . (Другой актер — это срез входной матрицы.) Сверточный фильтр — это матрица, имеющая тот же ранг , что и входная матрица, но меньшую форму. Например, при входной матрице 28x28 фильтром может быть любая двумерная матрица меньше 28x28.

При фотографических манипуляциях все ячейки в сверточном фильтре обычно имеют постоянный набор единиц и нулей. В машинном обучении сверточные фильтры обычно заполняются случайными числами, а затем сеть обучает идеальные значения.

сверточный слой

#изображение

Слой глубокой нейронной сети , в котором сверточный фильтр проходит по входной матрице. Например, рассмотрим следующий сверточный фильтр 3x3:

Матрица 3x3 со следующими значениями: [[0,1,0], [1,0,1], [0,1,0]]

Следующая анимация показывает сверточный слой, состоящий из 9 сверточных операций с использованием входной матрицы 5x5. Обратите внимание, что каждая сверточная операция работает с другим фрагментом входной матрицы размером 3x3. Результирующая матрица 3x3 (справа) состоит из результатов 9 сверточных операций:

Анимация, показывающая две матрицы. Первая матрица представляет собой матрицу 5x5: [[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]]. Вторая матрица представляет собой матрицу 3x3: [[181 303 618], [115 338 605], [169 351 560]]. Вторая матрица вычисляется путем применения сверточных фильтров [[0, 1, 0], [1, 0, 1], [0, 1, 0]] к различным подмножествам 3x3 матрицы 5x5.

сверточная нейронная сеть

#изображение

Нейронная сеть , в которой хотя бы один слой является свёрточным . Типичная сверточная нейронная сеть состоит из некоторой комбинации следующих слоев:

Сверточные нейронные сети добились больших успехов в определенных задачах, таких как распознавание изображений.

сверточная операция

#изображение

Следующая двухшаговая математическая операция:

  1. Поэлементное умножение сверточного фильтра и среза входной матрицы. (Срез входной матрицы имеет тот же ранг и размер, что и сверточный фильтр.)
  2. Суммирование всех значений в результирующей матрице продукта.

Например, рассмотрим следующую входную матрицу 5x5:

Матрица 5x5: [[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].

Теперь представьте себе следующий сверточный фильтр 2x2:

Матрица 2x2: [[1, 0], [0, 1]]

Каждая сверточная операция включает один срез входной матрицы размером 2x2. Например, предположим, что мы используем срез 2x2 в верхнем левом углу входной матрицы. Итак, операция свертки на этом срезе выглядит следующим образом:

Применение сверточного фильтра [[1, 0], [0, 1]] к верхнему левому разделу 2x2 входной матрицы, то есть [[128,97], [35,22]]. Сверточный фильтр оставляет 128 и 22 нетронутыми, но обнуляет 97 и 35. Следовательно, операция свертки дает значение 150 (128+22).

Сверточный слой состоит из серии сверточных операций, каждая из которых воздействует на отдельный срез входной матрицы.

Д

увеличение данных

#изображение

Искусственное увеличение диапазона и количества обучающих примеров путем преобразования существующих примеров для создания дополнительных примеров. Например, предположим, что одним из ваших объектов являются изображения, но в вашем наборе данных недостаточно примеров изображений, чтобы модель могла изучить полезные ассоциации. В идеале вы должны добавить в свой набор данных достаточно помеченных изображений, чтобы ваша модель могла правильно обучаться. Если это невозможно, аугментация данных может поворачивать, растягивать и отражать каждое изображение для создания множества вариантов исходного изображения, что может привести к получению достаточного количества размеченных данных для обеспечения отличного обучения.

сверточная нейронная сеть с разделением по глубине (sepCNN)

#изображение

Архитектура сверточной нейронной сети , основанная на Inception , но где модули Inception заменены разделяемыми по глубине свертками. Также известен как Xception.

Отделимая по глубине свертка (также сокращенно называемая отделимой сверткой) разбивает стандартную трехмерную свертку на две отдельные операции свертки, которые более эффективны в вычислительном отношении: во-первых, глубинная свертка с глубиной 1 (n ✕ n ✕ 1), а затем во-вторых, поточечная свертка с длиной и шириной 1 (1 ✕ 1 ✕ n).

Чтобы узнать больше, см. Xception: Deep Learning with Depthwise Separable Convolutions .

понижение частоты дискретизации

#изображение

Перегруженный термин, который может означать одно из следующего:

  • Уменьшение количества информации в функции для более эффективного обучения модели. Например, перед обучением модели распознавания изображений можно уменьшить разрешение изображений с высоким разрешением до формата с более низким разрешением.
  • Обучение на непропорционально низком проценте чрезмерно представленных примеров классов , чтобы улучшить модель обучения на недопредставленных классах. Например, в наборе данных с несбалансированным классом модели, как правило, много узнают о классе большинства и недостаточно о классе меньшинства . Понижающая выборка помогает сбалансировать объем обучения в классах большинства и меньшинства.

я

распознавание изображений

#изображение

Процесс, который классифицирует объект(ы), шаблон(ы) или понятие(я) в изображении. Распознавание изображений также известно как классификация изображений .

Для получения дополнительной информации см. ML Practicum: Классификация изображений .

пересечение по союзу (IoU)

#изображение

Пересечение двух множеств, разделенное их объединением. В задачах машинного обучения по обнаружению изображений IoU используется для измерения точности предсказанной ограничивающей рамки модели по отношению к истинной ограничивающей рамке. В этом случае IoU для двух рамок представляет собой отношение между площадью перекрытия и общей площадью, и его значение находится в диапазоне от 0 (нет перекрытия прогнозируемой ограничивающей рамки и ограничивающей рамки наземной достоверности) до 1 (прогнозируемая ограничивающая рамка и наземная ограничительная рамка). -правда ограничивающая рамка имеет точно такие же координаты).

Например, на изображении ниже:

  • Предсказанный ограничивающий прямоугольник (координаты, определяющие место, где модель предсказывает расположение ночного столика на картине) обведен фиолетовым.
  • Наземная ограничивающая рамка (координаты, определяющие, где фактически находится ночной столик на картине) обведена зеленым.

Картина Ван Гога «Спальня Винсента в Арле» с двумя разными ограничивающими рамками вокруг ночного столика рядом с кроватью. Наземная ограничивающая рамка (зеленая) точно описывает ночной столик. Прогнозируемая ограничивающая рамка (выделена фиолетовым цветом) смещена на 50 % вниз и вправо от истинной ограничивающей рамки; он охватывает нижнюю правую четверть ночного столика, но не попадает в остальную часть стола.

Здесь пересечение ограничивающих рамок для предсказания и достоверности (внизу слева) равно 1, а объединение ограничивающих рамок для предсказания и достоверности (внизу справа) равно 7, поэтому IoU равен \(\frac{1}{7}\).

То же изображение, что и выше, но каждая ограничивающая рамка разделена на четыре квадранта. Всего имеется семь квадрантов, поскольку нижний правый квадрант истинной ограничивающей рамки и верхний левый квадрант прогнозируемой ограничивающей рамки перекрывают друг друга. Этот перекрывающийся участок (выделен зеленым цветом) представляет собой пересечение и имеет площадь 1.То же изображение, что и выше, но каждая ограничивающая рамка разделена на четыре квадранта. Всего имеется семь квадрантов, поскольку нижний правый квадрант истинной ограничивающей рамки и верхний левый квадрант прогнозируемой ограничивающей рамки перекрывают друг друга. Вся внутренняя часть, заключенная в обе ограничивающие рамки (выделены зеленым цветом), представляет объединение и имеет площадь 7.

К

ключевые точки

#изображение

Координаты отдельных элементов изображения. Например, для модели распознавания изображений , которая различает виды цветов, ключевыми точками могут быть центр каждого лепестка, стебель, тычинка и т. д.

л

landmarks

#изображение

Синоним ключевых точек .

М

МНИСТ

#изображение

Общедоступный набор данных, составленный Лекуном, Кортесом и Берджесом и содержащий 60 000 изображений, каждое из которых показывает, как человек вручную записывал определенную цифру от 0 до 9. Каждое изображение хранится в виде массива целых чисел 28x28, где каждое целое число представляет собой значение в оттенках серого от 0 до 255 включительно.

MNIST — это канонический набор данных для машинного обучения, часто используемый для тестирования новых подходов к машинному обучению. Подробнее см. в Базе данных рукописных цифр MNIST .

п

объединение

#изображение

Сокращение матрицы (или матриц), созданных более ранним сверточным слоем, до матрицы меньшего размера. Объединение обычно включает в себя получение либо максимального, либо среднего значения по объединенной области. Например, предположим, что у нас есть следующая матрица 3x3:

Матрица 3x3 [[5,3,1], [8,2,5], [9,4,3]].

Операция объединения, как и операция свертки, делит эту матрицу на срезы, а затем сдвигает эту операцию свертки шагами . Например, предположим, что операция объединения делит сверточную матрицу на срезы 2x2 с шагом 1x1. Как показано на следующей диаграмме, выполняются четыре операции объединения. Представьте, что каждая операция объединения выбирает максимальное значение из четырех в этом срезе:

Входная матрица 3x3 со значениями: [[5,3,1], [8,2,5], [9,4,3]]. Верхняя левая подматрица 2x2 входной матрицы равна [[5,3], [8,2]], поэтому операция объединения в верхнем левом углу дает значение 8 (что является максимальным из 5, 3, 8 и 2). ). Правая верхняя подматрица 2x2 входной матрицы равна [[3,1], [2,5]], поэтому операция объединения в верхнем правом углу дает значение 5. Нижняя левая подматрица 2x2 входной матрицы равна [[ 8,2], [9,4]], поэтому левая нижняя операция объединения дает значение 9. Нижняя правая подматрица 2x2 входной матрицы равна [[2,5], [4,3]], поэтому операция объединения в правом нижнем углу дает значение 5. Таким образом, операция объединения дает матрицу 2x2 [[8,5], [9,5]].

Объединение помогает обеспечить трансляционную инвариантность во входной матрице.

Объединение для приложений машинного зрения формально известно как пространственное объединение . Приложения временных рядов обычно называют пул временным пулом . Менее формально объединение часто называют субдискретизацией или субдискретизацией .

р

вращательная инвариантность

#изображение

В задаче классификации изображений способность алгоритма успешно классифицировать изображения даже при изменении ориентации изображения. Например, алгоритм все еще может идентифицировать теннисную ракетку, направлена ​​ли она вверх, вбок или вниз. Обратите внимание, что вращательная инвариантность не всегда желательна; например, перевернутая 9 не должна классифицироваться как 9.

См. также трансляционную инвариантность и размерную инвариантность .

С

неизменность размера

#изображение

В задаче классификации изображений способность алгоритма успешно классифицировать изображения даже при изменении размера изображения. Например, алгоритм все равно может идентифицировать кошку независимо от того, потребляет ли она 2 М или 200 К пикселей. Обратите внимание, что даже самые лучшие алгоритмы классификации изображений по-прежнему имеют практические ограничения на неизменность размера. Например, алгоритм (или человек) вряд ли правильно классифицирует изображение кошки, занимающее всего 20 пикселей.

См. также трансляционную инвариантность и вращательную инвариантность .

пространственное объединение

#изображение

См. объединение .

шаг

#изображение

В сверточной операции или объединении дельта в каждом измерении следующей серии входных срезов. Например, следующая анимация демонстрирует шаг (1,1) во время сверточной операции. Следовательно, следующий входной срез начинается на одну позицию правее предыдущего входного слайса. Когда операция достигает правого края, следующий срез находится полностью слева, но на одну позицию ниже.

Входная матрица 5x5 и сверточный фильтр 3x3. Поскольку шаг равен (1,1), сверточный фильтр будет применен 9 раз. Первый сверточный срез оценивает верхнюю левую подматрицу 3x3 входной матрицы. Второй срез оценивает подматрицу 3x3 сверху и посередине. Третий сверточный срез оценивает правую верхнюю подматрицу 3x3. Четвертый срез оценивает среднюю левую подматрицу 3x3. Пятый срез оценивает среднюю подматрицу 3x3. Шестой срез оценивает среднюю правую подматрицу 3x3. Седьмой срез оценивает нижнюю левую подматрицу 3x3. Восьмой срез оценивает нижнюю-среднюю подматрицу 3x3. Девятый срез оценивает нижнюю правую подматрицу 3x3.

Предыдущий пример демонстрирует двумерный шаг. Если входная матрица трехмерна, шаг также будет трехмерным.

подвыборка

#изображение

См. объединение .

Т

трансляционная инвариантность

#изображение

В задаче классификации изображений способность алгоритма успешно классифицировать изображения даже при изменении положения объектов на изображении. Например, алгоритм все еще может идентифицировать собаку, независимо от того, находится ли она в центре кадра или в левом конце кадра.

См. также размерная инвариантность и вращательная инвариантность .