Glossário de machine learning: modelos de imagem

Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Esta página contém termos do glossário de modelos de imagem. Para ver todos os termos do glossário, clique aqui.

A

realidade aumentada

#image

Uma tecnologia que sobrepõe uma imagem gerada por computador na visão do mundo real de um usuário, oferecendo uma visão composta.

B

caixa delimitadora

#image

Em uma imagem, as coordenadas (x, y) de um retângulo em torno de uma área de interesse, como o cachorro na imagem abaixo.

Foto de um cachorro sentado em um sofá. Uma caixa delimitadora verde
          com coordenadas superior esquerda de (275, 1271) e coordenadas de baixo à direita
          de (2954, 2761) circula o corpo do cachorro.

C

convolução

#image

Em matemática, casualmente, uma mistura de duas funções. Em machine learning, uma convolução combina o filtro convolucional e a matriz de entrada para treinar weights.

O termo "convolução" em machine learning é, muitas vezes, uma forma abreviada de se referir a operação convolucional ou camada convolucional.

Sem convoluções, um algoritmo de machine learning teria que aprender um peso separado para cada célula em um tensor grande. Por exemplo, um treinamento de algoritmo de machine learning em imagens 2K x 2K será forçado a encontrar quatro pesos separados. Graças às convoluções, um algoritmo de machine learning só precisa encontrar pesos para cada célula no filtro convolucional, reduzindo drasticamente a memória necessária para treinar o modelo. Quando o filtro convolucional é aplicado, ele é simplesmente replicado em células de modo que cada uma seja multiplicada pelo filtro.

filtro convolucional

#image

Um dos dois atores em uma operação convolucional. O outro ator é uma fração de uma matriz de entrada. Um filtro convolucional é uma matriz que tem a mesma classificação da matriz de entrada, mas uma forma menor. Por exemplo, considerando uma matriz de entrada de 28x28, o filtro pode ser qualquer matriz de 2D menor que 28x28.

Na manipulação fotográfica, todas as células em um filtro convolucional normalmente são definidas como um padrão constante de um e zeros. Em machine learning, os filtros convolucionais normalmente são propagados com números aleatórios e, em seguida, a rede treina os valores ideais.

camada convolucional

#image

Uma camada de uma rede neural profunda em que um filtro convolucional passa por uma matriz de entrada. Por exemplo, considere o seguinte filtro convolucional de 3x3:

Uma matriz 3x3 com os seguintes valores: [[0,1,0], [1,0,1], [0,1,0]]

A animação a seguir mostra uma camada convolucional que consiste em nove operações convolucionais envolvendo a matriz de entrada 5x5. Observe que cada operação convolucional funciona em uma fração 3x3 diferente da matriz de entrada. A matriz 3x3 resultante (à direita) consiste nos resultados das nove operações convolucionais:

Uma animação mostrando duas matrizes. A primeira matriz é a matriz 5x5: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179], [31,9] [11,9]
          A segunda matriz é a matriz 3x3:
          [[181,303,618], [115,338,605], [169,351,560]].
          A segunda matriz é calculada aplicando o filtro convolucional [[0, 1, 0], [1, 0, 1], [0, 1, 0]] em diferentes subconjuntos 3x3 da matriz 5x5.

rede neural convolucional

#image

Uma rede neural em que pelo menos uma camada é uma camada convolucional. Uma rede neural convolucional típica consiste em alguma combinação das seguintes camadas:

As redes neurais convolucionais tiveram muito sucesso em determinados tipos de problemas, como reconhecimento de imagens.

operação convolucional

#image

A seguinte operação matemática em duas etapas:

  1. Multiplicação em elemento do filtro convolucional e uma fração de uma matriz de entrada. A fração da matriz de entrada tem a mesma classificação e tamanho que o filtro convolucional.
  2. Soma de todos os valores na matriz de produto resultante.

Por exemplo, considere a seguinte matriz de entrada 5x5:

A matriz 5x5: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179], [31,40,19771171]

Agora imagine o seguinte filtro convolucional 2x2:

A matriz 2x2: [[1, 0], [0, 1]]

Cada operação convolucional envolve uma única fração de 2x2 da matriz de entrada. Por exemplo, suponha que usemos a fatia 2x2 no canto superior esquerdo da matriz de entrada. Portanto, a operação de convolução nessa fração tem a seguinte aparência:

Aplicando o filtro convolucional [[1, 0], [0, 1]] à seção 2x2 superior esquerda
          da matriz de entrada, que é [[128,97], [35,22]].
          O filtro convolucional deixa 128 e 22 intactos, mas zera
          os 97 e 35. Consequentemente, a operação de convolução produz
          o valor 150 (128 + 22).

Uma camada convolucional consiste em uma série de operações convolucionais, cada uma atuando em uma fração diferente da matriz de entrada.

D

aumento de dados

#image

Impulsionar de forma artificial o intervalo e o número de exemplos de treinamento transformando os exemplos atuais para criar outros. Por exemplo, suponha que imagens sejam um dos seus recursos, mas seu conjunto de dados não contém exemplos de imagens suficientes para que o modelo aprenda associações úteis. O ideal é adicionar imagens rotuladas suficientes ao conjunto de dados para que o modelo seja treinado corretamente. Se isso não for possível, o aumento de dados pode girar, alongar e refletir cada imagem para produzir muitas variantes da imagem original, possivelmente produzindo dados rotulados suficientes para permitir um excelente treinamento.

Rede neural convolucional separada por profundidade (sepCNN)

#image

Uma arquitetura de rede neural convolucional baseada em Incepção, mas em que os módulos de Inception são substituídos por convoluções separativas de profundidade. Também conhecido como Xception.

Uma convolução separada em profundidade (também abreviada como convolução separada) considera uma convolução 3D padrão em duas operações de convolução separadas que são mais eficientes em termos de computação: primeiro, uma convolução de profundidade, com profundidade de 1 (n x n x 1) e, em seguida, uma convolução pontual com largura e 1o.

Para saber mais, consulte Xception: aprendizado profundo com convoluções separáveis em profundidade.

redução da amostragem

#image

Termo sobrecarregado que pode significar um dos seguintes:

  • Reduzir a quantidade de informações em um recurso para treinar um modelo com mais eficiência. Por exemplo, antes de treinar um modelo de reconhecimento de imagem, faça a amostragem das imagens de alta resolução para um formato de baixa resolução.
  • Treinamento em uma porcentagem desproporcionalmente baixa de exemplos de classe superrepresentados para melhorar o treinamento de modelos em classes sub-representadas Por exemplo, em um conjunto de dados desequilibrado por classe, os modelos tendem a aprender muito sobre a classe majoritária, e não o suficiente sobre a classe mínima. A redução de amostragem ajuda a equilibrar a quantidade de treinamento na maioria e classes de minorias.

I

Reconhecimento de imagem

#image

É um processo que classifica objetos, padrões ou conceitos em uma imagem. O reconhecimento de imagem também é conhecido como classificação de imagem.

Para mais informações, consulte Prática prática: classificação de imagens.

interseção sobre união (IoU)

#image

A interseção de dois conjuntos dividida pela união deles. Nas tarefas de detecção de imagens de machine learning, a IoU é usada para medir a precisão da caixa delimitadora prevista do modelo em relação à caixa delimitadora tradicional. Nesse caso, a IoU das duas caixas é a proporção entre a área sobreposta e a área total, e o valor varia de 0 (sem sobreposição de caixa delimitadora e caixa delimitadora de informações empíricas) a 1 (caixa delimitadora prevista e caixa delimitadora de informações empíricas têm exatamente as mesmas coordenadas).

Por exemplo, na imagem abaixo:

  • A caixa delimitadora prevista (as coordenadas que delimitam onde o modelo prevê que a tabela noturna na pintura está localizada) é destacada em roxo.
  • A caixa delimitadora da verdade no solo (as coordenadas que delimitam o local em que a mesa noturna da pintura está realmente localizada) é destacada em verde.

A sala de Van Gogh pintando o Quarto de Vincent em Arles' com duas caixas delimitadoras diferentes ao redor da mesa de cabeceira ao lado da cama. A caixa delimitadora da verdade sobre o solo (em verde) circula perfeitamente a tabela noturna. A
          caixa delimitadora prevista (em roxo) é deslocada 50% para baixo e para a direita
          da caixa delimitadora da verdade, ela abrange o trimestre inferior direito
          da tabela noturna, mas perde o restante da tabela.

Aqui, a interseção das caixas delimitadoras para previsão e informações empíricas (abaixo à esquerda) é 1, e a união das caixas delimitadoras para previsão e informações empíricas (abaixo à direita) é 7. Portanto, a IoU é \(\frac{1}{7}\).

Mesma imagem acima, mas com cada caixa delimitadora dividida em quatro
          quadrantes. Há sete quadrantes no total, já que o quadrante inferior direito
          da caixa delimitadora da verdade empírica e o quadrante superior esquerdo
          da caixa delimitadora prevista se sobrepõem. Essa seção sobreposta (destacada em verde) representa a interseção e tem uma área de 1. Mesma imagem acima, mas com cada caixa delimitadora dividida em quatro
          quadrantes. Há sete quadrantes no total, já que o quadrante inferior direito
          da caixa delimitadora da verdade empírica e o quadrante superior esquerdo
          da caixa delimitadora prevista se sobrepõem.
          Todo o interior entre as duas caixas delimitadoras (destacado em verde) representa a união e tem uma área de 7.

K

pontos principais

#image

Coordenadas de recursos específicos de uma imagem. Por exemplo, para um modelo de reconhecimento de imagem que diferencia espécies de flores, os pontos principais podem ser o centro de cada uma delas, o caule, a estala e assim por diante.

L

pontos de referência

#image

Sinônimo de keypoints.

M

MNIST

#image

Um conjunto de dados de domínio público compilado por LeCun, Cortes e Burges que contém 60.000 imagens, cada imagem mostrando como uma pessoa escreveu manualmente um dígito específico de 0 a 9. Cada imagem é armazenada como uma matriz de 28 x 28 de números inteiros, em que cada número inteiro é um valor de escala de cinza entre 0 e 255, inclusive.

O MNIST é um conjunto de dados canônico para machine learning, geralmente usado para testar novas abordagens de machine learning. Para mais detalhes, consulte O banco de dados MNIST de dígitos escritos à mão.

P

pool

#image

Reduzir uma matriz (ou matrizes) criada por uma camada convolucional anterior para uma matriz menor. O pool geralmente envolve o valor máximo ou médio na área em pool. Por exemplo, suponha que haja a seguinte matriz 3x3:

A matriz 3x3 [[5,3,1], [8,2,5], [9,4,3]].

Uma operação de pooling, assim como uma operação convolucional, divide essa matriz em partes e desliza essa operação convolucional por grandes passos. Por exemplo, suponha que a operação de poolização divida a matriz convolucional em fatias 2x2 com um passada de 1x1. Como ilustra o diagrama a seguir, quatro operações de pooling ocorrem. Imagine que cada operação de pool escolhe o valor máximo dos quatro na fração:

A matriz de entrada é 3 x 3 com os valores: [[5,3,1], [8,2,5], [9,4,3]].
          A submatriz 2x2 superior esquerda da matriz de entrada é [[5,3], [8,2]]. Portanto,
          a operação de pool no canto superior esquerdo produz o valor 8 (que é o
          máximo de 5, 3, 8 e 2). A submatriz 2x2 superior direita da matriz
          de entrada é [[3,1], [2,5]]. Portanto, a operação de pooling no canto superior direito produz
          o valor 5. A submatriz 2x2 inferior esquerda da matriz de entrada é
          [[8,2], [9,4]]. Portanto, a operação de pooling no canto inferior esquerdo produz o valor
          9.  A submatriz 2x2 inferior direita da matriz de entrada é
          [[2,5], [4,3]]. Portanto, a operação de poolização no canto inferior direito produz o valor
          5.  Em resumo, a operação de pooling produz a matriz 2x2
          [[8,5], [9,5]].

O pooling ajuda a aplicar a incompatibilidade de tradução na matriz de entrada.

O pool de aplicativos de visão é conhecido mais formalmente como pooling espacial. Os aplicativos de série temporal geralmente se referem ao pool em pooling temporário. De maneira menos formal, o pool é chamado de subamostragem ou downsample.

R

invariação rotacional

#image

Em um problema de classificação de imagem, um algoritmo pode classificar imagens sem problemas, mesmo quando a orientação da imagem muda. Por exemplo, o algoritmo ainda pode identificar uma raquete de tênis, seja apontando para cima, de lado ou para baixo. A incompatibilidade de rotação nem sempre é desejada. Por exemplo, uma 9 de cabeça para baixo não pode ser classificada como 9.

Consulte também invariação de tradução e variação de tamanho.

S

incompatibilidade de tamanho

#image

Em um problema de classificação de imagem, um algoritmo pode classificar imagens sem problemas, mesmo quando o tamanho da imagem muda. Por exemplo, o algoritmo ainda pode identificar um gato se consome 2 milhões de pixels ou 200 mil pixels. Mesmo os melhores algoritmos de classificação de imagens ainda têm limites práticos para a incompatibilidade de tamanho. Por exemplo, um algoritmo (ou humano) provavelmente não classificará corretamente uma imagem de gato consumindo apenas 20 pixels.

Consulte também invariação de tradução e variação de rotação.

pool espacial

#image

Consulte pooling.

stride

#image

Em uma operação convolucional ou pooling, o delta em cada dimensão da próxima série de frações de entrada. Por exemplo, a animação a seguir mostra um passo (1,1) durante uma operação convolucional. Portanto, a próxima fração de entrada inicia uma posição à direita do fragmento de entrada anterior. Quando a operação atinge a borda direita, a próxima porção fica mais até a esquerda, mas uma posição abaixo.

Uma matriz de 5 x 5 de entrada e um filtro convolucional de 3 x 3. Como o
 passada é (1,1), um filtro convolucional será aplicado 9 vezes. A primeira
     fatia convolucional avalia a submatriz 3x3 no canto superior esquerdo da matriz
     de entrada. A segunda fatia avalia a submatriz de 3x3 no meio
     superior. A terceira fatia convolucional avalia a submatriz 3x3
     superior direita.  A quarta fatia avalia a submatriz 3x3 do meio do lado esquerdo.
     A quinta fatia avalia a submatriz do meio do 3 x 3. A sexta fatia
     avalia a submatriz 3x3 do meio do lado direito. A sétima fatia avalia
     a submatriz 3x3 inferior esquerda.  A oitava fatia avalia a
     submatriz de 3 x 3 do meio e inferior. A quarta fatia avalia a submatriz 3x3 inferior direita.

O exemplo anterior demonstra um passo bidimensional. Se a matriz de entrada for tridimensional, o Passo também será tridimensional.

subamostragem

#image

Consulte pooling.

T

invariação de tradução

#image

Em um problema de classificação de imagem, uma algoritmo é capaz de classificar imagens com sucesso, mesmo quando a posição dos objetos dentro da imagem muda. Por exemplo, o algoritmo ainda pode identificar um cachorro, seja no centro do frame ou na extremidade esquerda do frame.

Consulte também incompatibilidade de tamanhos e invariação rotacional.