Visão Computacional

SAM 1 e 2 (Arquitetura)

Piemontez — Wed, 20 May 2026 15:30:31 +0000

Este artigo, explana o funcionamento das versões 1 e 2 do SAM (Segment Anything Model), conforme descrito em seus artigos científicos, com foco no detalhamento de suas redes neurais. Detalhando quais são as camadas ocultas destas duas redes neurais e uma breve descrição de como é o funcionamento destas camadas.

O que é e como funciona o SAM 1 e 2?

De forma simples, o SAM é um modelo de inteligência artificial que permite selecionar e separar objetos em imagens e, no caso do SAM 2, também em vídeos. O usuário indica a região de interesse por meio de pontos, áreas ou máscaras e o modelo gera automaticamente a segmentação correspondente. A Figura 1, apresenta uma visão geral desse funcionamento.

Figura 1 – Exemplo de uso de SAM 2 [META].

O SAM 1 é um modelo de segmentação de imagens criado pela Meta AI, cujo objetivo é separar (segmentar) qualquer objeto em uma imagem, mesmo sem ter sido treinado especificamente para aquele tipo de objeto.

O SAM 2 é a evolução do SAM 1, lançado para ir além de imagens estáticas e resolver segmentação interativa e automática em vídeos, mantendo a ideia de “segmentar qualquer coisa”, mas agora ao longo do tempo.
A principal mudança é que o SAM 2 entende continuidade temporal, ou seja, ele consegue seguir o mesmo objeto, frame a frame, em um vídeo e também possui maior precisão.

Aspecto	SAM 1	SAM 2
Tipo de dado	Imagem	Vídeo + imagem
Consistência temporal
Rastreamento de objetos

Tabela1 – Diferença SAM 1 e SAM 2.

Os SAM 1 e 2 foram desenvolvidos com uma arquitetura que incluí 3 componentes principais:

Image Encoder (Codificador de imagem);
Prompt Encoder (Codificador de prompts);
Mask Decoder (Decodificador de máscaras)

O Vídeo 1, abaixo, ilustra como o SAM 1 funciona. A partir de uma imagem de entrada e de um prompt, o modelo codifica a imagem em uma representação numérica rica — isto é, um tensor com informações semânticas — que permite compreender sua estrutura visual. Em seguida, essa representação é combinada com o prompt de entrada, que também é transformado internamente, para gerar uma máscara final (composta por valores binários) correspondente à região segmentada.

Video 1 – Ilustração de funcionamento do SAM [SA].

Uma outra forma de visualizarmos o funcionamento dos SAM 1 e 2, é a partir da Figura 1 abaixo, aonde as 3 camadas: “Image Encoder”, “Prompt Encoder” e “Mask Decoder”, mencionadas no parágrafo anterior, são representadas respectivamente nas cores verde, roxo e laranja.

Figura 1. SAM vs. SAM 2 architecture [KA][RN][GJDECJR].

Observe na Figura 1.b, que a principal diferença entre o SAM 1 e o 2 é a inclusão de uma nova etapa: o banco de memória. Esta etapa, foi adicionada no final, após a segmentação da imagem, onde é criado um banco de memória que alimenta a próxima segmentação (frame) de imagem, caso seja realizada uma segmentação em vídeos. Outra diferença importante do SAM 2, é que a decodificação da imagem (em verde), é realizada por transformação hierárquica (processo melhor detalhado nas próximas seções).

Codificador de imagem (Image encoder)

O codificador de imagem é responsável por transformar a imagem original em uma representação numérica chamada de embedding. No SAM 1, essa etapa é realizada por um Vision Transformer (ViT), que divide a imagem em pequenos blocos e aprende as relações entre eles por meio de mecanismos de atenção.

Camadas de atenção (ou attention layers) são componentes centrais de modelos de Inteligência Artificial e Processamento de Linguagem Natural (como os Transformers). Elas funcionam como um filtro cognitivo que permite à IA identificar quais partes de um texto, imagem ou áudio são mais relevantes para a tarefa sendo executada.

Esse codificador é previamente treinado utilizando a abordagem de Masked Autoencoder (MAE), na qual partes da imagem são ocultadas e o modelo aprende a reconstruí-las, permitindo capturar representações visuais mais ricas e generalizáveis.

Diferente do SAM 1, o SAM 2 usa um transformer hierárquico (Hiera), onde processa a imagem em múltiplos níveis de resolução. Na resolução baixa, o Hiera aprende contexto global (forma geral); na resolução média, partes do objeto; e na alta, bordas e detalhes. Esta técnica é chamada de pirâmide de features, desta forma, o que o SAM 1 extrai em uma única resolução, agora o SAM 2 extrai em resoluções diferentes.

Vision Transformer (Vit)

O Vision Transformer foi apresentado pela primeira vez em 2020 em um artigo intitulado “16 x16 palavras” (link nas referências) e tornou-se amplamente utilizada em tarefas de PNL (Processamento de Linguagem Natural), sendo que para aproveitar os recursos dos Transformers para imagens, o ViT foi introduzido [TA].

Figura 2 – Vision Transformer (ViT). Imagem do autor [ALADXTMGSJNN].

Para processar uma imagem, inicialmente ela é segmentada em pequenos patches de tamanho fixo, depois disso, esses patches passam por uma incorporação linear. Por exemplo, considerando uma imagem com dimensões 1024 × 1024 × 3, ao dividi-la em patches de 16 × 16 (totalizando 256 patches), cada um terá dimensão equivalente a 64 × 64 × 3. Em seguida, cada patch é transformado linearmente para o tamanho do modelo. Assim, um patch de dimensão 64 × 64 × 3 (12.288 valores) é projetado em um espaço de tamanho 4096. Dessa forma, cada patch passa a ser representado por um embedding de dimensão 4096 [TA].

Resumo da camada linear: todos os pixels de cada patch são achatados em um vetor, e os 12.288 valores resultantes são multiplicados por uma matriz de pesos de dimensão (12.288 × 4.096), gerando 4.096 valores de embedding. Por exemplo, realiza-se a multiplicação entre a entrada (256, 12.288) e a matriz de pesos (12.288, 4.096), em que 256 corresponde ao número de patches, 12.288 ao número de valores por patch após achatamento, e 4.096 ao tamanho final do embedding de cada patch [TA].

Ao dividir uma imagem em 256 partes, cada uma delas é transformada em um vetor de incorporação (embedding). De maneira semelhante ao que ocorre em modelos de linguagem, nos quais palavras são representadas como vetores, cada região da imagem passa a ter sua própria representação vetorial. Assim, obtemos 256 vetores de incorporação, correspondentes a cada parte da imagem, que capturam as características essenciais de cada região [TA].

Em seguida, vetores de incorporação posicionais são somados aos vetores de incorporação da imagem por meio de uma adição elemento a elemento. Além disso, vetores de incorporação de classe são inseridos no início da sequência de vetores de incorporação, conforme ilustrado na Figura 2, onde esses vetores também são adicionados no início para tarefas de classificação. Esses vetores de incorporação de classe são parâmetros treináveis [TA].

O objetivo do Vision Transformer (ViT) é realizar a classificação de imagens. Ao final do codificador, esses vetores de incorporação de classe desempenham um papel fundamental na decisão de classificação, de forma análoga à camada linear utilizada em modelos de linguagem (LLMs) [TA].

Masked Autoencoder (MAE)

Masked Autoencoders (MAE) são uma abordagem eficiente de aprendizado auto-supervisionado para visão computacional. A ideia principal é simples: o modelo recebe uma imagem com várias partes ocultadas e aprende a reconstruir os pixels ausentes.

Esse método se baseia em dois pontos principais:

Primeiro, uma arquitetura assimétrica, em que o codificador processa apenas as partes visíveis da imagem, enquanto um decodificador leve reconstrói a imagem completa;
Segundo, o uso de uma alta taxa de mascaramento (por exemplo: 75%), o que torna a tarefa de reconstrução mais desafiadora e significativa.

Com essa abordagem, é possível treinar modelos grandes de forma mais eficiente, obtendo melhor desempenho e boa capacidade de generalização para diferentes tarefas [LZ].

Em SAM 1, o MAE é pré-treinado utilizando um grande subconjunto aleatório de patches da imagem, no qual parte desses patches é mascarada. O codificador é então aplicado apenas ao subconjunto reduzido de patches visíveis. Após isso, os tokens correspondentes aos patches mascarados são adicionados à saída do codificador. Esse conjunto completo, composto pelos patches codificados e pelos tokens mascarados, é processado por um decodificador compacto, responsável por reconstruir a imagem original no nível de pixels. Após a etapa de pré-treinamento, o decodificador é descartado e o codificador passa a ser utilizado com o conjunto completo de patches, agora sem máscaras, em tarefas de reconhecimento [TA].

O codificador do MAE foi empregado como codificador de imagens no modelo Segment Anything (SAM), conforme ilustrado na Figura 1.a. Nesse caso, os embeddings de imagem são gerados apenas uma única vez, permitindo que múltiplos prompts sejam fornecidos como entrada posteriormente [TA].

Imagem 3 – Autoencoder mascarado (MAE) [LZ].

Hiera

“Transformadores de visão como o ViT usam a mesma resolução espacial e o mesmo número de características em toda a rede. Mas isso é ineficiente: as camadas iniciais não precisam de tantas características, e as camadas posteriores não precisam de tanta resolução espacial. Modelos hierárquicos anteriores, como o ResNet, resolviam esse problema usando menos características no início e menos resolução espacial no final” [Hiera, 2026].

O SAM 2 utiliza um codificador de imagem baseado no Hiera, uma arquitetura hierárquica derivada do ViT, previamente treinada com a abordagem MAE. Esse codificador é capaz de extrair características em múltiplas escalas, capturando tanto o contexto global quanto detalhes finos da imagem [RA]. Cada alteração de escala modifica o tamanho das representações internas (ou embeddings) no Hiera, conforme bloco Hiera Encoder, ilustrado na Imagem 4 abaixo.

Imagem 4 – Hiera: A Hierarchical Vision Transformer without the Bells-and-Whistles [FR].

Cada escala pode ser representada da seguinte forma:

Estágio 1 → alta resolução (detalhes);
Estágio 2 → média resolução;
Estágio 3 → baixa resolução (mais contexto);
Estágio 4 → muito baixa resolução (global).

Cada escala tem como saída esperada:

F1 → detalhes (alta resolução);
F2 → partes do objeto;
F3 → estrutura;
F4 → contexto global.

A partir dessas diferentes escalas, a Feature Pyramid Network (FPN) atua integrando as características extraídas em cada estágio, combinando informações mais abstratas, provenientes das camadas de baixa resolução, com os detalhes preservados nas camadas de alta resolução.

As características dos níveis mais profundos, oriundas dos estágios 3 e 4, são utilizadas para gerar embeddings ricos e semânticos da imagem, fundamentais para a segmentação. Ao mesmo tempo, características de alta resolução, provenientes dos estágios 1 e 2, são incorporadas às etapas de reconstrução no decodificador de máscara, permitindo produzir segmentações mais precisas e com maior nível de detalhe [RA].

Codificador de prompt

A codificação de prompts constitui uma etapa essencial no pipeline do SAM, responsável por transformar as interações do usuário em representações numéricas (embeddings) que o modelo consegue interpretar. Esses prompts atuam como mecanismos de orientação, direcionando a atenção do modelo para regiões ou objetos específicos dentro da imagem.

Imagem 5 – Prompt Decoder [SW].

O codificador de prompt recebe diferentes tipos de entradas fornecidas pelo usuário, como:

Cliques em pontos específicos da imagem;
Caixas delimitadoras;
Máscaras iniciais aproximadas.

Essas entradas são processadas e convertidas em vetores que representam tanto a posição espacial quanto o tipo de interação. De forma geral, os prompts são divididos em duas categorias principais:

Prompts esparsos (sparse): incluem pontos e caixas, que representam informações discretas e localizadas. Cada ponto ou vértice da caixa é codificado como um vetor (token), totalizando um pequeno conjunto de embeddings que indicam explicitamente onde o modelo deve focar.
Prompts densos (dense): incluem máscaras, que possuem correspondência espacial com toda a imagem. Nesse caso, a máscara é processada por camadas convolucionais, resultando em um mapa de features que preserva a estrutura espacial da entrada.

No caso dos prompts esparsos, como cliques, a codificação ocorre em etapas. Primeiramente, as coordenadas do ponto são normalizadas e transformadas por um mecanismo de codificação posicional (positional encoding), que captura a localização no espaço da imagem. Em seguida, esse vetor é combinado com um embedding aprendido que indica se o ponto pertence ao primeiro plano (foreground) ou ao fundo (background). Já as caixas delimitadoras são representadas por pares de pontos (canto superior esquerdo e canto inferior direito), cada um com seu próprio embedding específico.

O resultado desse codificador é um conjunto de vetores (tokens) que representam a intenção do usuário. Esses tokens não carregam diretamente o conteúdo visual da imagem, mas sim informações sobre “onde” e “o que” deve ser segmentado.

Esses embeddings de prompt são então fornecidos ao decodificador de máscaras juntamente com os embeddings da imagem. No Mask Decoder, ocorre a interação entre essas duas informações por meio de mecanismos de atenção, nos quais os tokens do prompt (esparsos) direcionam o modelo a extrair, dos embeddings densos da imagem, as regiões correspondentes ao objeto desejado.

Na prática, o codificador de prompt responde à pergunta:

“Qual região da imagem o usuário quer segmentar?”

Dessa forma, ele atua como a interface entre a interação humana e o processamento automático do modelo, permitindo que o SAM realize segmentações precisas de forma interativa, rápida e generalizável.

Decodificador de máscara (Mask decoder)

O decodificador de máscara é a etapa da arquitetura responsável por combinar as características da imagem, os embeddings de prompt e quando disponível, informações adicionais para gerar a segmentação final. O decodificador utiliza um número reduzido de camadas de atenção, nas quais os embeddings da imagem e os tokens de prompt são mutuamente atualizados por meio de mecanismos de atenção cruzada.

Imagem 6 – Saída do decodificador de imagem [KA].

O codificador de imagem primeiro converte a imagem em uma representação numérica rica em informações visuais, em seguida, o codificador de prompts transforma entradas como pontos, caixas delimitadoras ou máscaras iniciais em embeddings, que indicam ao modelo qual região deve ser segmentada. O decodificador de máscara combina essas duas fontes de informação para prever a região exata do objeto na imagem [KA].

Uma característica importante desse decodificador é que ele foi projetado para ser leve e rápido, isso permite que, depois que a imagem já foi processada pelo codificador, o usuário possa testar diferentes prompts quase em tempo real, sem precisar recalcular toda a imagem novamente. Essa separação entre um codificador de imagem mais pesado e um decodificador mais eficiente é uma das razões pelas quais o SAM funciona bem em cenários interativos [SA].

O decodificador também lida com ambiguidades, por exemplo, se o usuário clicar em um ponto sobre uma camisa, o modelo pode interpretar o alvo como a camisa, a pessoa inteira ou até uma parte específica do corpo. Para resolver isso, o SAM pode gerar múltiplas máscaras válidas e associar a elas pontuações de confiança, permitindo escolher a segmentação mais adequada [SA].

Em resumo, o decodificador de máscara funciona como a etapa final de decisão do SAM: ele recebe a compreensão visual da imagem, interpreta a intenção expressa pelo prompt e produz a máscara segmentada correspondente. É esse módulo que transforma a interação simples do usuário — como um clique ou uma caixa — em uma seleção precisa de pixels pertencentes ao objeto desejado. Uma descrição detalhada de como funciona a etapa de decodificação é encontrada no post SAM 2 (Segment Anything Model 2) is Amazing, But We Need to understand SAM 1.

Tratamento de ambiguidade

Para lidar com ambiguidades de segmentação, tanto o SAM 1 quanto o SAM 2 podem gerar múltiplas máscaras candidatas para um mesmo prompt. Cada uma dessas máscaras recebe uma pontuação de qualidade baseada em um IoU (Intersection over Union) previsto (predicted IoU), que representa uma estimativa da qualidade da segmentação aprendida durante o treinamento. Esse mecanismo permite selecionar a máscara mais adequada e aumenta a robustez do modelo em cenários complexos, como imagens com múltiplos objetos, sobreposição ou fronteiras pouco definidas.

No caso do SAM 2, essa abordagem é estendida para vídeos, contribuindo também para manter a consistência das segmentações ao longo dos quadros, mesmo em situações de oclusão ou visibilidade parcial dos objetos [RA].

Memória e Atenção (Memory and Attention)

O SAM 2 introduz um mecanismo de memória que armazena representações de frames anteriores em um banco de memória, permitindo que o modelo utilize essas informações ao processar o frame atual. Por meio de mecanismos de atenção, o modelo combina o conteúdo atual com o histórico armazenado, garantindo maior consistência temporal e melhor desempenho em cenários com movimento, oclusão e variações visuais. Esse mecanismo é composto por três elementos principais: um codificador de memória, um banco de memória e um módulo de atenção de memória.

Codificador de memória (Memory Encoder)

O codificador de memória transforma as características da imagem e a máscara gerada em uma representação compacta que descreve o objeto e pode ser armazenada para uso futuro.

Banco de memória (Memory Bank)

O banco de memória armazena essas representações de frames anteriores, mantendo um histórico recente do objeto ao longo do vídeo.

Módulo de atenção de memória (Memory Attention)

O módulo de atenção de memória utiliza essas informações armazenadas para influenciar a segmentação do frame atual, garantindo consistência ao longo do tempo.

Uma descrição detalhada sobre a memória do SAM 2 é encontrada em Memory and Attention Mechanism.

Treinamento

O código do Segment Anything Model é parcialmente open source. No SAM 1, a Meta disponibilizou principalmente o código para inferência e uso do modelo, mas não o pipeline completo de treinamento. Já no SAM 2, houve maior abertura, incluindo suporte a treinamento e fine-tuning, embora o processo completo utilizado em larga escala não tenha sido totalmente divulgado.

Código fonte

https://github.com/facebookresearch/segment-anything

https://github.com/facebookresearch/sam2

Referências:

[KA] KIRILLOV, Alexander et al. Segment Anything. arXiv preprint arXiv:2304.02643, 2023. Artigo acesso em: 6 maio 2026

[RN] RAVI, Nikhila et al. SAM 2: Segment Anything in Images and Videos. arXiv preprint arXiv:2408.00714, 2024. Artigo acesso em: 6 maio 2026

[DATAC] DATACAMP. SAM 2 da Meta: o Segment Anything Model para imagens e vídeos. Acesso em: 6 maio 2026.

[GJDECJR] Gutiérrez Gallardo, Juan Diego & Delgado, Emilio & Breuer, Carlos & Conejero Manzano, José María & Rodriguez-Echeverria, Roberto. (2025). Prompt Once, Segment Everything: Leveraging SAM 2 Potential for Infinite Medical Image Segmentation with a Single Prompt. Algorithms. 18. 227. 10.3390/a18040227.

[SA] Segment Anything Research by Meta AI. Acessado em: 07 maio 2026

[META] META. Our new AI model can segment video. 2024. Acesso em: 6 maio 2026.

[ALADXTMGSJNN] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby. An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale. Acessado em: 13 maio de 2026

[LZ] Liu, Ziming A Toy Model of Masked-Autoencoder. Acesso em: 13 maio 2026.

[TA] TOWARDS AI. SAM 2: Segment Anything Model 2 is amazing, but we need to understand SAM 1.Acesso em: 13 maio 2026.

[RA] ROBERGE, Adam. Unpacking the advanced features of SAM2. Medium, [s.d.]. Acesso em: 19 maio 2026.

[FR] FACEBOOK RESEARCH. Hiera. Acesso em: 19 maio 2026.

[SW] SAM-WEBUI. Prompt Encoding. Acesso em: 19 maio 2026.

The post SAM 1 e 2 (Arquitetura) appeared first on Visão Computacional.

Espaço e Filtros de Cores HSV, RGB, CMYK, HSB, HSL e RYB

Piemontez — Wed, 04 Sep 2024 23:15:58 +0000

Este artigo explana o conceito de espaço de cores e demonstra como extrair regiões de imagens utilizando apenas filtros de cores. Uma visão inicial sobre cores é apresentanda em Cores e Câmeras: Como os humanos enxergam e o que computadores podem enxergar.

Antes de apresentarmos sobre espaços e filtros de cores é necessário entender o que são cores e quais cores nós conseguimos enxergar para melhor entender como representá-las computacionalmente. Nesta primeira parte, serão explicados conceitos básicos sobre frequência de cores.

Caso você queira visualizar os efeitos que filtros de cores podem ter na área de visão computacional, vá para o final deste artigo.

Tudo o que sabemos sobre cores hoje em dia, iniciou em 1660, quando o cientista britânico Isaac Newton descobriu que, ao atravessar um feixe de luz solar num prisma de vidro, o feixe de luz sofria decomposição em uma gama de cores similares às do arco-íris. Newton concluiu que as cores que visualizou, faziam parte da luz solar branca. Logo em seguida, conseguiu demonstrar que, após decompor a luz branca com um prisma, poderia recompor as cores dispersadas com outro prisma invertido obtendo novamente a luz branca. [C] A ilustração da Fig.1, apresenta o espectro de cores produzido neste experimento, dividido em 7 regiões: vermelho, laranja, amarelo, verde, azul, anil, e violeta.

Figura 1 – Decomposição de luz branca em um prisma de vidro.

No experimento de Newton, conclui-se, que a cor branca é composta por todas as demais, com o violeta em uma extremidade ao vermelho na outra [GW]. As cores são formadas, por frequências da radiação eletromagnética e todas estas variações de frequência compõem o espectro eletromagnético conforme ilustrado na Fig. 2.

Por muito tempo, achou-se que a luz era a única parte conhecida deste espectro, porém ela representa uma parte muito pequena dele. O espectro se estende desde as ondas de baixa frequência, ondas de rádio, até as de maior frequência como as da radiação gama. Todas estas variações de frequências, servem como áreas de aplicação do processamento de imagens.

Uma forma fácil, de compreender a extensão de aplicações de processamento de imagens e possibilidades que um computador consegue enxergar, é categorizar estes espectros como, espectro de luz visível humana, raio x, infravermelho e assim por diante. Porém, ao categorizá-los não devemos esquecer que podemos utilizar mais de uma categoria ao mesmo tempo, como extração de informação.

Espectro visível da luz

Figura 2 – Espectro eletromagnético. Ilustração: Peter Hermes Furian / Shutterstock.com

Se observarmos a Fig. 2, percebemos que a variedade de cores que enxergamos é muito pequena, comparada a todo o espectro eletromagnético. Os espaços e filtros de cores apresentados a seguir foram criados para representar essa faixa do espectro de luz, também conhecida como espectro de luz visível humano.

Espaço de cores

Um espaço de cor, é uma fórmula/modelo matemática que descrever a cor. Existem vários espaços de cores diferentes, cada um foi pensado para um propósito diferente. Dentre eles os mais conhecidos são o RGB, CMYK, HSV e HSL.

Cores aditivas RGB (Red, Blue e Green)

O espaço de cor RBG, criado por James C Maxwell, e provavelmente o mais conhecido, é uma representação 3D das cores vermelho, azul, e verde, conforme Figura 4. Este espaço é associado a reprodução de cores em dispositivos eletrônicos, como monitor, celulares e TVs.

O RGB é um padrão de cores aditivas, elas são chamadas “aditivas” porque ao serem adicionadas, a soma dessas três cores, resulta na luz branca. Ao combinar apenas duas dessas cores primárias obtemos as cores secundárias: magenta, amarelo e ciano, conforme representado na Figura 3. O ciano é a união do azul com o verde. Já o amarelo, é a mistura do vermelho e do verde. Por fim, o magenta é resultado do azul mais o vermelho. Observer que as cores primarias no sistema aditivo é diferente das cores primarias no sistema subtrativo, visto na próxima seção.

Figura 3 – Cores Aditivas RGB

Figura 4 – Representação cúbida do RGB

Na Figura 5 outras demonstrações da mistura de cores no sistema aditivo. No cubo à esquerda, notar que o preto é obtido a partir da auxência de todas as cores, e no cubo a direita, a cor branca é o resultado da soma de todas as cores.

Figura 5 – Representação da mistura de cores aditivas.

Uma consideração, o sistema RGB utilizado em monitores e televisões é o sistema sRGB, existem outros modelos RGB como o Adobe RGB, bastante utilizado na industria de impressão.

Cores Substrativas CMYK

O sistema CMYK CMYK (Cyan, Magenta, Yellow e Black) é utilizado em impressão, pois trabalha com pigmentos. Diferente do modelo aditivo, o sistema subtrativo funciona pela absorção de luz: quanto mais cores são misturadas, menos luz é refletida, ou seja, quanto mais cores diferentes é misturado, menos cor ela ira refletir.

A cor branca, ou tinta branca, no sistema subtrativo, é a cor que menos absorve cores, logo refletindo todas elas. A cor preta, por sua vez, é a que mais absorve cores, não refletindo nenhuma, conforme ilustrado na Figura 6.

Figura 6 – Sistema de cor CMYK.

No modelo subtrativo, uma tinta vermelha, por exemplo, absorve verde e azul, refletindo apenas o vermelho.

Figura 7 – Absorção e reflexão de cores [GC].

Sistema RYB (Red, Yellow, Blue)

Muito utilizado por artistas, o modelo RYB (Red, Yellow, Blue) define as cores primárias tradicionais ensinadas no ensino básico.

Figura 8 – Sistema de cor RYB [GKPB].

A partir das cores RYB, obtemos o círculo cromático, uma representação, simplificada e em círculo, das cores percebidas pelo olho humano. Esta representação é muito útil para designer, arquitetos, pintores e outras artistas, pois a partir dela, é possível identificar cores complementares e contrastantes, cores contrastante sem perda de harmonia.

Figura 9 – Circulo Cromático.

No artigo Círculo Cromático: Veja Como Usar e Evite Erros na Escolha das Cores, são apresentados diversos exemplos de combinações de cores utilizando o círculo cromático.

Representação HSV e HSB

HSV é a abreviatura para o sistema de cores formadas pelos componentes Hue (matiz), Saturation (saturação) e Value (valor). O sistema de cor HSV é uma representação cilindrica das cores conforme Figuras 10 e 11.. O HSV também é conhecido como HSB (hue, saturation e brightness — matiz, saturação e brilho, respectivamente) [WK].

Figura 10 – HSV [WK]

Figura 11 – HSV [WK]

A cor, no sistema HSV, é definida conforme descrito abaixo:

Matiz (tonalidade): Define o tipo de cor, abrangendo todas as cores do espectro, desde o vermelho até o violeta, mais o magenta. Atinge valores de 0 a 360, em algumas aplicações, esse valor é normalizado de 0 a 100% ou entre 0 e 1.
Saturação: Também chamado de “pureza”. Quanto menor esse valor, mais com tom de cinza aparecerá a imagem. Quanto maior o valor, mais “pura” é a imagem. Atinge valores de 0 a 100% entre 0 e 1.
Valor (brilho): Define o brilho da cor. Atinge valores de 0 a 100% ou entre 0 e 1.

Este espectro de cor é muito útil no processamento de imagens e visão computacional, pois é mais simples extrair um faixa ou tipo de cor com este modelo.

Representação HSL

HSL é a abreviatura para o sistema de cores formado pelos componentes Hue (matiz), Saturation (saturação) e Lightness (luminosidade). O sistema de cor HSL é uma representação cilíndrica (ou biconica) das cores, semelhante ao HSV, porém com uma forma diferente de representar a variação de brilho.

A cor, no sistema HSL, é definida conforme descrito abaixo:

Matiz (Hue) -Define o tipo de cor, abrangendo todas as cores do espectro visível, desde o vermelho até o violeta, incluindo o magenta. Seus valores variam de 0 a 360 graus, podendo também ser normalizados entre 0 e 1 ou 0% e 100%.
Saturação (Saturation) -Representa a intensidade ou pureza da cor. Quanto menor o valor, mais próxima a cor estará de tons de cinza. Quanto maior, mais intensa e “pura” será a cor. Seus valores variam entre 0 e 100% ou entre 0 e 1.
Luminosidade (Lightness) – Define o grau de iluminação da cor. Diferente do modelo HSV, a luminosidade no HSL varia entre preto, cor pura e branco:
- 0% representa preto
- 50% representa a cor em sua intensidade normal
- 100% representa branco

Esse modelo permite um controle mais intuitivo da iluminação da cor, sendo bastante utilizado em design gráfico e interfaces visuais.

Assim como o HSV, o sistema HSL também é útil no processamento de imagens e visão computacional, especialmente quando se deseja manipular ou analisar cores levando em consideração sua luminosidade de forma mais equilibrada.

RGB para HSV e HSL

O HSV e o HSL são modelos de cores semelhantes, porém distintos. Ambos utilizam representações baseadas em geometrias cilíndricas para organizar as cores, facilitando sua interpretação e manipulação. No entanto, eles diferem na forma como essa geometria é construída.
O modelo HSV é baseado no chamado “hexcone” (um cone hexagonal), enquanto o modelo HSL é baseado em um “bi-hexcone” (duplo cone hexagonal), o que resulta em diferentes formas de representar o brilho e a intensidade das cores.
Na Figura 12, é possível observar as diferenças entre essas duas representações cilíndricas. A ilustração apresenta:

A estrutura geométrica de cada modelo (HSV e HSL);
A visualização das cores quando a saturação está em 100%, evidenciando apenas cores puras;
A visualização das cores quando luminosidade (no HSL) ou valor/brilho (no HSV) estão em 100%, mostrando como cada modelo trata regiões mais claras;
Cortes verticais no cilindro para valores de matiz em 0° e 180°, permitindo observar como as cores se distribuem internamente em cada modelo.

Essas diferenças estruturais influenciam diretamente na forma como as cores são ajustadas e percebidas em cada sistema, especialmente em aplicações de design gráfico e processamento de imagens.

Figura 12 -HSL e HSV [WK2].

Nos Vídeos 1 e 2, abaixo, são demonstrados como são realizados as conversões de um cubo RGB para as representações HSV/HSV e HSL.

Video 1 – Derivação geométrica visualizada da representação HSV cilíndrica de um “cubo de cores” RGB [WK2].

Video 2 – Derivação geométrica visualizada da representação HSL cilíndrica de um “cubo de cores” RGB [WK2].

Na Figura 13, ilustração da fórmula base para conversão entre estas representações. Ná página HSL and HSV da Wikipédia, contém a explanação completa destes cálculos.

Figura 13 – Fórmula base para conversão do sistema RGB em HSV e HSL [WK2].

Filtros

A seguir, serão apresentados alguns filtros locais (ou espaciais), com o objetivo de demonstrar como, por meio de operações simples, é possível extrair regiões específicas de uma imagem ou isolar determinados tipos de objetos.

Os filtros apresentados aqui são considerados os mais básicos no processamento de imagens. Eles funcionam analisando individualmente o valor de cada pixel da imagem de entrada e, com base em determinados critérios, geram uma nova imagem contendo apenas as informações de interesse.

Esse processo permite destacar características específicas da imagem original, como cores, bordas ou regiões específicas, facilitando etapas posteriores de análise. O funcionamento geral desse tipo de filtro pode ser observado de forma ilustrativa na Figura 14.

Figura.14 Funcionamento de um filtro de imagem.

Filtro de cor HSV.

No experimento apresentado no Vídeo 3, é possível observar como a aplicação simples de um filtro baseado em uma faixa de cores permite extrair objetos ou regiões de interesse de uma imagem.

Nesse experimento, são extraídas seis regiões distintas. Cada uma dessas regiões corresponde a uma faixa de cor específica, permitindo a separação dos elementos da imagem com base em suas cores. As faixas utilizadas representam as seguintes cores: vermelho, amarelo, verde, azul, roxo e ciano.

Video 3 – Experimento para extração de áreas de interesse com filtros HSV.

No caso apresentado no Vídeo 3, o objetivo principal é extrair as regiões da imagem que contêm morangos. Para isso, é aplicado um filtro correspondente à faixa de cor vermelha, permitindo isolar esses elementos do restante da imagem de entrada.

É importante observar que, para isolar completamente os morangos, foram utilizadas duas faixas de cor vermelha. Isso ocorre porque, na representação HSV, a cor vermelha está localizada tanto no início quanto no final do intervalo de matiz, devido à natureza cíclica dessa representação.

Apesar de sua simplicidade, esse tipo de filtro pode ser utilizado de forma eficiente em ambientes controlados como um primeiro estágio de detecção de objetos. Isso se deve ao seu baixo custo computacional, o que permite seu uso em conjunto com métodos mais avançados, como algoritmos de inteligência artificial, formando uma abordagem encadeada de processamento.

Filtro de cor NDVI

Uma outra forma de extrair informações de uma imagem utilizando apenas filtros de cores é por meio da comparação da diferença, ou distância, entre duas ou mais bandas de cor em cada pixel. Esse tipo de abordagem permite extrair informações relevantes, como a presença de água, a saúde da vegetação, entre outras características específicas da cena.

O Índice de Vegetação por Diferença Normalizada (NDVI) é um exemplo desse tipo de técnica. Ele consiste em um indicador simples que representa a quantidade de biomassa fotossinteticamente ativa, ou seja, fornece uma estimativa da saúde da vegetação. Em termos mais intuitivos, o NDVI mede o estado das plantas com base em como elas refletem e absorvem a luz em diferentes frequências do espectro eletromagnético.

De forma simplificada, plantas saudáveis tendem a absorver mais luz na faixa do vermelho visível e refletir mais luz na faixa do infravermelho próximo. Já superfícies não vegetais apresentam comportamentos diferentes nessas faixas.

O NDVI funciona justamente comparando essas duas respostas espectrais, utilizando a seguinte fórmula:

Fórmula: NDVI = (Infravermelho Próximo - Vermelho) / (Infravermelho Próximo + Vermelho)

O resultado desse cálculo é um valor normalizado que varia tipicamente entre -1 e 1, permitindo diferenciar diferentes tipos de cobertura do solo.

Observe a imagem à esquerda da Figura 14: ela foi gerada a partir do cálculo do NDVI, utilizando a diferença entre dois canais de cor — o vermelho e o infravermelho próximo. Nessa representação, elementos como troncos de árvores, grama seca e rochas apresentam valores baixos de NDVI, pois não realizam fotossíntese. Em contrapartida, áreas com vegetação saudável apresentam valores elevados de NDVI, destacando-se claramente na imagem.

Figura 14 – Foto colorida normal à direita e imagem de índice de vegetação de diferença normalizada NDVI) à esquerda.
Autor: Public Lab

Mais sobre NDVI e outros Índices você pode ler em NDVI e NDWI – Índice de Vegetação e Índice de Água, e em Experimento – NDVI e NDWI com o Google Earth Engine um exemplo de como detectar água e vegetação saudável utilizando o Google Maps, utilizando apenas filtros de cores.

Outros índices

Existem diversos outros índices, capazes de diferenciar nuvens de neve, queimadas, entre outros como:

Índice de Diferença Normalizada da Água (NDWI)
Índice De Queima Por Razão Normalizada (NBR), Índice De Clorofila Verde (GCI);
Índice De Neve de Diferença Normalizada (NDSI);
Índice De Clorofila de Borda Vermelha (RECl);
Índice De Vegetação Ajustado ao Solo Modificado (MSAVI);
Índice De Vegetação da Diferença De Verde Normalizado (GNDVI);
Índice De Vegetação Ajustado ao Solo (SAVI);
Índice De Vegetação Resistente À Atmosfera (ARVI);
Índice De RedEdge por Diferença Normalizada (NDRE);

melhores detalhados no artigo Indices de Vegetação da Earth Observation System.

Comentários finais

Uma das melhores formas de entender melhor os efeitos destes filtro é testando operações e funções que alteram a imagem, pois uma mesma operações pode produzir diversos efeitos diferentes dependendo da imagem utilizada.

Referências:

[C] CALDAS, J. Museu Interativo da Física da UFPA: Ação educativa com ênfase em divulgação e popularização da História e da Filosofia da Ciência para o ensino de Física. 2015. Trabalho de Conclusão de Curso. Faculdade de Física. Universidade Federal do Pará, Belém, 2015.

[GW] GONZALEZ, R. C., WOODS, R. E. Processamento de Imagens Digitais.
Editora Edgard Blucher, ISBN 978-85-8143-586-2, 3 ed., São Paulo, 2010

[GKPB] CMYK, RGB e RYB: conheça os diferentes sistemas de cores primárias. Acessado 12 de agosto de 2024.

[GC] Gerenciamento de cor. Cores – sistema aditivo e substrativo. Acessado em 12/08/2024.

[WK] Wikipédia . HSV. Acessado em 29/08/2024.

[WK2] Wikipédia. HSL and HSV. Acessado em 30/08/2024.

[EOS-2] Earth Observation System, Índice De Água De Diferença Normalizada. Acessado em 18 fev 2024.

The post Espaço e Filtros de Cores HSV, RGB, CMYK, HSB, HSL e RYB appeared first on Visão Computacional.

YOLO Versões 3 e 4 (Arquitetura)

Piemontez — Sat, 30 Mar 2024 14:23:25 +0000

Este artigo, explana o funcionamento das versões 3 e 4 do YOLO, conforme descrito em artigos científicos, com foco em suas redes neurais, detalhando quais são as camadas ocultas destas duas redes neurais e uma breve descrição de como é o funcionamento dessas camadas.

Alguns dos comportamentos realizados pela rede neural do YOLO v3 e v4 são idênticos ao das suas versões 1 e 2, que serão apresentadas de forma resumida neste artigo, destacando assim as melhorias das versões 3 e 4. Antes de prosseguir, recomendo a leitura dos artigos: YOLO para Detecção de Objetos – Visão Geral e YOLO Versões 1 e 2 (Arquitetura).

Como funciona?

O YOLO utiliza uma rede neural profunda (DNN – Deep Neural Network), rede neural convolucional, cuja a arquitetura é chamada de Darknet, com o mesmo nome do framework utilizado para implantá-la. Sua implementação foi desenvolvida na linguagem C, porém, com a ajuda da comunidade e empresas, já está disponível em várias outras linguagens de programação.

O YOLO cria diversas caixas delimitadoras, para cada caixa é atribuído um valor de confiança, com a porcentagem (0 até 1) de existir um objeto, também é realizada a predição de que tipo de objeto existe na caixa. O valor de confiança para a caixa delimitadora e a predição da classe são combinados em uma pontuação final, que vai informar a probabilidade dessa caixa conter um objeto específico. Por fim, é realizado o processo de supressão não máxima, a fim de “filtrar”/”eliminar” falsos objetos e mesclar regiões de um mesmo objeto [AG].

Nem todo o processo do YOLO é realizado dentro da Rede Neural, como por exemplo, a supressão não máxima, que elimina detecções repetidas de um mesmo objeto, é realizada fora da rede neural. O redimensionamento da imagem também é realizado fora da rede neural, assim como normalizar a quantidade e ordem de canais de cores da imagem.

É Importante lembrar, que atualmente a função de perda, responsável por treinar a rede neural YOLO, faz parte da biblioteca DarkNet, ou seja, independente de qual tecnologia for utilizada para usar o YOLO, será necessária a biblioteca DarkNet para treinar os classificadores.

YOLO V3

Em relação às suas versões anteriores, a versão 3 não possui grandes mudanças segundo o próprio autor, ao mencionar o seguinte texto na introdução do seu artigo YOLO v3: “Consegui fazer algumas melhorias no YOLO. Mas, honestamente, nada como super interessante, apenas um monte de pequenas mudanças que o tornam melhor.”

Uma das principais melhorias no YOLO v3 é o uso de uma nova arquitetura CNN chamada Darknet-53. O Darknet-53 é uma variante com arquitetura ResNet que foi projetada especificamente para tarefas de detecção de objetos. Possui 53 camadas convolucionais, capaz de alcançar melhores precisões na detecção de objetos [KR].

Outra melhoria no YOLO v3 são as caixas de âncora (anchor boxes) com diferentes escalas e proporções. No YOLO v2, as caixas de âncora eram todas do mesmo tamanho, o que limitava a capacidade do algoritmo de detectar objetos de diferentes tamanhos e formas. No YOLO v3, as caixas de âncora são dimensionadas e suas proporções são variadas, para melhor corresponder ao tamanho e à forma dos objetos que estão sendo detectados [KR].

YOLO v3 também introduz o conceito de “redes de pirâmide de recursos” (FPN). FPNs são arquiteturas CNN usadas para detectar objetos em múltiplas escalas. Elas constroem uma pirâmide de mapas de características, com cada nível da pirâmide sendo usado para detectar objetos em uma escala diferente. Isso ajuda a melhorar o desempenho de detecção em objetos pequenos, pois o modelo é capaz de perceber objetos em escalas maiores [KR]. No final deste artigo, o FPN, é melhor descrito.

Figura 1 – Arquitetura YOLO v3

Detecção em três escalas

A arquitetura mais recente possui conexões de salto residuais (ResNet) e aumento da resolução [KA]. Essas conexões de salto permitem que informações de gradiente passem pelas camadas, criando “rodovias” de informações, onde a saída de uma camada/ativação anterior seja adicionada à saída de uma camada mais profunda [DST]. Isto permite que as informações das partes anteriores da rede sejam passadas para as partes mais profundas da rede, ajudando a manter a propagação do sinal mesmo em redes mais profundas. As conexões de salto são um componente crítico que permitiu o treinamento bem-sucedido de redes neurais mais profundas.

Você pode observas nas Figuras 1, os saltos residuais pelas camadas 36 e 61. Note que no final de cada salto existe o simbolo “*”, indicando que as informações do início do salto foram adicionadas (normalizadas) às informações da última camada dentro do bloco.

A característica mais notável da v3 é que ela faz detecções em três escalas diferentes, fornecidas precisamente pela redução da resolução das dimensões da imagem de entrada em 32, 16 e 8, respectivamente. A detecção é feita aplicando kernels de detecção 1 x 1 em mapas de recursos de três tamanhos diferentes em três locais diferentes na rede [KA].

A forma do kernel de detecção do YOLO v3 é 1 x 1 x (B x (5 + C) ), onde B é o número de caixas delimitadoras que uma célula no mapa de recursos pode prever, o “5” corresponde aos 4 primeiros atributos da caixa delimitadora mais a confiança de um objeto, e o C é o número de classes treinadas. Por exemplo, na rede neural YOLO v3 treinado com COCO DataSet, com 3 caixas delimitadoras(B=3) e capacidade pra classificar 80 objetos (C=80), teremos o tamanho de um kernel de 1 x 1 x (3 * (5 + 80)) = 255 [KA].

A primeira detecção é feita pela 82ª camada. Para as primeiras 81 camadas, a imagem é amostrada pela rede, de modo que a 81ª camada tenha um passo(Stride) de filtro de 32. Se tivermos uma imagem de 416 x 416, o mapa de características resultante teria o tamanho de 13 x 13. Uma detecção é feito aqui usando o kernel de detecção 1 x 1, fornecendo um mapa de recursos de detecção de 13 x 13 x 255 [KA].

Em seguida, o mapa de características da camada 79 é submetido a algumas camadas convolucionais antes de ser amostrado em 2x para dimensões de 26 x 26. Este mapa de características é então concatenado em profundidade com o mapa de características da camada 61. Em seguida, os mapas de características combinados são novamente submetidos a algumas camadas convolucionais 1 x 1 para mesclar os recursos da camada anterior (61). Então, a segunda detecção é feita pela 94ª camada, produzindo um mapa de características de detecção de 26 x 26 x 255 [KA].

Um procedimento semelhante é seguido novamente, onde o mapa de características da camada 91 é submetido a algumas camadas convolucionais antes de ser concatenado em profundidade com um mapa de características da camada 36. Como antes, algumas camadas convolucionais 1 x 1 seguem para fundir as informações da anterior camada (36). A terceira e ultima detecção na 106ª camada é realizada, produzindo um mapa de características de tamanho 52 x 52 x 255 [KA].

Figura 2 – Primeira saída YOLO v3 [DPB].

Cada kernel de detecção corresponde a apenas a um bloco de cada saída do Yolo. Observe na Figura 2, o tensor da primeira saída, onde cada célula da grade 13×13, é responsável por prever 3 caixas delimitadoras, que possuí as informações de suas coordenas, nas suas 4 primeiras posições, seguida da pontuação de confiança (probabilidade da caixa conter um objeto), e uma pontuação de predição para cada classe de objeto treinado.

Figura 3 – Segunda saída YOLO v3 [DPB].

A mesma estrutura de classificação ocorre na segunda saída, porém agora com uma grade de 26×26, maior que a saída anterior, pois nesta houve um aumento de resolução.

Figura 4 – Terceira saída YOLO v3 [DPB].

Não diferente das saídas anteriores, ocorre a mesma estrutura de classificação, porém com uma grade de 52×52.

Caixas de âncora

Assim como a versão 2, a versão 3 também usa caixas de âncora. Caixas de âncora são um conjunto de caixas predefinidas com altura e largura específicas; eles atuam como uma estimativa. São múltiplas caixas delimitadoras predefinidas com diferentes proporções e tamanhos centralizados em cada píxel [SA]. As caixas de ancoragem contêm a proporção de determinado objeto conforme ilustrado na Figura 9 e 10.

Figura 5 – Caixas âncora [DPB2].

A versão do YOLO v2 não prevê diretamente as caixas delimitadoras, mas sim as probabilidades que correspondem às caixas âncoras lado a lado, e retorna um conjunto exclusivo de previsões para cada caixa de âncora definida. O uso de caixas de âncora permite que uma rede detecte vários objetos, podendo ser de diferentes escalas ou sobrepostos [DPB].

Para gerar as detecções finais de objetos, as caixas de âncora lado a lado que pertencem à classe de fundo são removidas, e as demais são filtradas por sua pontuação de confiança. As caixas de âncora com a maior pontuação de confiança são selecionadas usando supressão não máxima [DPB].

Figura 6 – Caixas de ancoragem com supressão não máxima [DPB2].

Mais caixas delimitadoras por imagem

Para uma imagem de entrada do mesmo tamanho, o YOLO v3 prevê mais caixas delimitadoras do que o YOLO v2. Por exemplo, com sua resolução nativa de 416 x 416, o YOLO v2 previu 13 x 13 x 5 = 845 caixas. Em cada célula da grade, 5 caixas foram detectadas utilizando 5 âncoras.

Por outro lado, o YOLO v3 prevê caixas em 3 escalas diferentes. Para a mesma imagem de 416 x 416, o número de caixas previstas é 10.647. Isso significa que o YOLO v3 prevê 10x o número de caixas previstas pelo YOLO v2. Você pode facilmente imaginar por que é mais lento que o YOLO v2. Em cada escala, cada grade pode prever 3 caixas usando 3 âncoras. Como existem três escalas, o número de caixas de ancoragem utilizadas no total é 9, 3 para cada escala [KA].

Remoção da função SoftMax

Anteriormente no YOLO, os autores costumavam suavizar as pontuações da classe e considerar a classe com pontuação máxima, como a classe do objeto contido na caixa delimitadora. Isso foi modificado no YOLO v3 [KA].

As classes Softmaxing baseiam-se na suposição de que as classes são mutuamente exclusivas, ou seja, se um objeto pertence a uma classe, então ele não pode pertencer à outra [KA]. Isso funciona bem para determinadas bases de dados. No entanto, quando temos classes semelhantes, como homem e mulher, em um conjunto de dados, esta suposição falha. Esta é a razão pela qual os autores do YOLO se abstiveram de usar softmaxing nas classes. Em vez disso, cada pontuação de classe é prevista e um limite é usado para prever vários rótulos para um objeto. As classes com pontuação superior a esse limite são atribuídas à caixa [KA].

Diferença da arquitetura YOLO v2 e YOLO v3

Para facilitar o entendimento na mudança de arquitetura do yolo v2 e v3, observe na figura 5, a arquitetura do YOLO v2, descrita no artigo YOLO Versões 1 e 2, ao lado da arquitetura do YOLO v3.

Figura 5 – Comparação arquitetura YOLO v2 e YOLO v3 [DPB].

YOLO v4

O YOLO v4, passou a ser desenvolvido por outros desenvolvedores, pois o autor original parou suas pesquisas em visão computacional, devido a percepção do impacto dela na sociedade. Quem assumiu a continuadade do YOLO foram os autores Alexey Bochkovskiy, Chien-Yao Wang e Hong-Yuan Mark Liao.

O objetivo desta versão foi projetar um sistema rápido para funcionar em ambientes produdivos e otimizado para computação paralela, para que qualquer pessoa com uma GPU (Processador gráfico) convencional possa treinar e testar com resultados satisfatórios [ACH].

Figura 6 – Arquitetura YOLO v4 [ACH].

Podemos dizer que o YOLO v4, em essência, consiste em três pilares principais, o backbone (espinha dorsal) para extração de recursos, o neck (pescoço) focado na agregação de recursos e a head (cabeça) para gerar detecções.

Backbone (Espinha dorsal)

O backbone YOLO é uma pilar de rede neural convolucional que agrupa pixels de imagem para formar recursos em diferentes granularidades. O Backbone normalmente é pré-treinado em um conjunto de dados de classificação, normalmente ImageNet. Backbone é a arquitetura de aprendizagem profunda que atua basicamente como um extrator de recursos. Todos os modelos de backbone são basicamente modelos de classificação.

Três backbones diferentes foram selecionados, durante o estudo do YOLO v4. Após análise rigorosa de diferentes parâmetros em benchmarks padrão, os autores finalizaram o CSPDarknet53 como a espinha dorsal e extrator de características da arquitetura YOLO v4 [ACH].

Neck (Pescoço)

O Neck do YOLO combina e mistura as representações da camada ConvNet antes de passar para o pilar de previsão Head. Neck é um subconjunto do pilar backbone, basicamente coleta mapas de recursos de diferentes estágios do backbone. Em termos simples, é um agregador de recursos.

Neste pilar, os autores acoplaram camadas SPP (Spatial Pyramid Pooling) modificadas para aumentar o campo receptivo da rede, e PAN (Path Aggregation Networks) modificado para melhor concatenação de texturas locais e características globais da CSPDarknet53. No final do artigo, SSP e PAN, são melhor descritos.

Figura 7 – Fluxo simplificado do YOLO v4 [DPB3].

Head (Cabeça)

Esta é a parte da rede que faz a caixa delimitadora e a previsão da classe. É guiado pelas três funções de perda YOLO para classe, caixa e objetividade.

Head também é conhecido como detector de objetos, encontra basicamente a região onde o objeto pode estar presente, mas não informa qual objeto está presente naquela região. No YOLO v4, temos detectores de dois estágios e detectores de um estágio, que são subdivididos em detectores baseados em âncora e detectores sem âncora.

Figura 8 – Fluxo simplificado do YOLO v4 [DPB3]

Se observar na imagem acima, a versão 4 é bastante semelhante ao YOLO v3. A maior diferença é que CSPDarknet é usado no Backbone e SPP e PANet são usados no Neck, e todo o resto é quase igual. Se você analisar isso com muita profundidade, poderá ver uma pequena diferença, mas no geral, se você entender as três coisas acima corretamente, poderá entender o YOLO v4 [DPB].

Diferença da arquitetura YOLO v3 e YOLO v4

Para facilitar o entendimento na mudança de arquitetura do YOLO v2 e v3, a seguir, a Figura 9 ilustra as duas arquiteturas.

Figura 9 – Comparação arquitetura YOLO v3 e YOLO v4 [DPB].

Material Complementar

FPN – Feature Pyramid Networks

Ao fazer previsões para uma escala específica, o FPN aumenta a amostragem (2×) do fluxo descendente anterior e o adiciona à camada vizinha do fluxo ascendente, conforme Figura 11 [ST].

Figura 11 – Estrutura da FPN original [ST].

A FPN é composta por um caminho ascendente e descendente. O caminho bottom-up é a rede convolucional usual para extração de características. À medida que subimos, a resolução espacial diminui. Com mais estruturas de alto nível detectadas, o valor semântico de cada camada aumenta [JH].

No caminho de cima para baixo, para construir camadas de resolução mais alta a partir de uma camada semântica rica. Embora as camadas reconstruídas sejam semânticas fortes, as localizações dos objetos não são precisas após toda a redução e aumento da resolução. Para contornar isto, são adicionadas conexões laterais entre as camadas reconstruídas e os mapas de características correspondentes para ajudar o detector a prever melhor a localização [JH].

No YOLOv4, o conceito FPN é gradualmente implementado/substituído pelo SAM, PAN e SPP modificados.

SPP – Spatial Pyramid Pooling

A camada Spatial Pyramid Pooling permite gerar recursos de tamanho fixo, qualquer que seja o tamanho de nossos mapas de recursos. Para gerar um tamanho fixo, ele usará camadas de pooling (exemplo Max Pooling) e gerará diferentes representações dos mapas de recursos.

Observe na figura 10, e suponha que a saída da camada convolicional (parte preta da figura) tenha 256 mapas de recursos.

Primeiro, cada mapa de características é agrupado para se tornar um valor único (parte cinza). Então, o tamanho do vetor é (1, 256)
Em seguida, cada mapa de características é agrupado para ter 4 valores (par verde). Então, o tamanho do vetor é (4, 256)
Da mesma forma, cada recurso é agrupado para ter 16 valores (parte azul). Então, o tamanho do vetor é (16, 256)
Os 3 vetores criados nas 3 etapas anteriores são então concatenados para formar um vetor de tamanho fixo que será a entrada da próxima camada conectada.

Figura 10. Uma estrutura de rede com uma camada de pooling de pirâmide espacial – SSP [KXSJ].

YOLOv4 usa um bloco SPP após CSPDarknet53 para aumentar o campo receptivo e separar os recursos mais importantes do backbone. O pool de pirâmide espacial consiste em pegar uma imagem de entrada e usar camadas convolucionais para extrair seu mapa de recursos, em seguida, usar o pool máximo de tamanho de janela 1 para gerar um conjunto de recursos e, em seguida, usar novamente o pool máximo de tamanho de janela 2. Repetindo este processo n vezes, você terá mapas de recursos de diferentes alturas e larguras, formando uma pirâmide. YOLO v4, em vez de aplicar SPP em uma única camada, divide o recurso ao longo da dimensão de profundidade da rede, aplica SPP em cada parte e, em seguida, combina-o novamente para gerar um mapa de recursos de saída [DPB].

PAN – Path Aggregation Network

O PANet, semelhante ao FPN, segue um caminho ascendente adicional ao caminho descendente seguido pela FPN. Isso ajuda a encurtar esse caminho usando conexões laterais limpas das camadas inferiores às superiores. Isso é chamado de conexão de “atalho”.

Na imagem abaixo, tirada do artigo Path Aggregation Network (PAN), um caminho de baixo para cima (b) é aumentado para tornar as informações da camada inferior mais fáceis de propagar para o topo. Na FPN, a informação espacial localizada viaja para cima na seta vermelha. Não está claramente demonstrado na imagem, mas o caminho vermelho passa por cerca de mais de 100 camadas. O PAN introduziu um caminho de atalho (o caminho verde) que leva apenas cerca de dez camadas para chegar à camada N₅ superior. Esses conceitos de curto-circuito disponibilizam informações localizadas refinadas para as camadas superiores.

Figura 12 – Figura 1. Ilustração do nosso framework. (a) Estrutura principal da FPN. (b) Aumento do caminho de baixo para cima. (c) Agrupamento de recursos adaptativos. (d) Caixa filial. (e) Fusão totalmente conectada [SLHJJ].

PANet convencionalmente adiciona as camadas vizinhas para fazer previsões de máscara usando o pool de recursos adaptativos. No entanto, esta abordagem é ligeiramente distorcida quando o PANet é empregado no YOLOv4, de modo que, em vez de adicionar as camadas vizinhas, uma operação de concatenação é aplicada a elas, o que melhora a precisão das previsões [MR].

Figura 13 – PAN modificado para o YOLO v4 [ACH]

Os PANs funcionam de forma semelhante aos FPNs, mas adicionaram um caminho de aumento de baixo para cima, como mostrado na Figura. 12, para que respostas de textura fortes de níveis baixos possam ser fundidas diretamente com respostas semanticamente ricas presentes em N5 usando um caminho de atalho [DPB].

No YOLO v4, o PAN Neck modificado é usado para agregação de recursos. Em vez de adição, a abordagem de concatenação é usada entre cada camada ascendente. Isso ajuda a conservar os recursos perdidos conforme Figura 15.

Figura 14 – Estrutura do PAN original e modificado [DPB].

Referências:

[RJFA] YOLOv3: Redmon, Joseph and Farhadi, Ali, YOLO: An Incremental Improvement. Artigo.

[ACH] Alexey Bochkovskiy; Chien-Yao Wang; Hong-Yuan Mark Liao. YOLOv4: Optimal Speed and Accuracy of Object Detection. Artigo

[KA] Kathuria, Ayoosh What’s new in YOLO v3? Acessado em 09/06/2024

[KR] Kundu, Rohit. YOLO: Algorithm for Object Detection Explained. Acessado em 08/02/2024.

[DPB] Deep Learning Bible. Yolo V1 – EN – Acessado em 15/02/2024.

[DPB2] Deep Learning Bible. Anchor Boxes EN Acessado em 20/03/2024,

[DST] Data Science Team. Uma Visão Geral da ResNet e suas Variantes – Acessado em 15/02/2024

[DPB3] Deep Learning Bible. V4 explicado em todos os detalhes Acessado em 25/03/2024

[SA] Sharma, Aditya. Um detector de objetos melhor, mais rápido e mais forte (YOLOv2). Acessado em 16/09/2023.

[KXSJ] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognitio. Artigo.

[ST] Shreejal Trivedi; DetectoRS — A Comprehensive Review. Acessado em 11/04/2024.

[JH] Jonathan Hui. Understanding Feature Pyramid Networks for object detection (FPN). Acessado em 12/04/2024.

[SLHJJ] Shu Liu; Lu Qi; Haifang Qin; Jianping Shi; Jiaya Jia†; Path Aggregation Network for Instance Segmentation. Artigo.

[MR] Milagre R. PANet: Path Aggregation Network In YOLOv4. Acessado em 12/04/2024.

The post YOLO Versões 3 e 4 (Arquitetura) appeared first on Visão Computacional.

YOLO Versões 1 e 2 (Arquitetura)

Piemontez — Sun, 08 Oct 2023 19:53:46 +0000

Este artigo, explana o funcionamento das versões 1 e 2 do YOLO, conforme descrito em seus artigos científicos, com foco no detalhamento de suas redes neurais. Detalhando quais são as camadas ocultas destas duas redes neurais e uma breve descrição de como é o funcionamento destas camadas. Uma introdução ao YOLO está disponível em YOLO para Detecção de Objetos – Visão Geral.

Observação: Para melhor entender este artigo e os demais sobre YOLO, é necessário ter uma conhecimento geral sobre inteligência artificial e redesnNeurais.

Antes de detalhar esta rede neural, capaz de detectar diversos objetos em uma imagem, nos próximos 3 parágrafos é apresentado um resumo de seu funcionamento, para melhor entendimento.

Como funciona?

O YOLO utiliza uma rede neural profunda (DNN – Deep Neural Network), uma rede neural convolucional, cuja a arquitetura é chamado de Darknet, com o mesmo nome do framework utilizado para implantá-lo. Sua implementação foi desenvolvida na linguagem C, porém, com a ajuda da comunidade e empresas, já está disponível em várias outras linguagens de programação.

O YOLO cria diversas caixas delimitadoras, para cada caixa é atribuído um valor de confiança, com a porcentagem (0 até 1) de existir um objeto, também é realizada a predição de que tipo de objeto existe na caixa. O valor de confiança para a caixa delimitadora e a predição da classe são combinados em uma pontuação final, que vai informar a probabilidade dessa caixa conter um objeto específico. Por fim, é realizado o processo de supressão não máxima afim de “filtrar”/”eliminar” falsos objetos e mesclar regiões de um mesmo objeto [AG]. Todo esse processo, é realizado dentro da própria rede neural? A resposta é não, nem toda a mágica acontece dentro dela, conforme explicações a seguir.

Nem Tudo é Rede Neural

Apesar da maior parte do processamento ser realizada em uma rede neural, duas etapas de processamento são realizados fora dela: a supressão não máxima e o redimensionamento da imagem para detecção.

A Supressão Não Máxima (Non Maximum Suppression), é uma etapa de pós-processamentos realizado pelo YOLO, por meio de algoritmos especializados. NMS é uma etapa de pós-processamento usada para melhorar a precisão e a eficiência da detecção de objetos. Na detecção de objetos, é comum que várias caixas delimitadoras sejam geradas para um único objeto em uma imagem. Essas caixas delimitadoras podem se sobrepor ou estarem localizadas em posições diferentes, mas todas representam o mesmo objeto. O NMS é usado para identificar e remover caixas delimitadoras redundantes ou incorretas e gerar uma única caixa delimitadora para cada objeto na imagem [KR]. A Figura 1 ilustra o resultado deste processo.

Figura 1 – Sem e com supressão não máxima.

Na outra ponta da rede neural, é realizado um pré-processamento responsável por redimensionar a imagem, a fim de ter exatamente o mesmo tamanho (mesma quantidade de pixeis) que a camada de entrada desta rede neural.

Agora que eliminamos estas duas etapas, ficará menos complexo entender o que acontece dentro do YOLO.

Rede Neural “Dinâmica”

Outro ponto importante a entender é que a Darknet, responsável por treinar a rede neural do YOLO a partir do YOLO 2, também é responsável por dimensionar o tamanho da rede neural, durante seu treinamento, conforme o arquivo de configurações yolo.cfg.

Para se ter ideia, por meio deste arquivo, é possível informar a quantidade de classes que serão treinadas e também a quantidade de filtros que as camadas (layers) CNN possuirão. A modificação destas configurações, alterará a estrutura da rede neural, como a quantidade de layers ocultos e principalmente a quantidade de neurônios de saída.

Entender esse dinamismo, ajuda a entender que o YOLO não é uma rede neural de tamanho fixo e sim uma arquitetura de rede neural que pode ter tamanhos diferentes, para atender diferentes bases de dados com quantidades diferentes de classes.

Função de Perda

Caso você ainda não esteja acostumado a treinar redes neurais e não conhece esse termo, a função de perda (loss-function) ou de custo, tem o objetivo de “levar” o resultado do treinamento em direção à convergência, atuando no processo de ajuste dos pesos da rede neural [GFT]. Em resumo, é a função/cálculo que ajusta os pesos da rede neural.

Esta função é crucial pra treinar qualquer rede neural e cada versão do YOLO possui sua própria função de perda, responsável por treinar a rede. As funções de perda do YOLO fazem parte da Darknet e estão descritas em seus artigos. Podemos dizer, que para utilizar o YOLO com qualquer outra biblioteca (Opencv, OpenVino, Tensorflow, etc), possuímos a dependência da Darknet para treiná-lo.

Mais detalhes sobre cada função de perda serão apresentado nas próximas seções.

YOLO v1

O YOLO v1 é representado na Figura 2, ele consiste em uma rede neural com 24 camadas de convolução (CNN), que atuam como um extrator de características, seguidas por 2 camadas totalmente conectadas, que são responsáveis pela classificação de objetos e regressão de caixas delimitadoras, e a saída final é um tensor de 7 x 7 x 30. Uma breve descrição do comportamento de cada uma das camadas (layer) do YOLO, é apresentada na última sessão deste artigo.

YOLO é uma CNN simples de caminho único e usa convoluções 1×1 seguidas por convoluções 3×3. A ativação Leaky ReLU é usada para todas as camadas, exceto a camada final, em que é usada uma função de ativação linear [TAV]. No final do artigo são apresentadas breves descrições de como funciona cada um destes tipos de camadas.

Figura 2 – Rede Neural YOLO v1. Autor Joseph Redmon et al. [RJ1].

Podemos dizer que o YOLO, em essência, consiste em três pilares principais, o backbone (espinha dorsal) para extração de recursos, o neck (pescoço) focado na agregação de recursos e a head (cabeça) para gerar detecções. A imagem da Figura 3 ilustra essa ideia, que foi apresentada pelo autor 고민수 em DPB]. Observar essa divisão de estrutura irá ajudar a entender as divisões de detecção do YOLO.

Figure 3 – Rede neural YOLO v1 [DPB].

A arquitetura do YOLO v1 não é complicada, na verdade, é apenas um backbone convolucional com duas camadas totalmente conectadas, muito parecido com uma arquitetura de rede de classificação de imagens. A parte inteligente do YOLO (a parte que o torna um detector de objetos) está na interpretação das saídas (head), dessas camadas totalmente conectadas [DPB].

Para fixar ainda mais a estrutura desta rede neural, observe nas imagens 4 e 5, que o fluxo do pilar backbone (espinha dorsal) vai afunilando até uma pequena saída. Este é um processo comum em camadas CNNs, que extraem características ou recursos. Na seção “Camada CNN”, será apresentada uma ferramenta que ilustra os efeitos deste tipo de camada.

Figura 4 – CNNs Yolo v1 [DPB].

Figura 5 – CNNs YOLO v1 [DPB] .

Uma nota rápida sobre o backbone (espinha dorsal), é que os autores projetaram seu próprio backbone convolucional inspirado no GoogLeNet [DPB], mas vale ressaltar que é apenas um extrator de recursos.

O pilar seguinte neck (pescoço), é um subconjunto que basicamente coleta mapas funcionais de diferentes estágios do backbone, ou seja, é um coletor de recursos. Estas camadas basicamente transformam os dados de entrada para o pilar head conseguir realizar sua tarefa de detecção de objeto.

Vamos ampliar o último pilar head (cabeça) com um pouco mais de detalhes, nos referindo a ele como tensor de saída. A primeira coisa que você pode notar é que ele é uma camada totalmente conectada, mas com certeza não se parece com uma. Não se deixe enganar pela forma 3D, ela está totalmente conectada, não é produzida por uma convolução, apenas a remodelam, porque é mais fácil de interpretar em 3D. Alternativamente, você pode imaginar e enfileirar o tensor 3D em um longo vetor de comprimento. Seja como for que você imagine, está totalmente conectado, cada neurônio de saída está conectado a cada neurônio, no vetor antes dele [DPB].

Figura 6 – Tensor de saída do YOLO v1 [DPB].

Portanto, cada célula é responsável por prever caixas de uma única parte da imagem, mais especificamente, cada célula é responsável por prever com precisão duas caixas para cada parte da imagem. Observe que existem 49 células e cada célula está prevendo duas caixas, então toda a rede irá prever apenas 98 caixas, esse número é fixo.

Para prever uma única caixa, a rede deve gerar uma série de coisas.

Em primeiro lugar, deve codificar as coordenadas da caixa que o YOLO codifica como (x, y, w, h), onde x e y são o centro da caixa. O YOLO não gera as coordenadas reais da caixa, mas sim as coordenadas parametrizadas. A largura e a altura são normalizadas em relação à largura da imagem, portanto, se a rede gerar um valor de 1,0 para a largura, significa que a caixa deve abranger toda a imagem, da mesma forma, 0,5 significa que é metade da largura da imagem. Observe que a largura e a altura não têm nada a ver com a própria célula da grade, os x ésimos valores são parametrizados em relação à célula da grade, pois eles representam deslocamentos da posição da mesma. A célula da grade tem largura e altura iguais a 1/S. Se a rede gerar um valor de 1,0 para x, isso significa que o valor x da caixa é a posição x da célula da grade, mais a largura da célula da grade [DPB].
Em segundo lugar, o YOLO também prevê uma pontuação de confiança para cada caixa que representa a probabilidade da caixa conter um objeto.
Por último, o YOLO prevê uma pontuação (predição) para cada classe treinada, que é representada por um vetor de C valores, e a classe prevista é aquela com o maior valor. Agora, aqui está o problema, o YOLO não prevê uma classe para cada caixa, ele prevê uma classe para cada célula, mas cada célula está associada a duas caixas, portanto essas caixas terão a mesma classe prevista, embora possam ter formas e posições diferentes [DPB].

Figura 7 – Tensor de saída do YOLO v1 [DPB].

Os primeiros cinco valores codificam a localização e a confiança da primeira caixa, os próximos cinco codificam a localização e a confiança da próxima caixa e os 20 finais codificam as 20 classes. No total, o tamanho do vetor é 5 X B + C, onde B é o número de caixas, e C é o número de classes.

A maneira como o YOLO realmente prevê as caixas, é prevendo a escala alvo e os valores de desvio para cada precedente, estes são parametrizados pela normalização, largura e altura da imagem. Por exemplo, pegue a célula superior direita destacada no tensor de saída, da Figura 6, esta célula específica corresponde à célula superior direita na imagem de entrada, ela representa uma caixa anterior, que terá largura e altura iguais à largura da imagem dividida por 7 e altura da imagem dividida por 7 respectivamente, sendo a localização no canto superior direito. As saídas desta única célula irão, portanto, deslocar e esticar a caixa precedente para novas posições que, esperançosamente, conterão o objeto [DPB].

Como a célula prevê duas caixas, ela deslocará e ampliará a caixa anterior de duas maneiras diferentes, possivelmente para cobrir dois objetos diferentes (mas ambos são restritos a ter a mesma classe). Você pode se perguntar por que ele está tentando fazer duas caixas, a resposta é porque provavelmente 49 caixas não são suficientes, especialmente quando há muitos objetos próximos uns dos outros, embora o que tende a acontecer durante o treinamento é que as caixas previstas se especializem. Sendo assim, uma caixa pode aprender a encontrar coisas grandes, a outra pode aprender a encontrar coisas pequenas, o que pode ajudar a generalização da rede para outros domínios [DPB].

Como nota final para ajudar no seu aprendizado, é razoável perguntar por que eles não previram uma classe para cada caixa e como seria a saída. Ainda teria 7 x 7 células, mas em vez de cada célula ter tamanho de 5 X B + C, você teria (5 + C) X B. Portanto, para duas caixas, você teria 50 saídas, e não 30. Isso não parece irracional e dá à rede a flexibilidade de prever duas classes diferentes no mesmo local [DPB].

Treinamento YOLO v1

YOLO é treinado de ponta a ponta, com uma arquitetura simples, que significa menos problemas para que coisas dêem errado. Os autores começam pré-treinando sua arquitetura no ImageNet e para fazer isso, eles usam as primeiras 20 camadas convolucionais, seguidas por um pool médio e depois, uma camada totalmente conectada com 1.000 saídas para as 1.000 classes ImageNet. Isso é algo padrão em classificação de imagens e eles afirmam que podem chegar perto da precisão de última geração (para a época) no ImageNet. Lembre-se de que eles estão fazendo isso apenas para pré treiná-lo [DPB].

Eles convertem a arquitetura para detecção de objetos descartando o pool médio e a camada totalmente conectada, adicionam mais algumas camadas convolucionais e configuram as camadas totalmente conectadas conforme descrito acima. A outra coisa que é feita é dobrar o tamanho da entrada, este é um truque comum para detectores de objetos, pois ajuda a ter uma resolução de entrada refinada, especialmente para encontrar objetos pequenos [DPB]. O procedimento de treinamento em si não é notável, a parte inteligente do YOLO está na interpretação dos resultados, nas camadas que destaquei como head e tensor de saída.

O mais interessante do YOLO é a função de perda, que é o método que treina as saídas da rede da maneira que desejarmos, ou seja, responsável por treinar a parte que realiza a detecção de objetos na rede neural. A função de perda do YOLO foram criadas por seus autores. Na Figura 8, segue sua impressão retirada do artigo que deu origem ao YOLO.

Figura 8 – Função de Perda YOLO v1. Autor: Joseph Redmon et al. [RJ1].

De modo geral, o YOLO prevê múltiplas caixas delimitadoras por célula da grade. Para calcular a perda do verdadeiro positivo, é desejado que apenas um delas seja responsável pelo objeto, para tanto, é selecionado aquele com maior IoU (intersecção sobre união) como a verdade fundamental. Esta estratégia leva à especialização entre as previsões da caixa delimitadora, onde cada previsão fica melhor em prever determinado tamanho e proporção.

O artigo Yolo Loss Training e Understanding … YOLOv1 detalham, por partes, a lógica e os cálculos da função de perda do YOLO v1.

YOLO v2

O objetivo do YOLO v2 foi reduzir os erros de localização e ao mesmo tempo superar a precisão da classificação. A ideia de Redmon e Farhadi era desenvolver um detector de objetos que fosse mais preciso que seus antecessores e mais rápido que eles. Porém, construir redes maiores e mais profundas ou reunir várias redes não era o desejado. Em vez disso, com uma abordagem simplificada de arquitetura de rede, eles se concentraram em reunir muitas ideias de outros trabalhos combinadas com suas novas técnicas. Como resultado, melhoraram o desempenho do YOLO em termos de velocidade e precisão [SA2].

A seguir alguns pontos que fizeram a versão 2 ter um desempenho melhor.

Normalização em lote

Foi adicionada uma camada de normalização em lote em todas as camadas convolucionais, que melhorou o mAP em 2% [RJ2]. A normalização ajudou a melhorar a convergência do treinamento da rede e eliminou a necessidade de outras técnicas de regularização, sem que a rede ficasse sobrecarregada com os dados de treinamento [SA2].

Na seção “Material Complementar”, será apresentada uma breve descrição sobre esta técnica.

Caixas de âncora

Uma das principais melhorias no YOLO v2 é o uso de caixas de ancoragem. As caixas âncora são um conjunto de caixas delimitadoras predefinidas com diferentes proporções e escalas. Ao prever caixas delimitadoras, o YOLO v2 usa uma combinação das caixas âncora e os deslocamentos previstos para determinar a caixa delimitadora final, isso permitiu o algoritmo lidar com uma ampla gama de tamanhos de objetos e proporções [KR]. YOLO v1 era um modelo sem âncora que previa as coordenadas das caixas diretamente, usando camadas totalmente conectadas em cada célula da grade [SA2].

Inspirado no Faster-RCNN, que prevê caixas de âncora, conhecidas como caixas B, o YOLO v2 também funciona com o mesmo princípio. Na versão 2 o YOLO remove as camadas totalmente conectadas e usa caixas de âncora para prever caixas delimitadoras, tornando-o totalmente convolucional [SA2].

O que exatamente são caixas de âncora? Caixas de âncora são um conjunto de caixas predefinidas com altura e largura específicas; eles atuam como uma estimativa. São múltiplas caixas delimitadoras predefinidas com diferentes proporções e tamanhos centralizados em cada pixel [SA2]. As caixas de ancoragem contêm a proporção de determinado objeto conforme ilustrado na Figura 9 e 10.

Figura 9 – Caixas âncora [DPB].

YOLO v2 não prevê diretamente as caixas delimitadoras, mas sim as probabilidades que correspondem às caixas âncora lado a lado, e retorna um conjunto exclusivo de previsões para cada caixa de âncora definida. O uso de caixas de âncora permite que uma rede detecte vários objetos, podendo ser de diferentes escalas ou sobrepostos [DPB].

Figura 10 – Caixas de ancoragem com supressão não máxima [DPB].

Figura 11 – Rede neural YOLO v2.

A Figura 12 ilustra estrutura do Darknet-19, as camadas convolucionais extratoras de características da imagem do YOLO v2.

Figura 12 – Arquitetura Base Darknet-19 [DPB].

A Figura 13 mostra a arquitetura de detecção de objetos, com a rede base mostrada no bloco Darknet-19 (pré-treinada com pesos ImageNet) e uma camada de passagem (concatenação) do bloco 5, do Darknet-19, à penúltima camada convolucional, para que o modelo aprenda recursos refinados e tenha um bom desempenho em objetos menores [SA2].

Figura 13 – YOLO v2 [DPB].

Figura 14 – Saída YOLO v2 [DPB].

Na camada de saída, da versão 2, foi movida a previsão de classe do nível da célula para o nível da caixa delimitadora. Agora, cada previsão inclui 4 parâmetros para a caixa delimitadora, 1 pontuação de confiança da caixa e 20 probabilidades de classe, ou seja, 5 caixas delimitadoras com 25 parâmetros: 125 parâmetros por célula da grade. Assim como o YOLO v1, a previsão da confiança ainda prevê o IoU da verdade básica e da caixa proposta.

YOLO v2 imprime um mapa de recursos de tamanho 13 x 13. Desta forma, quando o tamanho do mapa de características é pequeno, é fácil prever um objeto grande, mas há um problema porque é difícil prever um objeto pequeno [DPB], como as dimensões espaciais do mapa de características de resolução mais alta, não combinam com o mapa de características de baixa resolução, o mapa de características de alta resolução 26 x 26 x 512 é transformado em 13 x 13 x 2048, que é então concatenado com o original 13 x 13 x 1024 características [SA2].

Figura 15 – Concatenando os recursos de alta resolução com os recursos de baixa resolução [SA2].

Para resolver este problema, a versão 2 extrai o mapa de características antes do último agrupamento para obter um mapa de características de tamanho 26 x 26 (x 512). Então, o mapa de características é dividido em 4, mantendo o canal, e então combinado (concatenação) para obter um mapa de características com tamanho de 13 x 13 (x 2048). Adicione isso ao 13 x 13 (x 1024) mapa de recursos para obter um mapa de recursos de tamanho 13 x 13(x 3072) [DPB].

Para facilitar o entendimento, imagine que em vez de ter apenas 2048 característica para analisar cada grade terá 3072 características, unindo o mapa de características de baixa (1024) e alta (2048) resolução.

Treinamento

O treinamento YOLO v2 é composto por 2 fases, onde primeiro é treinada uma rede classificadora como VGG16 e em seguida, substituídas as camadas totalmente conectadas por uma camada de convolução, então o YOLO é treinado novamente de ponta a ponta para a detecção de objetos. O YOLO v2 começa o treinamento com imagens (224 x 224) para o treinamento do classificador, mas depois reajusta o classificador novamente com imagens (448 x 448) usando muito menos épocas, isso facilita o treinamento do detector e aumenta o mAP em 4% [DPB].

Treinamento multiescala

Depois de remover as camadas totalmente conectadas, o YOLO v2 pode capturar imagens de tamanhos diferentes. Se a largura e a altura forem duplicadas, estaremos apenas fazendo 4 x células da grade de saída e portanto, 4 x previsões. Como a rede YOLO reduz a resolução da entrada em 32, só precisamos ter certeza de que a largura e a altura são múltiplos de 32 [SA2].

Para cada 10 lotes, o YOLO v2 seleciona aleatoriamente outro tamanho de imagem para treinar o modelo, isso atua como um aumento de dados e força a rede a prever bem as diferentes dimensões e escalas da imagem de entrada. Além disso, podemos usar imagens de resolução mais baixa para detecção de objetos em detrimento da precisão [DPB].

Este tipo de treinamento permite que a rede faça previsões em diferentes resoluções de imagem. A rede prevê muito mais rápido com entradas de tamanho menor, oferecendo uma compensação entre velocidade e precisão. A entrada de tamanho maior prevê uma previsão relativamente mais lenta em comparação com a menor, mas atinge a precisão máxima [SA2].

A abordagem de treinamento multiescala produziu um aumento de 1,5% no mAP [RJ2].

Diferença Entre YOLO v1 e v2

Na Figura 16, são apresentadas ilustrações das arquiteturas do YOLO v1 e v2 retiradas de Deep Learning Bible, para comparação.

Figura 16 – Diagrama YOLO v1 e v2 [DPB].

Material Complementar

IoU (Intersection over Union)

IoU é uma métrica crucial para avaliar modelos de segmentação, comumente chamada de Índice de Jaccard, pois quantifica quão bem o modelo pode distinguir objetos de seus planos de fundo em uma imagem. O IoU é usado em inúmeras aplicações de visão computacional, como veículos autônomos, sistemas de segurança e imagens médicas [SD].

Intersecção sobre União é uma métrica popular para medir a precisão da localização e calcular erros de localização em modelos de detecção de objetos. Ele calcula a quantidade de sobreposição entre duas caixas delimitadoras – uma caixa delimitadora prevista e uma caixa delimitadora da verdade básica [SD].

IoU é a razão entre a intersecção das áreas das duas caixas e suas áreas combinadas. A caixa delimitadora da verdade básica e a caixa delimitadora antecipada abrangem a área de união, que é o denominador [SD].

Figura 17 – Intersecção sobre União (IoU) [SD]

Caso queira entender mais sobre IoU, acesse os artigos Intersection over Union (IoU): Definition, Calculation, Code e IoU (Intersection over Union) and GIoU que detalham até questões de cálculos matemáticos.

Normalização em Lote

“A normalização em lote é um método usado durante o treinamento de redes neurais, onde a camada de entrada é normalizada ou padronizada. Esse processo envolve ajustar e escalar as ativações dos neurônios na rede, garantindo assim que eles tenham uma ativação média de saída zero e um desvio padrão de um. Essa técnica ajuda a reduzir a quantidade de desvio covariante interno, um problema que surge quando a distribuição das ativações da rede muda durante o treinamento” [TS].

Camada CNN – Rede Neural Convolucional

Em resumo, as convoluções funcionam como filtros que enxergam pequenos quadrados e vão percorrendo por toda a imagem captando os traços mais marcantes. O filtro, que também é conhecido por kernel, é formado por pesos inicializados aleatoriamente, atualizando-os a cada nova entrada durante o processo de treinamento.

Figura 18 – Ilustração processo de convolução de uma imagem por um núcleo.

Acesse kernel (núcleo) de processamento de imagens para visualizar alguns efeitos de kernel 3 x 3 e o final da página Image Kernels para reproduzir e simular estes efeitos.

Camada Totalmente Conectada

Como o próprio nome diz a camada totalmente conectada é uma camada, onde cada neurônio é conectado a todos os neurônios da camada anterior.

Figura 19 – Camada totalmente conectada.

Referências:

[AG] Alvez, Gabriel. Detecção de Objetos com YOLO – Uma abordagem moderna. Acessado em 15/07/2022.

[RJ1] Redmo, Joseph; Divvala, Santosh; Girshick, Ross; Farhadi, Ali, You Only Look Once: Unified, Real-Time Object Detection. Artigo.

[RJ2] Redmon, Joseph and Farhadi, Ali, YOLO9000: Better, Faster, Stronger. Artigo.

[KR] Kundu, Rohit. YOLO: Algorithm for Object Detection Explained [+Examples]. Acessado em 15/08/2023.

[TAV] Thatte, Abhijit V. Evolution of YOLO — YOLO version 1. Acessado em 15/08/2023.

[HC] Hsin, Carol. Yolo Object Detectors: Final Layers and Loss Functions. Acessado em 23/08/2023.

[GFT] GFT. Função de Perda na Rede Neural. Acessado em 23/08/2023.

[SD] Shah, Deval. Intersection over Union (IoU): Definition, Calculation, Code . Acessado em 23/09/2023.

[SA] Sharma, Aditya. Understanding a Real-Time Object Detection Network: You Only Look Once (YOLOv1). Acessado em 16/09/2023.

[SA2] Sharma, Aditya. Um detector de objetos melhor, mais rápido e mais forte (YOLOv2). Acessado em 16/09/2023.

[TS] TS2. Como a Normalização em Lote de IA Melhora o Treinamento de Redes Neurais. Acessado em 16/09/2023

[DPB] Deep Learning Bible – Yolo V1 – EN – https://wikidocs.net/167699.

The post YOLO Versões 1 e 2 (Arquitetura) appeared first on Visão Computacional.

Programando Esqueletização e Extração de Fronteiras Morfológica com Javascript

Piemontez — Mon, 19 Jun 2023 17:50:53 +0000

Este artigo demonstra como programar a extração de fronteiras internas e externas, e esqueletização de imagens binárias apresentadas em Morfologia Matemática – Esqueletização de imagem e Morfologia Matemática – Extração de Fronteiras / Detecção de Bordas. A programação foi realizada na linguagem javascript, utilizando a biblioteca opencv.js e as imagens produzidas com a IDE OpenCV-Flow.

OpenCV

A biblioteca opencv.js disponibiliza diversas funcionalidade prontas para o processamento de imagens e visão computacional. Para utilizá-la, basta incluí-la no script da página conforme descrito em Using OpenCV.js.

Extração de Fronteira Interna

A fronteira interna, como apresentado no outro post citado, é o contorno da imagem binarizada. O cálculo consiste em subtrair da imagem o resultado da erosão da própria imagem, por um elemento estruturante.

A primeira etapa que iremos realizar é criar o núcleo de operação com o formato de quadrado. O elemento estruturante deve ser uma imagem binarizada (preto e branco). Como não temos imagens binárias no OpenCV, criaremos uma imagem em tons de cinza.

Na função nucleoFormatoCruz abaixo, é criada uma matriz de tamanho 3×3, com um canal de cor do tipo uint8, com valores entre 0 e 255:

function nucleoFormatoCruz() {
  return new cv.matFromArray(3, 3, cv.CV_8UC1, [
    0, 1, 0,
    1, 1, 1,
    0, 1, 0
  ]);
}

Com o núcleo criado, basta realiza a erosão da imagem binarizada e depois subtrair a imagem original pelo resultado desta operação. A função abaixo realiza este processo com a biblioteca OpenCV.js:

function extrairFronteiraInterna(imagem, imagemSaida, nucleo) {
  let imgTemporaria = new cv.Mat(imagem.rows, imagem.cols, imagem.type(), new cv.Scalar(0));

  // Realiza a erosão com biblioteca opencv.
  cv.erode(imagem, imgTemporaria, nucleo);
  
  // Realiza a subtração da imagem pela mesma erodida
  cv.subtract(imagem, imgTemporaria, imagemSaida);
}

A primeira operação realizada com a função cv.erode, recebe uma imagem de entrada, uma imagem que receberá o resultado da operação de erosão e o núcleo para a operação.

A segunda e última operação realizada é a subtração com a função cv.subtract, que recebe uma imagem de entrada, uma segunda imagem com os valores das subtrações a serem realizadas, e por fim uma imagem de saída que receberá o resultado desta operação.

É possível simplificar esta função conforme abaixo:

function extrairFronteiraInterna(imagem, imagemSaida, nucleo) {
  // Realiza a erosão com biblioteca opencv.
  cv.erode(imagem, imagemSaida, nucleo);
  
  // Realiza a subtração da imagem pela mesma erodida
  cv.subtract(imagem, imagemSaida, imagemSaida);
}

Note que, foi informada a variável imagemSaida como segundo e terceiro parâmetro, da segunda operação. Foi realizado isto, pois a variável imagemSaida contém o resultado da erosão, que é preciso para subtrair os valores e para não precisarmos criar uma terceira variável, simplificando a função. Não há problemas em utilizar a mesma variável na operação cv.subtract, pois ela é uma operação não convolucional, que realiza apenas operações que utilizam um único pixel de cada vez.

Extração de Fronteiras Externas

A fronteira externa, na imagem binarizada, cria uma camada como uma vestimenta que cobre toda a imagem. O cálculo consiste em dilatar a imagem por um elemento estruturante e subtrair pela imagem original. De certa forma, o inverso da operação para extração da fronteira interna.

A primeira etapa para realizar esta operação, também consiste em criar um núcleo para a operação de dilatação. Utilizaremos o mesmo da seção anterior. Com o núcleo criado basta realizar as operações conforme a função abaixo:

function extrairFronteiraExterna(imagem, imagemSaida, nucleo) {
  let imgTemporaria = new cv.Mat(imagem.rows, imagem.cols, imagem.type(), new cv.Scalar(0));

  // Realiza a erosão com biblioteca opencv.
  cv.dilate(imagem, imgTemporaria, nucleo);
  
  // Realiza a subtração da imagem pela mesma erodida
  cv.subtract(imgTemporaria, imagem, imagemSaida);
}

Observe que para extração da fronteira externa, foi trocada a operação de erosão pela dilatação com a função cv.dilate, e alterada a ordem dos parâmetros durante a subtração com a função cv.subtract.

Esqueletização de Imagem Binarizada

Pare realizar a esqueletização com morfologia, conforme apresentado em Morfologia Matemática – Esqueletização de imagem, basta realizar quatro operações, dentro de um laço de repetição, e realizar a inicialização de algumas variáveis para este processamento.

Observe na função abaixo, que nas primeiras linhas, antes do laço while, foram inicializados variáveis para o processamento da esqueletização, criando uma imagem temporária chamada clone, com as mesmas informações da imagem original e um núcleo que é utilizado para reduzir a estrutura da imagem original.

function extrairEsqueleto(imagem, imagemSaida) {
  // Inicializa as matrizes
  const erosao = new cv.Mat(imagem.rows, imagem.cols, src.type());
  const abertura = new cv.Mat(imagem.rows, imagem.cols, src.type());
  const subtracao = new cv.Mat(imagem.rows, imagem.cols, src.type());

  // Clona a imagem original
  let clone = imagem.clone();
  // Cria o núcleo(3x3) em formato de cruz
  const nucleo = cv.getStructuringElement(cv.MORPH_CROSS, new cv.Size(3, 3), new cv.Point(-1, -1));

  while (cv.countNonZero(clone) !== 0) {
    cv.erode(clone, erosao, nucleo); 
    cv.dilate(erosao, abertura, nucleo);

    cv.subtract(clone, abertura, subtracao);

    cv.bitwise_or(imagemSaida, subtracao, imagemSaida);

    clone = erosao.clone();
    GCStore.add(clone);
  }

  // Deleta as variáveis temporárias
  delete erosao;
  delete abertura;
  delete subtracao;
  delete clone;
}

Após a inicialização das variáveis, é realizado um laço que verifica se a imagem clone está vazia (só com valores zero), caso não esteja, o laço fica realizando as seguintes operações:

As duas primeiras operações realizadas, dentro do laço, consistem em realizar uma erosão, seguida de uma dilatação.
- Como resultado é criado uma abertura da imagem, pelo elemento estruturante em formato cruz;
- Esta abertura remove os pontos das extremidades da imagem clone.
A terceiraça operação, realiza a subtração da imagem clone pela imagem de abertura.
- Como resultado, na matriz subtração, estão apenas os pontos com as extremidades da imagem clone.
Por fim, os pontos da extremidades, são salvos na imagem de saída.

O processo é repetido até que a imagem clone seja zerada, durante o processo de erosão.

Note que, em cada laço realizado, é coletado os pontos da extremidades da imagem clone e salvo na imagem de saída, e em cada laço a imagem é diminuída de tamanho. Este processo resulta na criação do esqueleto da imagem.

Cuidados

Caso você vá utilizar a biblioteca opencv, saiba que as funções morfológicas dela também realizam morfologia matemática em imagens em tons de cinza e coloridas, que possuem resultados muito diferentes das operações morfológicas em imagens binarizadas. Lembre-se de converter a imagem em preto e branco, para realizar os experimentos aqui apresentados.

Considerações

As funções programadas neste post possuem caráter de estudo, afim de entender as etapas e os processos morfológicos, pois não foram pensadas em questões como desempenho nestes exemplos. Caso você precise utilizar este tipo de operação, é recomendado que utilize uma biblioteca preparada para isso, como o OpenCV ou similar.

O código aqui apresentado esta disponível no link abaixo:

Source code: https://github.com/visaocomputacionalexemplos/morfologia/blob/main/javascript/base/esqueletizacao.html

The post Programando Esqueletização e Extração de Fronteiras Morfológica com Javascript appeared first on Visão Computacional.

Morfologia Matemática – Esqueletização de imagem

Piemontez — Thu, 18 May 2023 16:48:59 +0000

Uma abordagem importante, para representação da forma de um objeto, é transformá-la em uma estrutura mais simples, chamada de esqueleto. O esqueleto de um objeto pode ser obtido por meio de diversas técnicas, como transformada de distância, afinamento de objetos entre outras.

Neste artigo, será apresentado como utilizar a morfologia para extração do esqueleto de uma imagem binarizada. Acesse Morfologia Matemática para Processamento de Imagens, para entender sobre erosão e dilatação, operações que são a base dos cálculos apresentados a seguir.

Transformada do eixo-médio

A transformada do eixo-médio, proposto por Blum (1967), determina o conjunto de pontos que estão mais próximos da borda do objeto. De uma maneira formal, o eixo médio de um objeto é composto pelos centros das maiores circunferências que cabem no objeto. A figura 1 ilustra essa definição para um retângulo [PS].

Fig 1- Esqueleto de um retângulo definido a partir da transformada do eixo-médio [RSA].

Embora a transformada do eixo médio resulte em um esqueleto aceitável. Sua utilização na prática resulta em um problema em termos computacionais. Tal implementação envolve o cálculo da distância entre cada ponto interior e da borda do objeto. Diversos algoritmos foram propostos para tentar melhorar a eficiência desta transformada [PS].

Outros exemplos de objetos e seu esqueletos são demonstrados na figura 2. Pode-se observar, nas duas primeiras imagens, que objetos e formas diferentes podem ter o mesmo esqueleto.

Fig 2 – Ilustração de esqueleto de formas geométricas.

Transformada de distância

A transformada de distância corresponde ao mapa resultante da distância entre cada ponto interior do objeto e de sua borda mais próxima [PS]. Essa transformação depende do tipo de cálculo de distância utilizado.

Um exemplo do processo da transformada de distância é ilustrado na figura 3, o esqueleto do objeto, formado pelos valores mais altos de distância, corresponde às regiões mais claras. O cálculo de distância utilizado é a distância euclidiana.

Fig 3 – Transformada de distância.

Na figura 4, é ilustrada uma imagem binária, sua representação da transformada euclidiana e seu esqueleto criado, a partir dos valores mais altos (pontos claros).

Fig 4 – Ilustração de transformada de distância [LQ].

Processo de esqueletização com morfologia matemática

A esqueletização de uma imagem binarizada por morfologia, apresentada a seguir, tem como base a transformada de distância. Todo o processo é bem simples, com apenas duas operações morfológicas e uma subtração, encadeadas em um laço é possível extrair o esqueleto.

Observe a imagem binarizada A e o elemento estruturante B, logo abaixo. Nas linhas seguintes, observe que:

A primeira coluna apresenta a erosão por B da imagem da linha anterior;
A segunda coluna apresenta a dilatação da imagem da primeira coluna por B. A segunda coluna, também, corresponde a abertura da imagem da primeira coluna da linha anterior;
A terceira coluna apresenta a subtração da primeira coluna da linha anterior pela segunda.

Por fim, na última linha, a imagem da terceira coluna de título “Resultado” apresentada a soma de todas as imagens da terceira coluna. Observe que essa somatória resultou no esqueleto da imagem retangular A.

A
Imagem binarizada

B
Elemento estruturante

Erosão por B

A ⊖ B
Erosão de A por B

Dilatação da 1ª coluna por B

A ◦ B
= (A ⊖ B) ⊕ B
Abertura de A por B

Subtração da 1ª coluna da linha anterior pela 2ª coluna

A – (A ◦ B)
A subtraída pela abertura de A por B

A ⊖ B ⊖ B
Erosão de A por B duas vezes

(A ⊖ B) ◦ B
= (A ⊖ B) ⊖ B ⊕ B
Erosão de A por B, seguida da abertura por B

A – ((A ⊖ B) ◦ B)
Abertura de A por B
subtraída pela Erosão de A por B

A ⊖ B ⊖ B ⊖ B
Erosão de A por B três vezes

(A ⊖ B ⊖ B) ◦ B
Erosão de A por B duas vezes, seguida da abertura por B

A – ((A ⊖ B ⊖ B) ◦ B)
Abertura de A por B
subtraída pela Erosão de A por B

Resultado

Exemplos

A seguir, duas demonstrações de esqueletização, da palavra “OpenCV” e de uma imagem da digital de um dedo. O processo de extração do esqueleto da Figura 8 é carregar a imagem, suavizar a imagem com o filtro gaussiano, converter em tons de cinza, limiarizar/binarizar a imagem e extrair o esqueleto.

Fig 6 – Texto ” OpenCV” para extração do esqueleto [FA].

Fig 7 – Esqueleto da palavra “OpenCV” [FA].

Fig 8 – Extração do esqueleto da impressão digital, utilizando morfologia matemática com a ferramenta OpenCV-Flow.

Referências

[PS] Pedrini, H.; Schwartz, W. R.; Análise de Imagens Digitais: Princípios, Algoritmos e Aplicações. Thomson Learning, 2007

[LQ] Li, Quannan et al. “Skeleton Extraction Using SSM of the Distance Transform.” (2008).

[RSA] R. Fisher, S. Perkins, A. Walker and E. Wolfart. Skeletonization/Medial Axis Transform. Acessado em 01/05/2023

[FA] Félix Abecassis – OpenCV – Morphological Skeleton. Acessado em 02/05/2023

The post Morfologia Matemática – Esqueletização de imagem appeared first on Visão Computacional.

Morfologia Matemática – Extração de Fronteiras / Detecção de Bordas

Piemontez — Wed, 26 Apr 2023 21:56:18 +0000

Existem diversas técnicas para detecção ou realce de bordas e extração de fronteiras. Com morfologia matemática binária é possível realizar a extração de fronteiras de forma simples e com baixo custo de processamento. Acesse Morfologia Matemática para Processamento de Imagens, para entender sobre erosão e dilatação, operações que são a base dos cálculos apresentados a seguir.

A extração de fronteiras, com morfologia, consiste em destacar as fronteiras da área de interesse (Roi) de uma imagem. Na Fig.1 é ilustrado o resultado de uma extração interna de fronteira.

Fig 1 – Resultado da extração de fronteiras utilizando processamento morfológico. [GW]

Basicamente existem dois tipos de extração de fronteiras, as fronteiras internas e as fronteiras externas, sendo uma contraponto da outra.

Fronteira interna

Definição: β(A) = A – (A _^⊖ B)

A fronteira interna é o contorno da imagem binarizada. O cálculo consiste em subtrair da imagem, o resultado da erosão da própria imagem por um elemento estruturante.

Observe nas figuras abaixo, que a partir da imagem A, foi realizada sua erosão pelo elemento estruturante B. Como resultado desta operação, temos apenas os pixels interno da imagem, conforme a imagem da terceira coluna. Com a erosão realizada, basta subtrair da imagem A por esta erosão, resultando apenas os pixels que estão na Imagem A e não estão na sua erosão.

A
Imagem binarizada

B
Elementro estruturante

A _^⊖ B
Erosão da imagem A

A – (A _^⊖ B)
Fronteira interna

Fronteira externa

Definição: β(A) = (A _^⊕ B) – A

Observe nas figuras abaixo, que a partir da Imagem A, foi realizada sua dilatação pelo elemento estruturante B. Como resultado desta operação, temos a imagem A mais uma camada externa à ela, conforme imagem da terceira coluna. Com a dilatação realizada, basta subtrair a dilatação pela Imagem A, resultando apenas nos pixels externos, que estão na imagem dilatada e não estão na imagem A.

A
Imagem binarizada

B
Elemento extruturante

A _^⊕ B
Dilatação da imagem A

(A _^⊕ B) – A
Fronteira externa

Outros exemplos

Na ilustração da Tabela 01 são demonstrados os resultados das extrações de fronteiras, com os elementos estruturantes apresentados anteriormente.

Imagem original	Fronteira interna	Fronteira externa

Tabela 01 – Exemplos de extração de fronteiras com morfologia matemática.

A seguir, uma demonstração do resultado da extração de fronteira de uma imagem limiarizada, de um pote sobre uma mesa. O resultado desta operação, foi detectar as bordas da imagem. Esta demonstração foi realizada utilizando a IDE OpenCV-Flow.

Referências:

[GW] GONZALEZ, R. C., WOODS, R. E. Processamento de Imagens Digitais. Editora Edgard Blucher, ISBN 978-85-8143-586-2, 3 ed., São Paulo, 2010

The post Morfologia Matemática – Extração de Fronteiras / Detecção de Bordas appeared first on Visão Computacional.

Programando Erosão, Dilatação, Abertura e Fechamento Morfológica com Javascript.

Piemontez — Thu, 09 Feb 2023 23:03:49 +0000

Este artigo trata de como programar as operações morfológicas binárias apresentadas no post Morfologia Matemática para Processamento de Imagens. A programação foi realizada na linguagem javascript, utilizando a biblioteca opencv.js e as imagens produzidas com a IDE OpenCV-Flow.

OpenCV

Utilizaremos a classe Mat do OpenCV para realizar a manipulação da imagem, com esta classe conseguimos construir de forma fácil imagens (coloridas e binárias) e manipular seus pixels.

Erosão

A erosão como apresentado no outro post citado, consiste em testar se o elemento estruturante (núcleo) se encaixa na imagem de origem, gerando uma nova imagem de destino, onde cada teste realizado com sucesso, é identificado na imagem de destino com o valor 1 e identificado com o valor 0 caso a estrutura não tenha sido localizada.

A primeira etapa que iremos realizar é criar o núcleo de operação com o formato de quadrado. O elemento estruturante deve ser uma imagem binárizada (preto e branco), como não temos imagens binárias no OpenCV, criaremos uma imagem em tons de cinza.

Na função nucleoFormatoCruz, abaixo, é criada uma matriz de tamanho 3×3, com um canal de cor do tipo uint8, com valores entre 0 e 255:

function nucleoFormatoCruz() {
  return new cv.matFromArray(3, 3, cv.CV_8UC1, [
    1, 1, 1,
    1, 1, 1,
    1, 1, 1
  ]);
}

Além do núcleo das operações, vamos precisar da posição central das operações, sendo que no OpenCV é utilizada a classe cv.Point para indicar posições específicas, com o objetivo de seguir o padrão, nosso código também ira utilizá-la. Para inicializar a classe, é preciso apenas informar as posições das coordenadas x e y, conforme abaixo:

const centro = new cv.Point(1, 1);

Agora que temos nosso núcleo e sua posição, nossa função de erosão foi programada com as seguintes etapas:

Percorre todas as posições dos pixels da imagem;
Para cara pixel da imagem, percorre todos os elementos do elemento estruturante e testa a estrutura na imagem conforme as etapas:
- Verifica-se se o elemento do núcleo possui valor e:
  - Se o elemento possuir valor, verifica a posição correspondente na imagem também possui valor e:
    - Se o pixel possuir valor, verifica o próximo elemento;
    - Se o pixel não possuir, marca o teste como negado;
- Se o elemento não possui valor, verifica o próximo elemento;
- Ao finalizar todos os testes dos elementos, do núcleo na região do pixel, e caso nenhum for negado, marca na imagem de destino o valor 255, do contrário marca como 0;

function erosao(nucleo, centro, imagem, imagemSaida) {
  //Percorre a imagem
  for (let x = centro.x; x < imagem.cols; x++) {
    for (let y = centro.y; y < imagem.rows; y++) {

      let hasNucleo = true;
      //Percorre o elemento estruturante (núcleo)
      for (let j = 0; j < nucleo.cols; j++) {
        for (let k = 0; k < nucleo.rows; k++) {
          
          //Verifica-se se o elemento do núcleo deve ser checado
          const nucleoTemValor = nucleo.ucharPtr(k, j)[0] > 0;
          if (nucleoTemValor) {
            const col = x + j - centro.x;
            const row = y + k - centro.y;

            //Verifica-se se a imagem tem valor na mesma posição do núcleo
            const imagemTemValor = imagem.ucharPtr(row, col)[0] > 0;
            if (!imagemTemValor) {
              hasNucleo = false;
              break;
            }
          }
        }
      }

      imagemSaida.ucharPtr(y, x)[0] = hasNucleo ? 255 : 0;
    }
  }
}

Dilatação

A dilatação consiste em testar cada elemento da imagem de origem e verificar se possui valor 1, caso exista na imagem de destino, então é adicionado os valores do elemento estruturante a partir da posição central do elemento estruturante.

A programação da dilatação é menos complexa que a da erosão, nossa função realiza apenas as seguintes etapas:

Percorre todas as posições dos pixeis da imagem;
Para cara pixel da imagem:
- Verifica-se se o pixel possui valor e:
  - Caso possuir, percorre os elementos do núcleo e os projeta na imagem de destino;
  - Caso não possuir, não realiza nenhuma operação;

function dilatacao(nucleo, centro, imagem, imagemSaida) {
  //Percorre a imagem
  for (let x = centro.x; x < imagem.cols; x++) {
    for (let y = centro.y; y < imagem.rows; y++) {

      //Verifica-se se o pixel da imagem possui valor positivo
      const pixelComValor = imagem.ucharPtr(y, x)[0] > 0;
      if (pixelComValor) {

        //Percorre o elemento estruturante (núcleo)
        for (let j = 0; j < nucleo.cols; j++) {
          for (let k = 0; k < nucleo.rows; k++) {
            
            //Verifica-se se o elemento do núcleo tem valor positivo
            const nucleoTemValor = nucleo.ucharPtr(k, j)[0] > 0;
            if (nucleoTemValor) {
              const col = x + j - centro.x;
              const row = y + k - centro.y;

              imagemSaida.ucharPtr(row, col)[0] = 255;
            }
          }
        }
      }
    }
  }
}

Abertura

A abertura de uma imagem A, por um elemento estruturante B, é simplesmente a operação de erosão de A por B, seguida da dilatação de A por B. Como a abertura é apenas o encadeamento de duas operações, nosso código de exemplo faz apenas isto.

function abertura(nucleo, centro, imagem, imagemSaida) {
  let imgTemporaria = new cv.Mat( imagem.rows, imagem.cols, imagem.type(), new cv.Scalar(0));
  
  erosao(nucleo, centro, imagem, imgTemporaria);
  dilatacao(nucleo, centro, imgTemporaria, imagemSaida);

  imgTemporaria.delete();
}

Fechamento

O fechamento de uma imagem A, por um elemento estruturante B, é simplesmente a operação de dilatação de A por B, seguida da erosão de A por B. Como o fechamento também é apenas o encadeamento de duas operações, nosso código de exemplo faz apenas isto também.

function fechamento(nucleo, centro, imagem, imagemSaida) {
  let imgTemporaria = new cv.Mat( imagem.rows, imagem.cols, imagem.type(), new cv.Scalar(0));

  dilatacao(nucleo, centro, imagem, imgTemporaria);
  erosao(nucleo, centro, imgTemporaria, imagemSaida);

  imgTemporaria.delete();
}

Considerações

O código aqui apresentado esta disponível no link abaixo:

Source code: https://github.com/visaocomputacionalexemplos/morfologia/blob/main/javascript/base/morfologia.html

The post Programando Erosão, Dilatação, Abertura e Fechamento Morfológica com Javascript. appeared first on Visão Computacional.

Morfologia Matemática para Processamento de Imagens

Piemontez — Sat, 04 Feb 2023 00:42:41 +0000

A palavra Morfologia é originalmente um ramo da biologia, que estuda as formas e estruturas dos animais e plantas. Utilizamos esta palavra no contexto de Morfologia Matemática, como um instrumento para extração de componentes da imagem, que sejam úteis para representação e descrição da forma de uma região, como fronteiras, esqueletos, realce, filtragem, segmentação ou esqueletização [GW].

A morfologia também pode ser utilizada para extração de componentes conexos, busca de padrões específicos na imagem, delimitação de fecho convexo, extração de bordas entre outros [PS].

Neste post é apresentado um resumo sobre morfologia matemática, sem detalhar suas fórmulas matemáticas.

Imagem Digital e Binária

Uma imagem digital é formada por uma quantidade finita de amostras de uma cena, capturada pela lente de uma câmera, também pode ser chamada de imagem discreta e é representada como subconjunto do plano cartesiano Z², onde Z representa o conjunto dos números inteiros. Cada amostra da imagem, conhecida como pixel, está localizada em uma coordenada (x, y) da imagem, associada alguma informação sobre a cor [VL].

Uma imagem binária é composta por dois tipos de pixels, os do plano de fundo e o plano principal, que são representados normalmente usando preto e branco, ou 0 e 1, respectivamente [VL]. Normalmente representam a área de interesse durante o processamento morfológico.

Neste artigo é apresentada a morfologia matemática binária (em imagens binárias).

Elemento Estruturante

Um conceito importante na morfologia matemática é a definição de elemento estruturante, também chamado de núcleo. O elemento estruturante é um vetor bidimensional pré-definido, representado por zeros (0) e uns (1), com uma coordenada indicando o centro da operação e pode assumir diversas formas e aspectos, dependendo do tipo de efeito desejado a ser aplicado na imagem.

A seguir, são demonstrados 3 diferentes vetores de elementos estruturantes e suas imagens representativas, com o centro de operação destacado em vermelho.

[1, 1, 1,
1, 1, 1,
1, 1, 1]

Fig 1 – Elemento Estruturante Quadrado.

[0, 1, 0,
1, 1, 1,
0, 1, 0]

Fig 2 – Elemento Estruturante Cruz.

[1,
1,
1]

Fig 3 -Elemento Estruturante Linha.

A ideia básica da morfologia binária é sondar uma imagem com o elemento estruturante pré-definido, analisando como essa forma se encaixa ou não nas formas da imagem.

Erosão e Dilatação

A erosão e a dilatação são dois operadores fundamentais em Morfologia Matemática, muitos operadores morfológicos mais sofisticados se baseiam nestas duas operações.

Erosão

Símbolo / Representação : ⊖

Definição: A _^⊖ B = { z | (B)_z ∩ A^c = ∅ }

A erosão consiste em testar se o elemento estruturante se encaixa na imagem de origem, gerando uma nova imagem de destino, onde cada teste realizado com sucesso, é identificado na imagem de destino com o valor 1 e identificado com o valor 0 caso a estrutura não tenha sido localizada. Os valores 0 e 1 podem ser substituídos por outros valores, caso necessário.

O efeito prático do processo morfológico chamado erosão, consiste na modificação das feições da imagem, diminuindo-as em seu entorno, literalmente “erodindo-as” [MM].

Observe na ilustração a seguir, o passo a passo da erosão da imagem, de tamanho 11×11, pelo elemento estruturante, de tamanho 3×3. O processo inicia pelo teste do elemento estruturante na parte superior esquerda da imagem, onde é verificado se cada elemento do núcleo é encontrado da imagem. Para isso, é verificado se cada um dos elementos [1, 2, 3, 4, 5, 6, 7, 8, 9] do núcleo estão contidos nos elementos de coordenada [(1,1), (1,2), (1,3), (2,1), (2,2), (2,3), (3,1), (3,2), (3,3)] da imagem, e registrado o valor 1 (branco) na imagem de destino caso todos os elementos sejam encontrados, como o teste não passou, na imagem de destino é registrado o valor 0 (preto). Então, é deslocado a verificação do núcleo para os próximos elementos da imagem, até que todos sejam testados.

Fig 4 – Elemento Estruturante
(Núcleo)

Fig 5 – Ilustração de Erosão.

A seguir, na ilustração da Fig. 6, é exibido um exemplo de erosão morfológica de uma imagem de placa de circuitos. Neste exemplo vamos tentar remover todos os circuitos e manter apenas suas extremidades. O primeiro processo realizado, consiste em carregar a imagem, convertê-la em tons de cinza e realizar a limiarização, para termos uma imagem em preto e branco (zeros e uns). Com a imagem limiarizada foi realizada a sua Erosão, com uma matriz 3×3 de valores 1.

Fig 6 – Efeito de Erosão Morfológica em placa de circuitos.

Podemos observar pela imagem, que este simples processo eliminou todos os traços/linhas da imagem de entrada, mantendo apenas as estruturas maiores. O resultado não foi uma extração ideal de estrutura, porém, com uma única aplicação de operação morfológica foi possível remover muitas informações indesejadas. O exemplo acima foi realizado utilizando a ferramenta online OpenCV-Flow.

Dilatação

Símbolo / Representação: ⊕

Definição: A _^⊕ B = { z | (^B)_z ∩ A ≠ ∅ }

A dilatação, de certa forma, é o contraponto da erosão. Ela consiste em testar cada elemento da imagem de origem e verificar se possui valor 1, caso exista na imagem de destino, então é adicionado os valores do elemento estruturante a partir da posição central do elemento estruturante.

O efeito prático do processo morfológico chamado Dilatação consiste na modificação das feições da imagem, aumentando-as em seu entorno [MM].

Observe na ilustração a seguir, o resultado da aplicação do elemento estruturante (núcleo) na imagem. O núcleo de forma quadrada, com tamanho 3×3, possui os valores [1,1,1,1,1,1,1,1,1] e centro de coordenada (2,2). Note que ao aplicar o núcleo na coordenada (3,3) da imagem de entrada, resultou na imagem de saída a expansão daquele ponto, ao aplicar/copiar o elemento estruturante na imagem de saída. Todo o processo é repetido para cada elemento da imagem.

Fig 7 – Elemento Estruturante
(Núcleo)

Fig 8 – Ilustração de Dilatação.

Abertura e Fechamento

Duas outras operações morfológicas importantes são a abertura e fechamento.

Abertura

Símbolo / Representação: ◦

Definição: A ◦ B = (A _^⊖ B) _^⊕ B

A abertura de uma imagem A por um elemento estruturante B é simplesmente a operação de erosão de A por B, seguida da dilatação de A por B [PS].

Ao realizar a erosão seguida da dilatação, o efeito produzido na imagem é de abertura de pontos/ligações e remoção de ruídos. Observe na ilustração da Fig. 9, que após realizar a operação de erosão na imagem, a conexão que existia entre os retângulos foi perdida e também foram reduzidos seu tamanhos. Porém, ao aplicar a dilatação esses retângulos voltaram a ter sua forma inicial.

Fig 9 – Efeito da abertura morfológica.

Fechamento

Símbolo / Representação: •

Definição: A • B = (A _^⊕ B) _^⊖ B

O fechamento de uma imagem A por um elemento estruturante B é simplesmente a operação de dilatação de A por B, seguida da erosão de A por B [PS] .

Ao realizar a dilatação seguida da erosão, o efeito produzido na imagem são o fechamento de pequenos buracos e criação de conexões. Observe na ilustração da Fig. 10, que após realizar a dilatação, com a espação dos elementos, os buracos iniciais foram fechados, e com a realização da erosão o componente voltou a ter o aspecto da sua estrutura inicial, com os pequenos buracos fechados. Porém, como consequência desta técnica os componentes que estavam próximos se conectaram.

Fig 10 – Efeito do fechamento morfológica.

Filtragem morfológica

As operações morfológicas podem ser utilizadas como filtros de imagem, como filtros espaciais apresentados no artigo Domínios de Valor, Espaço e Frequência.

A ilustração da Fig. 11 mostra uma imagem de impressão digital corrompida por ruído, no topo a esquerda, sendo que o ruído se manifesta como elementos aleatórios claros sobre o fundo escuro e como elementos escuros sobre componentes claros na digital. O objetivo é eliminar todos os ruídos sem danificar a estrutura da digital [GW].

A seguir, na ilustração da Fig. 11, um exemplo de filtragem utilizando abertura seguida do fechamento morfológico, utilizando um elemento estruturante em forma de cruz.

Fig 11 – Filtragem de ruídos em impressão digital.

O resultado final, após o fechamento, esta quase sem ruídos, mas com algumas das cristas de impressão não totalmente reparadas e também apresenta algumas quebras, além de que algumas cristas foram conectadas e não deveriam. Isto não é inesperado utilizando esta técnica e para resolver esta situação seria necessário aplicar outras técnicas de processamento de imagens, que talvez resolveriam o problema, como realizar afinamento ou esqueletização.

Estes conceitos apresentados neste artigo são a base da morfologia matemática. Ela possui muitas outras técnicas, como extração de fronteiras, transformada acerto-ou-erro, afinamento, esqueletização, poda e extração de componentes conexos.

Referências:

[GW] GONZALEZ, R. C., WOODS, R. E. Processamento de Imagens Digitais. Editora Edgard Blucher, ISBN 978-85-8143-586-2, 3 ed., São Paulo, 2010

[PS] Pedrini, H.; Schwartz, W. R.; Análise de Imagens Digitais: Princípios, Algoritmos e Aplicações. Thomson Learning, 2007

[VL] Visual-Lab – Instituto de computação. Morfologia Matemática em Análise de Imagens. Acessado em 30/01/2023.

[MM] Matosak, B. M.; Medeiros, N. G; IMGedu – Capítulo 3 Morfologia Matemática. Acessado em 30/01/2023.

The post Morfologia Matemática para Processamento de Imagens appeared first on Visão Computacional.

YOLO para Detecção de Objetos – Visão Geral

Piemontez — Wed, 07 Sep 2022 22:45:45 +0000

Neste primeiro post de 5, é abordado uma visão geral sobre o YOLO, como é a estrutura base de seu funcionamento e um pouco de sua história. Nos próximos posts serão detalhados como são as arquiteturas de cada uma das 4 primeiras versões do YOLO e, como Bônus, textos e materiais de apoio ensinando a utilizar e treinar está técnica com diversos frameworks diferentes.

Observação: Para melhor entender este Post e os demais sobre YOLO, é necessário ter uma conhecimento geral sobre Inteligência Artificial e Redes Neurais.

O YOLO foi lançado em 2015, por Joseph Redmon e Ali Farhadi, durante o seu doutorado e em uma demonstração da sua primeira versão no TED Talks. O YOLO foi reconhecido como uma técnica inovadora, que foi capaz de obter uma precisão igual ou superior a de outros métodos de detecção de objetos da época [AG].

Durante a apresentação, ele faz uma demonstração ao vivo, provando que o detector é capaz de executar em sua GPU a detecção de até 80 categorias de objetos simultaneamente, a uma taxa de mais ou menos 30 FPS, e mantendo uma ótima precisão, o que foi revolucionário para a época [AG].

Video 1. Como os computadores aprendem a reconhecer objetos instantaneamente.

Durante esta exposição, foi apresentado a versão V3 do YOLO v3. Caso tenha curiosidade, os artigos científicos referentes as suas 3 primeiras versões são os seguintes: YOLO v1; YOLO v2 e YOLO v3.

O Diferencial YOLO

Os sistemas de detecção de objetos anteriores ao YOLO, redirecionam classificadores ou localizadores para realizar a detecção. Eles aplicam o modelo (IA) a uma imagem em vários locais e escalas, onde as regiões de alta pontuação da imagem são consideradas detecções [RJPA2]. Essas regiões menores, extraídas da imagem, são denominadas Bounding Box – “Regiões Delimitadoras” e cada uma dessas regiões detecta um único objeto. A Figura 1, ilustra como as técnicas de classificação, normalmente, percorrem a imagem em varias regiões e escalas diferentes para realizar a classificação do objeto.

Fig 1 – Exemplo de como os Bounding Box percorrem a imagem em regiões menores para identificar um objeto.

Diferente dos algoritmos que percorrem a imagem, em busca dos objetos treinados, o YOLO apenas precisa olhar pela imagem uma única vez e enviá-la para a rede neural. Foi a partir desse conceito que ele ganhou seu nome You Only Look Once (YOLO), que significa “Você só olha uma vez”.

O YOLO usa uma abordagem totalmente diferente, onde é aplicado uma única rede neural à imagem completa. Para isso a rede neural divide a imagem em regiões menores e prevê caixas delimitadoras, probabilidades de existir um objeto naquela caixa e também qual a probabilidade de ser determinado objeto [RJPA2]. Todo este processo é descrito a seguir.

Como Funciona?

O YOLO utiliza uma rede neural profunda (DNN – Deep Neural Network), uma rede neural convolucional, cuja a arquitetura é chamado de Darknet, com o mesmo nome do framework utilizado para implantá-lo. Sua implementação foi desenvolvida na linguagem C, porém, com a ajuda da comunidade e empresas, já é disponível em várias outras linguagens de programação.

Existem diversas versões do YOLO publicadas, a seguir demonstraremos o funcionamento básico/geral do YOLO, e nos próximos posts o funcionamento detalhado de cada uma das primeiras versões dele.

O primeiro passo que o YOLO executa é dividir a imagem em uma grade de S por S células. A grade utilizada nas primeiras versões é de 13×13, 13 colunas e 13 linhas, contendo 169 células, conforme exemplo na Figura 2 abaixo. Nas versões mais recentes esse tamanho é de 19×19 [AG].

Figura 2 – YOLO Divisão da imagem em grades.

Cada uma destas células é responsável por realizar a predição/detecção de 5 caixas delimitadoras, pois podem existir mais de um objeto nesta célula. Cada caixa é responsável por analisar um pedaço da imagem e extrair informações da região. Na versão do YOLO utilizado como exemplo, existem um total de 845 (13x13x5) caixas delimitadoras.

Caixas delimitadoras/Bounding box

O retângulo que contém a localização do objeto é chamado de caixa delimitadora (bounding box). Durante o processo de detecção de objetos, podem ser encontradas diversas caixas delimitadoras para um mesmo objeto. Estas caixas também podem possuir diversos tamanhos diferentes.

Cada caixa possui uma pontuação de confiança, indicando a quantidade de certeza que o algoritmo tem que aquela caixa possui um objeto. Porém, esta pontuação não identifica qual tipo é esse objeto.

Na Figura 3 abaixo, foram destacadas as caixas detectadas pelo algoritmo YOLO. Também foi destacado na imagem a pontuação de confiança através da espessura da caixa, ou seja, quanto maior a confiança que o YOLO tem que existe um objeto naquela caixa maior é a borda da caixa. A quantidade de possíveis objetos identificados nesta etapa do algoritmo é imensa.

Figura 3 – Resultado da detecção das caixas delimitadoras.

Para cada caixa delimitadora encontrada, também é executado o processo classificação dos objetos. Esse processo consiste em fornecer um valor de probabilidade para cada uma das possíveis classes/objetos que o algoritmo foi treinado a encontrar. Na Figura 4 abaixo, foram destacados em cores diferentes os possíveis objetos de cada caixa.

Figura 4 – Resultado da classificação das caixas delimitadoras.

A combinação da confiança da caixa, com a probabilidade da classe, geram a pontuação final. Essa pontuação indica qual a probabilidade de uma determinada caixa delimitadora conter um objeto [JO].

Boa parte das caixas detectadas, possuem um grau de confiança muito baixo. Para eliminar a maioria das caixas podemos atribuir uma limiar de confiança, de 70% por exemplo, e remover o que estiver abaixo deste valor. Nesta etapa a confiança atribuída é de 30%.

A rede neural usa recursos de toda a imagem para prever cada caixa delimitadora, ela também prevê todas as caixas delimitadoras em todas as classes para uma imagem simultaneamente. Isso significa que a rede raciocina globalmente sobre a imagem completa e todos os objetos na imagem [MC].

Resultado caixas delimitadoras:

Cada caixa delimitadora no YOLO contém 3 grupos de informações/atributos:

Probabilidade de confiança: Atributo com a probabilidade de existir um objeto na determinada caixa;
Coordenadas: Contém a localização da caixa delimitadora/objeto. A localização no YOLO é representada com posição central do objeto, sua altura e sua largura;
Probabilidade da classe: Atributo com a probabilidade de ser determinado objeto. Para cada tipo de objeto que a rede neural do YOLO foi treinada é acrescentado um novo atributo.

Na Figura 5 abaixo, é representado esses 3 grupos de atributos.

Figura 5 – Mapa de saída do YOLO [AG2].

Finalizada a coleta/predição das probabilidades de cada caixa delimitadora, agora é preciso decidir quais caixas de fato são ou não são objetos. Para realizar esta decisão/predição, em sua última etapa de detecção, o YOLO realiza o processo de supressão não máxima.

Supressão não máxima/Non maximum suppression

Durante o processo de detecção de objetos, são identificadas varias caixas delimitadoras contendo objetos. Porém, a maioria das caixas não vai conter um objeto, ou compartilham a mesma região de um mesmo objeto. Portanto é necessário realizar uma etapa para remover as caixas com baixas probabilidade e/ou que possuem uma área compartilhada.

A Figura 6 abaixo, ilustra esse processo de tomada de decisão realizada pelo YOLO e diversas outras redes neurais.

Figura 6 – Supressão não máxima.

Âncoras/Anchor Box

As ancoras são retângulos de tamanhos pré-definidos, que foram incluídas a partir da versão 2 do YOLO. Estes retângulos são utilizados, para que as caixas delimitadoras previstas, possuam maior relação com as caixas delimitadoras esperadas como resultado.

Estas âncoras possuem tamanhos altura e largura próximos aos tamanhos dos objetos identificados. Elas são criadas durante o processo de treinamento da rede neural, com base nas classes de objetos.

A partir das coordenadas das caixas dos objetos detectadas, são selecionadas as âncoras de cada objeto, redimensionadas para a proporção dos objetos identificados e utilizadas como saída da rede neural YOLO.

A rede neural YOLO não prevê o tamanho final do objeto, ela apenas ajusta o tamanho da âncora mais próxima ao tamanho do objeto.

Na Figura 7 abaixo, é exibido o resultado de todo o processo de detecção com o YOLO.

Figura 7 – Resultado da detecção com YOLO.

Resumo

O YOLO cria diversas caixas delimitadoras. Para cada caixa, é atribuido um valor de confiaça, com a porcentagem (0 até 1) de existir uma objeto. Também é realizado a predição de que tipo de objeto existe na caixa. O valor de confiança para a caixa delimitadora e a predição da classe são combinados em uma pontuação final, que vai informar a probabilidade dessa caixa conter um objeto específico. Por fim é realizada o processo de supressão não máxima afim de “filtrar”/”Eliminar” falsos objetos e mesclar regiões de um mesmo objeto que assumem o tamnho conforme o tamanho da âncora [AG].

O processo de predição do YOLO é realizado a partir de uma grid de 13×13 células, o que no final resulta em 169 células. Para cada uma dessas células, são detectadas 5 caixas delimitadoras, o que resulta em 845 caixas com possíveis objetos [AG].

Figura 8 – Resumo das operações YOLO.

Um pouco de história

Joseph Redmon introduziu a primeira versão em seu paper publicado em junho de 2015: You Only Look Once: Unified, Real-Time ObjectDetection.

Em dezembro de 2016, Redmon e Ali Farhadi introduziram o YOLOv2 com o paper: “YOLO9000: Better, Faster, Stronger, mais preciso e mais rápido que a versão anterior [AG].

Em abril de 2018, o YOLOv3 (“YOLOv3: An Incremental Improvement“) demonstrou uma grande melhora na eficiência da predição. No entanto, no geral ele não é mais rápido que a versão anterior. A principal novidade é a predição da imagem em 3 diferentes escalas, o que resolveu o principal problema da versão anterior, que era a dificuldade para reconhecer objetos muito pequenos na imagem. Essa novidade também é o principal motivo de não ser mais rápido que o seu antecessor, já que tal função exigiu mudanças na arquitetura e funcionamento, que tornaram o processo mais pesado [AG].

A quarta versão do YOLO foi lançada em abril de 2020, sendo oficializada após a publicação do paper “YOLOv4: Optimal Speed and Accuracy of Object Detection” por Alexey Bochkovskiy, Chien-Yao Wang e Hong-Yuan Mark Liao.

As principais características que podem ser destacadas nessa versão são melhorias na velocidade e precisão. Outra característica importante é o fato de ser mais eficiente para rodar em GPUs, pois foi otimizado para utilizar menos memória [AG].

Nos próximos posts, serão detalhadas estas 4 versões. Espero que tenha gostado do post, deixe seu comentário abaixo.

Referências:

[AG] Alvez, Gabriel. Detecção de Objetos com YOLO – Uma abordagem moderna. Acessado em 15/07/2022.

[RJFA] Redmon, Joseph and Farhadi, Ali, YOLO: Real-Time Object Detection. Acessado em 29/06/2022,

[MC] Manish Chablani, YOLO — You only look once, real time object detection explained. Acessado em 29/06/2022.

[RJFA2] Redmon, Joseph and Farhadi, Ali, YOLO9000: Better, Faster, Stronger. Artigo.

[AK] Ayoosh Kathuria – What’s new in YOLO v3. Acessado em 26/07/2022.

[AK2] Ayoosh Kathuria – How to implement a YOLO (v3) object detector from scratch in PyTorch: Part 1. Acessado em 26/07/2022

[JP] Jilvan Pinheiro; Módulo OCR de leitura e reconhecimento de documentos. Acessado em 12/08/2022

The post YOLO para Detecção de Objetos – Visão Geral appeared first on Visão Computacional.