SAM 1 e 2 (Arquitetura)

Piemontez — Wed, 20 May 2026 15:30:31 +0000

Este artigo, explana o funcionamento das versões 1 e 2 do SAM (Segment Anything Model), conforme descrito em seus artigos científicos, com foco no detalhamento de suas redes neurais. Detalhando quais são as camadas ocultas destas duas redes neurais e uma breve descrição de como é o funcionamento destas camadas.

O que é e como funciona o SAM 1 e 2?

De forma simples, o SAM é um modelo de inteligência artificial que permite selecionar e separar objetos em imagens e, no caso do SAM 2, também em vídeos. O usuário indica a região de interesse por meio de pontos, áreas ou máscaras e o modelo gera automaticamente a segmentação correspondente. A Figura 1, apresenta uma visão geral desse funcionamento.

Figura 1 – Exemplo de uso de SAM 2 [META].

O SAM 1 é um modelo de segmentação de imagens criado pela Meta AI, cujo objetivo é separar (segmentar) qualquer objeto em uma imagem, mesmo sem ter sido treinado especificamente para aquele tipo de objeto.

O SAM 2 é a evolução do SAM 1, lançado para ir além de imagens estáticas e resolver segmentação interativa e automática em vídeos, mantendo a ideia de “segmentar qualquer coisa”, mas agora ao longo do tempo.
A principal mudança é que o SAM 2 entende continuidade temporal, ou seja, ele consegue seguir o mesmo objeto, frame a frame, em um vídeo e também possui maior precisão.

Aspecto	SAM 1	SAM 2
Tipo de dado	Imagem	Vídeo + imagem
Consistência temporal
Rastreamento de objetos

Tabela1 – Diferença SAM 1 e SAM 2.

Os SAM 1 e 2 foram desenvolvidos com uma arquitetura que incluí 3 componentes principais:

Image Encoder (Codificador de imagem);
Prompt Encoder (Codificador de prompts);
Mask Decoder (Decodificador de máscaras)

O Vídeo 1, abaixo, ilustra como o SAM 1 funciona. A partir de uma imagem de entrada e de um prompt, o modelo codifica a imagem em uma representação numérica rica — isto é, um tensor com informações semânticas — que permite compreender sua estrutura visual. Em seguida, essa representação é combinada com o prompt de entrada, que também é transformado internamente, para gerar uma máscara final (composta por valores binários) correspondente à região segmentada.

Video 1 – Ilustração de funcionamento do SAM [SA].

Uma outra forma de visualizarmos o funcionamento dos SAM 1 e 2, é a partir da Figura 1 abaixo, aonde as 3 camadas: “Image Encoder”, “Prompt Encoder” e “Mask Decoder”, mencionadas no parágrafo anterior, são representadas respectivamente nas cores verde, roxo e laranja.

Figura 1. SAM vs. SAM 2 architecture [KA][RN][GJDECJR].

Observe na Figura 1.b, que a principal diferença entre o SAM 1 e o 2 é a inclusão de uma nova etapa: o banco de memória. Esta etapa, foi adicionada no final, após a segmentação da imagem, onde é criado um banco de memória que alimenta a próxima segmentação (frame) de imagem, caso seja realizada uma segmentação em vídeos. Outra diferença importante do SAM 2, é que a decodificação da imagem (em verde), é realizada por transformação hierárquica (processo melhor detalhado nas próximas seções).

Codificador de imagem (Image encoder)

O codificador de imagem é responsável por transformar a imagem original em uma representação numérica chamada de embedding. No SAM 1, essa etapa é realizada por um Vision Transformer (ViT), que divide a imagem em pequenos blocos e aprende as relações entre eles por meio de mecanismos de atenção.

Camadas de atenção (ou attention layers) são componentes centrais de modelos de Inteligência Artificial e Processamento de Linguagem Natural (como os Transformers). Elas funcionam como um filtro cognitivo que permite à IA identificar quais partes de um texto, imagem ou áudio são mais relevantes para a tarefa sendo executada.

Esse codificador é previamente treinado utilizando a abordagem de Masked Autoencoder (MAE), na qual partes da imagem são ocultadas e o modelo aprende a reconstruí-las, permitindo capturar representações visuais mais ricas e generalizáveis.

Diferente do SAM 1, o SAM 2 usa um transformer hierárquico (Hiera), onde processa a imagem em múltiplos níveis de resolução. Na resolução baixa, o Hiera aprende contexto global (forma geral); na resolução média, partes do objeto; e na alta, bordas e detalhes. Esta técnica é chamada de pirâmide de features, desta forma, o que o SAM 1 extrai em uma única resolução, agora o SAM 2 extrai em resoluções diferentes.

Vision Transformer (Vit)

O Vision Transformer foi apresentado pela primeira vez em 2020 em um artigo intitulado “16 x16 palavras” (link nas referências) e tornou-se amplamente utilizada em tarefas de PNL (Processamento de Linguagem Natural), sendo que para aproveitar os recursos dos Transformers para imagens, o ViT foi introduzido [TA].

Figura 2 – Vision Transformer (ViT). Imagem do autor [ALADXTMGSJNN].

Para processar uma imagem, inicialmente ela é segmentada em pequenos patches de tamanho fixo, depois disso, esses patches passam por uma incorporação linear. Por exemplo, considerando uma imagem com dimensões 1024 × 1024 × 3, ao dividi-la em patches de 16 × 16 (totalizando 256 patches), cada um terá dimensão equivalente a 64 × 64 × 3. Em seguida, cada patch é transformado linearmente para o tamanho do modelo. Assim, um patch de dimensão 64 × 64 × 3 (12.288 valores) é projetado em um espaço de tamanho 4096. Dessa forma, cada patch passa a ser representado por um embedding de dimensão 4096 [TA].

Resumo da camada linear: todos os pixels de cada patch são achatados em um vetor, e os 12.288 valores resultantes são multiplicados por uma matriz de pesos de dimensão (12.288 × 4.096), gerando 4.096 valores de embedding. Por exemplo, realiza-se a multiplicação entre a entrada (256, 12.288) e a matriz de pesos (12.288, 4.096), em que 256 corresponde ao número de patches, 12.288 ao número de valores por patch após achatamento, e 4.096 ao tamanho final do embedding de cada patch [TA].

Ao dividir uma imagem em 256 partes, cada uma delas é transformada em um vetor de incorporação (embedding). De maneira semelhante ao que ocorre em modelos de linguagem, nos quais palavras são representadas como vetores, cada região da imagem passa a ter sua própria representação vetorial. Assim, obtemos 256 vetores de incorporação, correspondentes a cada parte da imagem, que capturam as características essenciais de cada região [TA].

Em seguida, vetores de incorporação posicionais são somados aos vetores de incorporação da imagem por meio de uma adição elemento a elemento. Além disso, vetores de incorporação de classe são inseridos no início da sequência de vetores de incorporação, conforme ilustrado na Figura 2, onde esses vetores também são adicionados no início para tarefas de classificação. Esses vetores de incorporação de classe são parâmetros treináveis [TA].

O objetivo do Vision Transformer (ViT) é realizar a classificação de imagens. Ao final do codificador, esses vetores de incorporação de classe desempenham um papel fundamental na decisão de classificação, de forma análoga à camada linear utilizada em modelos de linguagem (LLMs) [TA].

Masked Autoencoder (MAE)

Masked Autoencoders (MAE) são uma abordagem eficiente de aprendizado auto-supervisionado para visão computacional. A ideia principal é simples: o modelo recebe uma imagem com várias partes ocultadas e aprende a reconstruir os pixels ausentes.

Esse método se baseia em dois pontos principais:

Primeiro, uma arquitetura assimétrica, em que o codificador processa apenas as partes visíveis da imagem, enquanto um decodificador leve reconstrói a imagem completa;
Segundo, o uso de uma alta taxa de mascaramento (por exemplo: 75%), o que torna a tarefa de reconstrução mais desafiadora e significativa.

Com essa abordagem, é possível treinar modelos grandes de forma mais eficiente, obtendo melhor desempenho e boa capacidade de generalização para diferentes tarefas [LZ].

Em SAM 1, o MAE é pré-treinado utilizando um grande subconjunto aleatório de patches da imagem, no qual parte desses patches é mascarada. O codificador é então aplicado apenas ao subconjunto reduzido de patches visíveis. Após isso, os tokens correspondentes aos patches mascarados são adicionados à saída do codificador. Esse conjunto completo, composto pelos patches codificados e pelos tokens mascarados, é processado por um decodificador compacto, responsável por reconstruir a imagem original no nível de pixels. Após a etapa de pré-treinamento, o decodificador é descartado e o codificador passa a ser utilizado com o conjunto completo de patches, agora sem máscaras, em tarefas de reconhecimento [TA].

O codificador do MAE foi empregado como codificador de imagens no modelo Segment Anything (SAM), conforme ilustrado na Figura 1.a. Nesse caso, os embeddings de imagem são gerados apenas uma única vez, permitindo que múltiplos prompts sejam fornecidos como entrada posteriormente [TA].

Imagem 3 – Autoencoder mascarado (MAE) [LZ].

Hiera

“Transformadores de visão como o ViT usam a mesma resolução espacial e o mesmo número de características em toda a rede. Mas isso é ineficiente: as camadas iniciais não precisam de tantas características, e as camadas posteriores não precisam de tanta resolução espacial. Modelos hierárquicos anteriores, como o ResNet, resolviam esse problema usando menos características no início e menos resolução espacial no final” [Hiera, 2026].

O SAM 2 utiliza um codificador de imagem baseado no Hiera, uma arquitetura hierárquica derivada do ViT, previamente treinada com a abordagem MAE. Esse codificador é capaz de extrair características em múltiplas escalas, capturando tanto o contexto global quanto detalhes finos da imagem [RA]. Cada alteração de escala modifica o tamanho das representações internas (ou embeddings) no Hiera, conforme bloco Hiera Encoder, ilustrado na Imagem 4 abaixo.

Imagem 4 – Hiera: A Hierarchical Vision Transformer without the Bells-and-Whistles [FR].

Cada escala pode ser representada da seguinte forma:

Estágio 1 → alta resolução (detalhes);
Estágio 2 → média resolução;
Estágio 3 → baixa resolução (mais contexto);
Estágio 4 → muito baixa resolução (global).

Cada escala tem como saída esperada:

F1 → detalhes (alta resolução);
F2 → partes do objeto;
F3 → estrutura;
F4 → contexto global.

A partir dessas diferentes escalas, a Feature Pyramid Network (FPN) atua integrando as características extraídas em cada estágio, combinando informações mais abstratas, provenientes das camadas de baixa resolução, com os detalhes preservados nas camadas de alta resolução.

As características dos níveis mais profundos, oriundas dos estágios 3 e 4, são utilizadas para gerar embeddings ricos e semânticos da imagem, fundamentais para a segmentação. Ao mesmo tempo, características de alta resolução, provenientes dos estágios 1 e 2, são incorporadas às etapas de reconstrução no decodificador de máscara, permitindo produzir segmentações mais precisas e com maior nível de detalhe [RA].

Codificador de prompt

A codificação de prompts constitui uma etapa essencial no pipeline do SAM, responsável por transformar as interações do usuário em representações numéricas (embeddings) que o modelo consegue interpretar. Esses prompts atuam como mecanismos de orientação, direcionando a atenção do modelo para regiões ou objetos específicos dentro da imagem.

Imagem 5 – Prompt Decoder [SW].

O codificador de prompt recebe diferentes tipos de entradas fornecidas pelo usuário, como:

Cliques em pontos específicos da imagem;
Caixas delimitadoras;
Máscaras iniciais aproximadas.

Essas entradas são processadas e convertidas em vetores que representam tanto a posição espacial quanto o tipo de interação. De forma geral, os prompts são divididos em duas categorias principais:

Prompts esparsos (sparse): incluem pontos e caixas, que representam informações discretas e localizadas. Cada ponto ou vértice da caixa é codificado como um vetor (token), totalizando um pequeno conjunto de embeddings que indicam explicitamente onde o modelo deve focar.
Prompts densos (dense): incluem máscaras, que possuem correspondência espacial com toda a imagem. Nesse caso, a máscara é processada por camadas convolucionais, resultando em um mapa de features que preserva a estrutura espacial da entrada.

No caso dos prompts esparsos, como cliques, a codificação ocorre em etapas. Primeiramente, as coordenadas do ponto são normalizadas e transformadas por um mecanismo de codificação posicional (positional encoding), que captura a localização no espaço da imagem. Em seguida, esse vetor é combinado com um embedding aprendido que indica se o ponto pertence ao primeiro plano (foreground) ou ao fundo (background). Já as caixas delimitadoras são representadas por pares de pontos (canto superior esquerdo e canto inferior direito), cada um com seu próprio embedding específico.

O resultado desse codificador é um conjunto de vetores (tokens) que representam a intenção do usuário. Esses tokens não carregam diretamente o conteúdo visual da imagem, mas sim informações sobre “onde” e “o que” deve ser segmentado.

Esses embeddings de prompt são então fornecidos ao decodificador de máscaras juntamente com os embeddings da imagem. No Mask Decoder, ocorre a interação entre essas duas informações por meio de mecanismos de atenção, nos quais os tokens do prompt (esparsos) direcionam o modelo a extrair, dos embeddings densos da imagem, as regiões correspondentes ao objeto desejado.

Na prática, o codificador de prompt responde à pergunta:

“Qual região da imagem o usuário quer segmentar?”

Dessa forma, ele atua como a interface entre a interação humana e o processamento automático do modelo, permitindo que o SAM realize segmentações precisas de forma interativa, rápida e generalizável.

Decodificador de máscara (Mask decoder)

O decodificador de máscara é a etapa da arquitetura responsável por combinar as características da imagem, os embeddings de prompt e quando disponível, informações adicionais para gerar a segmentação final. O decodificador utiliza um número reduzido de camadas de atenção, nas quais os embeddings da imagem e os tokens de prompt são mutuamente atualizados por meio de mecanismos de atenção cruzada.

Imagem 6 – Saída do decodificador de imagem [KA].

O codificador de imagem primeiro converte a imagem em uma representação numérica rica em informações visuais, em seguida, o codificador de prompts transforma entradas como pontos, caixas delimitadoras ou máscaras iniciais em embeddings, que indicam ao modelo qual região deve ser segmentada. O decodificador de máscara combina essas duas fontes de informação para prever a região exata do objeto na imagem [KA].

Uma característica importante desse decodificador é que ele foi projetado para ser leve e rápido, isso permite que, depois que a imagem já foi processada pelo codificador, o usuário possa testar diferentes prompts quase em tempo real, sem precisar recalcular toda a imagem novamente. Essa separação entre um codificador de imagem mais pesado e um decodificador mais eficiente é uma das razões pelas quais o SAM funciona bem em cenários interativos [SA].

O decodificador também lida com ambiguidades, por exemplo, se o usuário clicar em um ponto sobre uma camisa, o modelo pode interpretar o alvo como a camisa, a pessoa inteira ou até uma parte específica do corpo. Para resolver isso, o SAM pode gerar múltiplas máscaras válidas e associar a elas pontuações de confiança, permitindo escolher a segmentação mais adequada [SA].

Em resumo, o decodificador de máscara funciona como a etapa final de decisão do SAM: ele recebe a compreensão visual da imagem, interpreta a intenção expressa pelo prompt e produz a máscara segmentada correspondente. É esse módulo que transforma a interação simples do usuário — como um clique ou uma caixa — em uma seleção precisa de pixels pertencentes ao objeto desejado. Uma descrição detalhada de como funciona a etapa de decodificação é encontrada no post SAM 2 (Segment Anything Model 2) is Amazing, But We Need to understand SAM 1.

Tratamento de ambiguidade

Para lidar com ambiguidades de segmentação, tanto o SAM 1 quanto o SAM 2 podem gerar múltiplas máscaras candidatas para um mesmo prompt. Cada uma dessas máscaras recebe uma pontuação de qualidade baseada em um IoU (Intersection over Union) previsto (predicted IoU), que representa uma estimativa da qualidade da segmentação aprendida durante o treinamento. Esse mecanismo permite selecionar a máscara mais adequada e aumenta a robustez do modelo em cenários complexos, como imagens com múltiplos objetos, sobreposição ou fronteiras pouco definidas.

No caso do SAM 2, essa abordagem é estendida para vídeos, contribuindo também para manter a consistência das segmentações ao longo dos quadros, mesmo em situações de oclusão ou visibilidade parcial dos objetos [RA].

Memória e Atenção (Memory and Attention)

O SAM 2 introduz um mecanismo de memória que armazena representações de frames anteriores em um banco de memória, permitindo que o modelo utilize essas informações ao processar o frame atual. Por meio de mecanismos de atenção, o modelo combina o conteúdo atual com o histórico armazenado, garantindo maior consistência temporal e melhor desempenho em cenários com movimento, oclusão e variações visuais. Esse mecanismo é composto por três elementos principais: um codificador de memória, um banco de memória e um módulo de atenção de memória.

Codificador de memória (Memory Encoder)

O codificador de memória transforma as características da imagem e a máscara gerada em uma representação compacta que descreve o objeto e pode ser armazenada para uso futuro.

Banco de memória (Memory Bank)

O banco de memória armazena essas representações de frames anteriores, mantendo um histórico recente do objeto ao longo do vídeo.

Módulo de atenção de memória (Memory Attention)

O módulo de atenção de memória utiliza essas informações armazenadas para influenciar a segmentação do frame atual, garantindo consistência ao longo do tempo.

Uma descrição detalhada sobre a memória do SAM 2 é encontrada em Memory and Attention Mechanism.

Treinamento

O código do Segment Anything Model é parcialmente open source. No SAM 1, a Meta disponibilizou principalmente o código para inferência e uso do modelo, mas não o pipeline completo de treinamento. Já no SAM 2, houve maior abertura, incluindo suporte a treinamento e fine-tuning, embora o processo completo utilizado em larga escala não tenha sido totalmente divulgado.

Código fonte

https://github.com/facebookresearch/segment-anything

https://github.com/facebookresearch/sam2

Referências:

[KA] KIRILLOV, Alexander et al. Segment Anything. arXiv preprint arXiv:2304.02643, 2023. Artigo acesso em: 6 maio 2026

[RN] RAVI, Nikhila et al. SAM 2: Segment Anything in Images and Videos. arXiv preprint arXiv:2408.00714, 2024. Artigo acesso em: 6 maio 2026

[DATAC] DATACAMP. SAM 2 da Meta: o Segment Anything Model para imagens e vídeos. Acesso em: 6 maio 2026.

[GJDECJR] Gutiérrez Gallardo, Juan Diego & Delgado, Emilio & Breuer, Carlos & Conejero Manzano, José María & Rodriguez-Echeverria, Roberto. (2025). Prompt Once, Segment Everything: Leveraging SAM 2 Potential for Infinite Medical Image Segmentation with a Single Prompt. Algorithms. 18. 227. 10.3390/a18040227.

[SA] Segment Anything Research by Meta AI. Acessado em: 07 maio 2026

[META] META. Our new AI model can segment video. 2024. Acesso em: 6 maio 2026.

[ALADXTMGSJNN] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby. An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale. Acessado em: 13 maio de 2026

[LZ] Liu, Ziming A Toy Model of Masked-Autoencoder. Acesso em: 13 maio 2026.

[TA] TOWARDS AI. SAM 2: Segment Anything Model 2 is amazing, but we need to understand SAM 1.Acesso em: 13 maio 2026.

[RA] ROBERGE, Adam. Unpacking the advanced features of SAM2. Medium, [s.d.]. Acesso em: 19 maio 2026.

[FR] FACEBOOK RESEARCH. Hiera. Acesso em: 19 maio 2026.

[SW] SAM-WEBUI. Prompt Encoding. Acesso em: 19 maio 2026.

The post SAM 1 e 2 (Arquitetura) appeared first on Visão Computacional.

Memory Encoder Archives - Visão Computacional