Como Funciona a Análise de Conteúdo por IA: A Tecnologia por Trás da Predição de Atenção

Quando você faz o upload de uma imagem no FlowDx, três sistemas de IA a analisam simultaneamente. Aqui está o que realmente acontece nos bastidores — sem papo de marketing, apenas a realidade técnica.

Motor 1: Predição de Atenção (DeepGaze IIE)

O mapa de calor de atenção é gerado pelo DeepGaze IIE, desenvolvido no Bethge Lab da Universidade de Tübingen. É o modelo número 1 no MIT Saliency Benchmark.

Como funciona

O DeepGaze IIE é construído sobre duas redes neurais pré-treinadas (DenseNet-201 e ResNeXt-50) que extraem características visuais em múltiplas escalas. Essas características são então combinadas por meio de camadas de leitura (readout layers) treinadas que preveem mapas de probabilidade de fixação.

O ponto principal: o modelo não detecta apenas regiões "brilhantes" ou com "contraste". Ele aprende interações complexas de características que se correlacionam com os movimentos oculares humanos reais. Os dados de treinamento vêm do massivo conjunto de dados de eye-tracking de Bylinskii et al. (2019) — milhares de imagens com dados de olhar correspondentes de centenas de participantes.

Precisão

O DeepGaze IIE atinge uma pontuação AUC-Judd de 0,87+ no benchmark do MIT, o que significa que suas previsões se correlacionam fortemente com o local onde os humanos realmente olham. Para comparação, o limite superior teórico (concordância entre sujeitos) é de cerca de 0,92.

Motor 2: Análise de Ativação Cognitiva

Este motor estima como diferentes regiões do cérebro responderiam ao estímulo visual, com base em modelos de neurociência computacional de processamento visual.

As cinco dimensões

Córtex Visual (V1-V4) — Processamento visual de baixo nível: bordas, cores, texturas. Correlaciona-se com o "impacto visual". Baseado no trabalho fundamental de Hubel & Wiesel's sobre campos receptivos do córtex visual.
Amígdala — Detecção de saliência emocional. LeDoux (2000) mostrou que esta estrutura avalia o conteúdo emocional em 170ms.
Hipocampo — Codificação de memória. Stern et al. (1996) demonstraram que a ativação do hipocampo prevê se um estímulo será lembrado.
Córtex Pré-frontal — Tomada de decisão e planejamento de ação. Miller & Cohen (2001) estabeleceram o papel do CPF no comportamento direcionado a objetivos.
Fusiforme (FFA) — Reconhecimento de rostos e corpos. Kanwisher et al. (1997) descobriram esta região seletiva para rostos.

Motor 3: Diagnóstico de IA Gemini Vision

O terceiro motor utiliza a IA multimodal Gemini do Google com raciocínio estendido para analisar a imagem de forma holística. Ao contrário dos dois primeiros motores (que são redes neurais especializadas), o Gemini realiza raciocínio visual de alto nível.

O que o Gemini faz de diferente

O Gemini consegue entender o contexto, ler textos dentro de imagens, identificar problemas de composição e gerar recomendações em linguagem natural. Ele recebe os dados de atenção dos motores 1 e 2 como contexto e então produz:

Diagnóstico específico de problemas visuais (não apenas "baixa atenção", mas "o texto branco está invisível contra o fundo claro")
Recomendações baseadas em evidências (referenciando os dados de atenção)
Coordenadas de anotação precisas para marcar áreas problemáticas

Por que Três Motores?

Cada motor tem pontos cegos:

DeepGaze prevê onde as pessoas olham, mas não o porquê ou como corrigir
A ativação cognitiva informa quais sistemas cerebrais respondem, mas não em quais elementos específicos
Gemini entende o contexto e o significado, mas carece da precisão perceptiva de modelos de saliência especializados

Juntos, eles fornecem uma visão completa: para onde a atenção vai (DeepGaze), como o cérebro responde (ativação cognitiva) e o que fazer a respeito (Gemini).

Experimente Você Mesmo

Faça o upload de qualquer imagem no FlowDx e veja os três motores em ação. A análise leva cerca de 30 segundos e custa 1 crédito.

Referências

Linardos, A. et al. (2021). DeepGaze IIE. ICLR 2021.
MIT Saliency Benchmark. saliency.mit.edu.
Bylinskii, Z. et al. (2019). What do different evaluation metrics tell us about saliency models? IEEE TPAMI.
LeDoux, J. E. (2000). Emotion circuits in the brain. Annual Review of Neuroscience.
Kanwisher, N. et al. (1997). The fusiform face area. Journal of Neuroscience.
Miller, E. K., & Cohen, J. D. (2001). An integrative theory of prefrontal cortex function. Annual Review of Neuroscience.
Google DeepMind. Gemini.