Cómo funciona el análisis de contenido por IA: La tecnología detrás de la predicción de la atención

Cuando subes una imagen a FlowDx, tres sistemas de IA la analizan simultáneamente. Esto es lo que realmente sucede bajo el capó: sin lenguaje de marketing, solo la realidad técnica.

Motor 1: Predicción de la atención (DeepGaze IIE)

El mapa de calor de atención es generado por DeepGaze IIE, desarrollado en el Bethge Lab de la Universidad de Tubinga. Es el modelo número 1 en el MIT Saliency Benchmark.

Cómo funciona

DeepGaze IIE está construido sobre dos redes neuronales pre-entrenadas (DenseNet-201 y ResNeXt-50) que extraen características visuales a múltiples escalas. Estas características se combinan luego a través de capas de lectura (readout layers) aprendidas que predicen mapas de probabilidad de fijación.

La clave: el modelo no solo detecta regiones "brillantes" o con "contraste". Aprende interacciones complejas de características que se correlacionan con los movimientos oculares humanos reales. Los datos de entrenamiento provienen del enorme conjunto de datos de seguimiento ocular de Bylinskii et al. (2019): miles de imágenes con datos de mirada correspondientes de cientos de participantes.

Precisión

DeepGaze IIE logra una puntuación AUC-Judd de 0.87+ en el benchmark del MIT, lo que significa que sus predicciones se correlacionan fuertemente con el lugar donde miran los humanos reales. Para comparar, el límite superior teórico (acuerdo entre sujetos) es de alrededor de 0.92.

Motor 2: Análisis de activación cognitiva

Este motor estima cómo responderían diferentes regiones del cerebro al estímulo visual, basándose en modelos de neurociencia computacional del procesamiento visual.

Las cinco dimensiones

Corteza visual (V1-V4) — Procesamiento visual de bajo nivel: bordes, colores, texturas. Se correlaciona con el "impacto visual". Basado en el trabajo fundacional de Hubel & Wiesel sobre los campos receptivos de la corteza visual.
Amígdala — Detección de saliencia emocional. LeDoux (2000) demostró que esta estructura evalúa el contenido emocional en menos de 170 ms.
Hipocampo — Codificación de la memoria. Stern et al. (1996) demostraron que la activación del hipocampo predice si un estímulo será recordado.
Corteza prefrontal — Toma de decisiones y planificación de acciones. Miller & Cohen (2001) establecieron el papel de la PFC en el comportamiento dirigido a objetivos.
Área fusiforme (FFA) — Reconocimiento de rostros y cuerpos. Kanwisher et al. (1997) descubrieron esta región selectiva de rostros.

Motor 3: Diagnóstico por IA de Gemini Vision

El tercer motor utiliza la IA multimodal Gemini de Google con razonamiento extendido para analizar la imagen de forma holística. A diferencia de los dos primeros motores (que son redes neuronales especializadas), Gemini realiza un razonamiento visual de alto nivel.

Qué hace Gemini de manera diferente

Gemini puede entender el contexto, leer texto dentro de las imágenes, identificar problemas de composición y generar recomendaciones en lenguaje natural. Recibe los datos de atención de los motores 1 y 2 como contexto, y luego produce:

Diagnóstico específico de problemas visuales (no solo "poca atención", sino "el texto blanco es invisible sobre el fondo claro")
Recomendaciones basadas en evidencia (haciendo referencia a los datos de atención)
Coordenadas de anotación precisas para marcar áreas problemáticas

¿Por qué tres motores?

Cada motor tiene puntos ciegos:

DeepGaze predice dónde mira la gente, pero no por qué ni cómo solucionarlo
La activación cognitiva te dice qué sistemas cerebrales responden, pero no en qué elementos específicos
Gemini entiende el contexto y el significado, pero carece de la precisión perceptiva de los modelos de saliencia especializados

Juntos, proporcionan una imagen completa: hacia dónde va la atención (DeepGaze), cómo responde el cerebro (activación cognitiva) y qué hacer al respecto (Gemini).

Pruébalo tú mismo

Sube cualquier imagen a FlowDx y observa los tres motores en acción. El análisis tarda unos 30 segundos y cuesta 1 crédito.

Referencias

Linardos, A. et al. (2021). DeepGaze IIE. ICLR 2021.
MIT Saliency Benchmark. saliency.mit.edu.
Bylinskii, Z. et al. (2019). What do different evaluation metrics tell us about saliency models? IEEE TPAMI.
LeDoux, J. E. (2000). Emotion circuits in the brain. Annual Review of Neuroscience.
Kanwisher, N. et al. (1997). The fusiform face area. Journal of Neuroscience.
Miller, E. K., & Cohen, J. D. (2001). An integrative theory of prefrontal cortex function. Annual Review of Neuroscience.
Google DeepMind. Gemini.