Come funziona l'analisi dei contenuti tramite IA: la tecnologia dietro la previsione dell'attenzione

Quando carichi un'immagine su FlowDx, tre sistemi di IA la analizzano simultaneamente. Ecco cosa succede realmente "sotto il cofano" — niente linguaggio di marketing, solo la realtà tecnica.

Motore 1: Previsione dell'attenzione (DeepGaze IIE)

La mappa di calore dell'attenzione è generata da DeepGaze IIE, sviluppato presso il Bethge Lab dell'Università di Tubinga. È il modello al primo posto nel MIT Saliency Benchmark.

Come funziona

DeepGaze IIE è costruito su due reti neurali pre-addestrate (DenseNet-201 e ResNeXt-50) che estraggono caratteristiche visive a diverse scale. Queste caratteristiche vengono poi combinate attraverso strati di readout appresi che prevedono le mappe di probabilità di fissazione.

L'intuizione chiave: il modello non si limita a rilevare regioni "luminose" o "contrastate". Apprende interazioni complesse tra le caratteristiche che correlano con i reali movimenti oculari umani. I dati di addestramento provengono dall'imponente dataset di eye-tracking di Bylinskii et al. (2019) — migliaia di immagini con i relativi dati dello sguardo di centinaia di partecipanti.

Accuratezza

DeepGaze IIE ottiene un punteggio AUC-Judd di oltre 0,87 nel benchmark del MIT, il che significa che le sue previsioni correlano fortemente con i punti in cui guardano effettivamente gli esseri umani. Per fare un confronto, il limite superiore teorico (l'accordo tra soggetti diversi) è di circa 0,92.

Motore 2: Analisi dell'attivazione cognitiva

Questo motore stima come le diverse regioni cerebrali risponderebbero allo stimolo visivo, basandosi su modelli di neuroscienze computazionali dell'elaborazione visiva.

Le cinque dimensioni

Corteccia visiva (V1-V4) — Elaborazione visiva di basso livello: bordi, colori, texture. Correla con l'"impatto visivo". Basato sul lavoro fondamentale di Hubel & Wiesel sui campi recettivi della corteccia visiva.
Amigdala — Rilevamento della salienza emotiva. LeDoux (2000) ha dimostrato che questa struttura valuta il contenuto emotivo entro 170 ms.
Ippocampo — Codifica della memoria. Stern et al. (1996) hanno dimostrato che l'attivazione dell'ippocampo predice se uno stimolo verrà ricordato.
Corteccia prefrontale — Processo decisionale e pianificazione dell'azione. Miller & Cohen (2001) hanno stabilito il ruolo della PFC nel comportamento orientato agli obiettivi.
Area fusiforme (FFA) — Riconoscimento di volti e corpi. Kanwisher et al. (1997) hanno scoperto questa regione selettiva per i volti.

Motore 3: Diagnosi tramite Gemini Vision AI

Il terzo motore utilizza l'IA multimodale Gemini di Google con "extended thinking" per analizzare l'immagine in modo olistico. A differenza dei primi due motori (che sono reti neurali specializzate), Gemini esegue un ragionamento visivo di alto livello.

Cosa fa Gemini di diverso

Gemini è in grado di comprendere il contesto, leggere il testo all'interno delle immagini, identificare problemi compositivi e generare raccomandazioni in linguaggio naturale. Riceve i dati sull'attenzione dai motori 1 e 2 come contesto, quindi produce:

Diagnosi specifiche di problemi visivi (non solo "bassa attenzione", ma "il testo bianco è invisibile sullo sfondo chiaro")
Raccomandazioni basate sull'evidenza (facendo riferimento ai dati sull'attenzione)
Coordinate precise per le annotazioni per contrassegnare le aree problematiche

Perché tre motori?

Ogni motore ha dei punti ciechi:

DeepGaze prevede dove le persone guardano, ma non il perché o come risolvere il problema
L'attivazione cognitiva indica quali sistemi cerebrali rispondono, ma non a quali elementi specifici
Gemini comprende il contesto e il significato, ma manca dell'accuratezza percettiva dei modelli di salienza specializzati

Insieme, forniscono un quadro completo: dove si dirige l'attenzione (DeepGaze), come risponde il cervello (attivazione cognitiva) e cosa fare al riguardo (Gemini).

Provalo tu stesso

Carica qualsiasi immagine su FlowDx e osserva i tre motori all'opera. L'analisi richiede circa 30 secondi e costa 1 credito.

Riferimenti

Linardos, A. et al. (2021). DeepGaze IIE. ICLR 2021.
MIT Saliency Benchmark. saliency.mit.edu.
Bylinskii, Z. et al. (2019). What do different evaluation metrics tell us about saliency models? IEEE TPAMI.
LeDoux, J. E. (2000). Emotion circuits in the brain. Annual Review of Neuroscience.
Kanwisher, N. et al. (1997). The fusiform face area. Journal of Neuroscience.
Miller, E. K., & Cohen, J. D. (2001). An integrative theory of prefrontal cortex function. Annual Review of Neuroscience.
Google DeepMind. Gemini.