Quando carichi un'immagine su FlowDx, tre sistemi di IA la analizzano simultaneamente. Ecco cosa succede realmente "sotto il cofano" — niente linguaggio di marketing, solo la realtà tecnica.
Motore 1: Previsione dell'attenzione (DeepGaze IIE)
La mappa di calore dell'attenzione è generata da DeepGaze IIE, sviluppato presso il Bethge Lab dell'Università di Tubinga. È il modello al primo posto nel MIT Saliency Benchmark.
Come funziona
DeepGaze IIE è costruito su due reti neurali pre-addestrate (DenseNet-201 e ResNeXt-50) che estraggono caratteristiche visive a diverse scale. Queste caratteristiche vengono poi combinate attraverso strati di readout appresi che prevedono le mappe di probabilità di fissazione.
L'intuizione chiave: il modello non si limita a rilevare regioni "luminose" o "contrastate". Apprende interazioni complesse tra le caratteristiche che correlano con i reali movimenti oculari umani. I dati di addestramento provengono dall'imponente dataset di eye-tracking di Bylinskii et al. (2019) — migliaia di immagini con i relativi dati dello sguardo di centinaia di partecipanti.
Accuratezza
DeepGaze IIE ottiene un punteggio AUC-Judd di oltre 0,87 nel benchmark del MIT, il che significa che le sue previsioni correlano fortemente con i punti in cui guardano effettivamente gli esseri umani. Per fare un confronto, il limite superiore teorico (l'accordo tra soggetti diversi) è di circa 0,92.
Motore 2: Analisi dell'attivazione cognitiva
Questo motore stima come le diverse regioni cerebrali risponderebbero allo stimolo visivo, basandosi su modelli di neuroscienze computazionali dell'elaborazione visiva.
Le cinque dimensioni
- Corteccia visiva (V1-V4) — Elaborazione visiva di basso livello: bordi, colori, texture. Correla con l'"impatto visivo". Basato sul lavoro fondamentale di Hubel & Wiesel sui campi recettivi della corteccia visiva.
- Amigdala — Rilevamento della salienza emotiva. LeDoux (2000) ha dimostrato che questa struttura valuta il contenuto emotivo entro 170 ms.
- Ippocampo — Codifica della memoria. Stern et al. (1996) hanno dimostrato che l'attivazione dell'ippocampo predice se uno stimolo verrà ricordato.
- Corteccia prefrontale — Processo decisionale e pianificazione dell'azione. Miller & Cohen (2001) hanno stabilito il ruolo della PFC nel comportamento orientato agli obiettivi.
- Area fusiforme (FFA) — Riconoscimento di volti e corpi. Kanwisher et al. (1997) hanno scoperto questa regione selettiva per i volti.
Motore 3: Diagnosi tramite Gemini Vision AI
Il terzo motore utilizza l'IA multimodale Gemini di Google con "extended thinking" per analizzare l'immagine in modo olistico. A differenza dei primi due motori (che sono reti neurali specializzate), Gemini esegue un ragionamento visivo di alto livello.
Cosa fa Gemini di diverso
Gemini è in grado di comprendere il contesto, leggere il testo all'interno delle immagini, identificare problemi compositivi e generare raccomandazioni in linguaggio naturale. Riceve i dati sull'attenzione dai motori 1 e 2 come contesto, quindi produce:
- Diagnosi specifiche di problemi visivi (non solo "bassa attenzione", ma "il testo bianco è invisibile sullo sfondo chiaro")
- Raccomandazioni basate sull'evidenza (facendo riferimento ai dati sull'attenzione)
- Coordinate precise per le annotazioni per contrassegnare le aree problematiche
Perché tre motori?
Ogni motore ha dei punti ciechi:
- DeepGaze prevede dove le persone guardano, ma non il perché o come risolvere il problema
- L'attivazione cognitiva indica quali sistemi cerebrali rispondono, ma non a quali elementi specifici
- Gemini comprende il contesto e il significato, ma manca dell'accuratezza percettiva dei modelli di salienza specializzati
Insieme, forniscono un quadro completo: dove si dirige l'attenzione (DeepGaze), come risponde il cervello (attivazione cognitiva) e cosa fare al riguardo (Gemini).
Provalo tu stesso
Carica qualsiasi immagine su FlowDx e osserva i tre motori all'opera. L'analisi richiede circa 30 secondi e costa 1 credito.
Riferimenti
- Linardos, A. et al. (2021). DeepGaze IIE. ICLR 2021.
- MIT Saliency Benchmark. saliency.mit.edu.
- Bylinskii, Z. et al. (2019). What do different evaluation metrics tell us about saliency models? IEEE TPAMI.
- LeDoux, J. E. (2000). Emotion circuits in the brain. Annual Review of Neuroscience.
- Kanwisher, N. et al. (1997). The fusiform face area. Journal of Neuroscience.
- Miller, E. K., & Cohen, J. D. (2001). An integrative theory of prefrontal cortex function. Annual Review of Neuroscience.
- Google DeepMind. Gemini.