注意力科学

Come funziona l'analisi dei contenuti tramite IA: la tecnologia dietro la previsione dell'attenzione

Un approfondimento tecnico su come l'IA preveda dove si posa lo sguardo umano sulle immagini. Dalle reti neurali DeepGaze alla modellazione dell'attivazione cognitiva.

Quando carichi un'immagine su FlowDx, tre sistemi di IA la analizzano simultaneamente. Ecco cosa succede realmente "sotto il cofano" — niente linguaggio di marketing, solo la realtà tecnica.

Motore 1: Previsione dell'attenzione (DeepGaze IIE)

La mappa di calore dell'attenzione è generata da DeepGaze IIE, sviluppato presso il Bethge Lab dell'Università di Tubinga. È il modello al primo posto nel MIT Saliency Benchmark.

Come funziona

DeepGaze IIE è costruito su due reti neurali pre-addestrate (DenseNet-201 e ResNeXt-50) che estraggono caratteristiche visive a diverse scale. Queste caratteristiche vengono poi combinate attraverso strati di readout appresi che prevedono le mappe di probabilità di fissazione.

L'intuizione chiave: il modello non si limita a rilevare regioni "luminose" o "contrastate". Apprende interazioni complesse tra le caratteristiche che correlano con i reali movimenti oculari umani. I dati di addestramento provengono dall'imponente dataset di eye-tracking di Bylinskii et al. (2019) — migliaia di immagini con i relativi dati dello sguardo di centinaia di partecipanti.

Accuratezza

DeepGaze IIE ottiene un punteggio AUC-Judd di oltre 0,87 nel benchmark del MIT, il che significa che le sue previsioni correlano fortemente con i punti in cui guardano effettivamente gli esseri umani. Per fare un confronto, il limite superiore teorico (l'accordo tra soggetti diversi) è di circa 0,92.

Motore 2: Analisi dell'attivazione cognitiva

Questo motore stima come le diverse regioni cerebrali risponderebbero allo stimolo visivo, basandosi su modelli di neuroscienze computazionali dell'elaborazione visiva.

Le cinque dimensioni

  • Corteccia visiva (V1-V4) — Elaborazione visiva di basso livello: bordi, colori, texture. Correla con l'"impatto visivo". Basato sul lavoro fondamentale di Hubel & Wiesel sui campi recettivi della corteccia visiva.
  • Amigdala — Rilevamento della salienza emotiva. LeDoux (2000) ha dimostrato che questa struttura valuta il contenuto emotivo entro 170 ms.
  • Ippocampo — Codifica della memoria. Stern et al. (1996) hanno dimostrato che l'attivazione dell'ippocampo predice se uno stimolo verrà ricordato.
  • Corteccia prefrontale — Processo decisionale e pianificazione dell'azione. Miller & Cohen (2001) hanno stabilito il ruolo della PFC nel comportamento orientato agli obiettivi.
  • Area fusiforme (FFA) — Riconoscimento di volti e corpi. Kanwisher et al. (1997) hanno scoperto questa regione selettiva per i volti.

Motore 3: Diagnosi tramite Gemini Vision AI

Il terzo motore utilizza l'IA multimodale Gemini di Google con "extended thinking" per analizzare l'immagine in modo olistico. A differenza dei primi due motori (che sono reti neurali specializzate), Gemini esegue un ragionamento visivo di alto livello.

Cosa fa Gemini di diverso

Gemini è in grado di comprendere il contesto, leggere il testo all'interno delle immagini, identificare problemi compositivi e generare raccomandazioni in linguaggio naturale. Riceve i dati sull'attenzione dai motori 1 e 2 come contesto, quindi produce:

  • Diagnosi specifiche di problemi visivi (non solo "bassa attenzione", ma "il testo bianco è invisibile sullo sfondo chiaro")
  • Raccomandazioni basate sull'evidenza (facendo riferimento ai dati sull'attenzione)
  • Coordinate precise per le annotazioni per contrassegnare le aree problematiche

Perché tre motori?

Ogni motore ha dei punti ciechi:

  • DeepGaze prevede dove le persone guardano, ma non il perché o come risolvere il problema
  • L'attivazione cognitiva indica quali sistemi cerebrali rispondono, ma non a quali elementi specifici
  • Gemini comprende il contesto e il significato, ma manca dell'accuratezza percettiva dei modelli di salienza specializzati

Insieme, forniscono un quadro completo: dove si dirige l'attenzione (DeepGaze), come risponde il cervello (attivazione cognitiva) e cosa fare al riguardo (Gemini).

Provalo tu stesso

Carica qualsiasi immagine su FlowDx e osserva i tre motori all'opera. L'analisi richiede circa 30 secondi e costa 1 credito.

Riferimenti

Analizza i tuoi contenuti con FlowDx

Carica le tue miniature, copertine o creatività pubblicitarie e ottieni un report diagnostico dell'attenzione basato sull'IA in 30 secondi.

Prova FlowDx gratuitamente