Comment fonctionne l'analyse de contenu par l'IA : la technologie derrière la prédiction de l'attention

Lorsque vous téléchargez une image sur FlowDx, trois systèmes d'IA l'analysent simultanément. Voici ce qui se passe réellement sous le capot — pas de discours marketing, juste la réalité technique.

Moteur 1 : Prédiction de l'attention (DeepGaze IIE)

La carte de chaleur de l'attention est générée par DeepGaze IIE, développé au Bethge Lab de l'Université de Tübingen. C'est le modèle classé n°1 sur le MIT Saliency Benchmark.

Comment ça marche

DeepGaze IIE repose sur deux réseaux de neurones pré-entraînés (DenseNet-201 et ResNeXt-50) qui extraient des caractéristiques visuelles à plusieurs échelles. Ces caractéristiques sont ensuite combinées via des couches de lecture (readout layers) apprises qui prédisent les cartes de probabilité de fixation.

L'idée clé : le modèle ne se contente pas de détecter les zones « lumineuses » ou « contrastées ». Il apprend des interactions de caractéristiques complexes qui sont corrélées aux mouvements oculaires humains réels. Les données d'entraînement proviennent de l'imposant jeu de données d'eye-tracking de Bylinskii et al. (2019) — des milliers d'images avec les données de regard correspondantes de centaines de participants.

Précision

DeepGaze IIE atteint un score AUC-Judd de 0,87+ sur le benchmark du MIT, ce qui signifie que ses prédictions sont fortement corrélées à l'endroit où les humains regardent réellement. À titre de comparaison, la limite supérieure théorique (accord inter-sujets) est d'environ 0,92.

Moteur 2 : Analyse de l'activation cognitive

Ce moteur estime comment différentes régions du cerveau répondraient au stimulus visuel, en se basant sur des modèles de neurosciences computationnelles du traitement visuel.

Les cinq dimensions

Cortex visuel (V1-V4) — Traitement visuel de bas niveau : contours, couleurs, textures. Corrélé à l'« impact visuel ». Basé sur les travaux fondateurs de Hubel & Wiesel sur les champs récepteurs du cortex visuel.
Amygdale — Détection de la saillance émotionnelle. LeDoux (2000) a montré que cette structure évalue le contenu émotionnel en moins de 170 ms.
Hippocampe — Encodage de la mémoire. Stern et al. (1996) ont démontré que l'activation hippocampique prédit si un stimulus sera mémorisé.
Cortex préfrontal — Prise de décision et planification de l'action. Miller & Cohen (2001) ont établi le rôle du CPF dans le comportement orienté vers un but.
Gyrus fusiforme (FFA) — Reconnaissance des visages et des corps. Kanwisher et al. (1997) ont découvert cette région sélective aux visages.

Moteur 3 : Diagnostic par l'IA Gemini Vision

Le troisième moteur utilise l'IA multimodale Gemini de Google avec raisonnement étendu pour analyser l'image de manière holistique. Contrairement aux deux premiers moteurs (qui sont des réseaux de neurones spécialisés), Gemini effectue un raisonnement visuel de haut niveau.

Ce que Gemini fait différemment

Gemini peut comprendre le contexte, lire le texte à l'intérieur des images, identifier les problèmes de composition et générer des recommandations en langage naturel. Il reçoit les données d'attention des moteurs 1 et 2 comme contexte, puis produit :

Un diagnostic spécifique des problèmes visuels (pas seulement « attention faible », mais « le texte blanc est invisible sur le fond clair »)
Des recommandations basées sur des preuves (en se référant aux données d'attention)
Des coordonnées d'annotation précises pour marquer les zones problématiques

Pourquoi trois moteurs ?

Chaque moteur a des angles morts :

DeepGaze prédit où les gens regardent, mais pas pourquoi ni comment corriger le problème
L'activation cognitive vous indique quels systèmes cérébraux répondent, mais pas sur quels éléments spécifiques
Gemini comprend le contexte et la signification, mais manque de la précision perceptuelle des modèles de saillance spécialisés

Ensemble, ils offrent une vision complète : où se porte l'attention (DeepGaze), comment le cerveau réagit (activation cognitive) et ce qu'il faut faire (Gemini).

Essayez par vous-même

Téléchargez n'importe quelle image sur FlowDx et voyez les trois moteurs à l'œuvre. L'analyse prend environ 30 secondes et coûte 1 crédit.

Références

Linardos, A. et al. (2021). DeepGaze IIE. ICLR 2021.
MIT Saliency Benchmark. saliency.mit.edu.
Bylinskii, Z. et al. (2019). What do different evaluation metrics tell us about saliency models? IEEE TPAMI.
LeDoux, J. E. (2000). Emotion circuits in the brain. Annual Review of Neuroscience.
Kanwisher, N. et al. (1997). The fusiform face area. Journal of Neuroscience.
Miller, E. K., & Cohen, J. D. (2001). An integrative theory of prefrontal cortex function. Annual Review of Neuroscience.
Google DeepMind. Gemini.