Wie KI-Inhaltsanalyse funktioniert: Die Technologie hinter der Aufmerksamkeitsvorhersage

Wenn Sie ein Bild bei FlowDx hochladen, analysieren drei KI-Systeme es gleichzeitig. Hier erfahren Sie, was unter der Haube wirklich passiert – kein Marketing-Sprech, sondern die rein technische Realität.

Engine 1: Aufmerksamkeitsvorhersage (DeepGaze IIE)

Die Aufmerksamkeits-Heatmap wird von DeepGaze IIE generiert, das im Bethge Lab der Universität Tübingen entwickelt wurde. Es ist das auf Platz 1 gelistete Modell im MIT Saliency Benchmark.

Funktionsweise

DeepGaze IIE basiert auf zwei vortrainierten neuronalen Netzen (DenseNet-201 und ResNeXt-50), die visuelle Merkmale auf mehreren Skalen extrahieren. Diese Merkmale werden dann durch gelernte Readout-Layer kombiniert, um Fixationswahrscheinlichkeitskarten (Fixation Probability Maps) vorherzusagen.

Die entscheidende Erkenntnis: Das Modell erkennt nicht nur „helle“ oder „kontrastreiche“ Regionen. Es lernt komplexe Merkmalsinteraktionen, die mit tatsächlichen menschlichen Augenbewegungen korrelieren. Die Trainingsdaten stammen aus dem umfangreichen Eye-Tracking-Datensatz von Bylinskii et al. (2019) – tausende Bilder mit entsprechenden Blickdaten von hunderten Teilnehmern.

Genauigkeit

DeepGaze IIE erreicht einen AUC-Judd-Score von 0,87+ im MIT-Benchmark, was bedeutet, dass seine Vorhersagen stark damit korrelieren, wohin Menschen tatsächlich schauen. Zum Vergleich: Die theoretische Obergrenze (Inter-Subject Agreement) liegt bei etwa 0,92.

Engine 2: Analyse der kognitiven Aktivierung

Diese Engine schätzt basierend auf Modellen der computergestützten Neurowissenschaft zur visuellen Verarbeitung ab, wie verschiedene Hirnregionen auf den visuellen Reiz reagieren würden.

Die fünf Dimensionen

Visueller Kortex (V1-V4) — Visuelle Verarbeitung auf niedriger Ebene: Kanten, Farben, Texturen. Korreliert mit dem „visuellen Impact“. Basierend auf der grundlegenden Arbeit von Hubel & Wiesel zu den rezeptiven Feldern des visuellen Kortex.
Amygdala — Erkennung emotionaler Salienz. LeDoux (2000) zeigte, dass diese Struktur emotionale Inhalte innerhalb von 170 ms auswertet.
Hippocampus — Gedächtniskodierung. Stern et al. (1996) wiesen nach, dass die Aktivierung des Hippocampus vorhersagt, ob ein Reiz im Gedächtnis bleibt.
Präfrontaler Kortex — Entscheidungsfindung und Handlungsplanung. Miller & Cohen (2001) etablierten die Rolle des PFC bei zielgerichtetem Verhalten.
Gyrus fusiformis (FFA) — Gesichts- und Körpererkennung. Kanwisher et al. (1997) entdeckten diese gesichtsselektive Region.

Engine 3: Gemini Vision KI-Diagnose

Die dritte Engine nutzt Googles multimodale KI Gemini mit Extended Thinking, um das Bild ganzheitlich zu analysieren. Im Gegensatz zu den ersten beiden Engines (die spezialisierte neuronale Netze sind) führt Gemini visuelle Schlussfolgerungen auf hoher Ebene durch.

Was Gemini anders macht

Gemini kann Kontexte verstehen, Text in Bildern lesen, Kompositionsprobleme identifizieren und Empfehlungen in natürlicher Sprache generieren. Es erhält die Aufmerksamkeitsdaten der Engines 1 und 2 als Kontext und erstellt daraufhin:

Spezifische Diagnosen visueller Probleme (nicht nur „geringe Aufmerksamkeit“, sondern „der weiße Text ist auf dem hellen Hintergrund unsichtbar“)
Evidenzbasierte Empfehlungen (unter Bezugnahme auf die Aufmerksamkeitsdaten)
Präzise Annotationskoordinaten zur Markierung von Problembereichen

Warum drei Engines?

Jede Engine hat blinde Flecken:

DeepGaze sagt vorher, wohin Menschen schauen, aber nicht warum oder wie man es behebt
Die kognitive Aktivierung verrät, welche Hirnsysteme reagieren, aber nicht auf welche spezifischen Elemente
Gemini versteht Kontext und Bedeutung, aber es fehlt ihm die Wahrnehmungsgenauigkeit spezialisierter Saliency-Modelle

Zusammen ergeben sie ein vollständiges Bild: wohin die Aufmerksamkeit gelenkt wird (DeepGaze), wie das Gehirn reagiert (kognitive Aktivierung) und was dagegen zu tun ist (Gemini).

Probieren Sie es selbst aus

Laden Sie ein beliebiges Bild bei FlowDx hoch und erleben Sie alle drei Engines in Aktion. Die Analyse dauert etwa 30 Sekunden und kostet 1 Credit.

Referenzen

Linardos, A. et al. (2021). DeepGaze IIE. ICLR 2021.
MIT Saliency Benchmark. saliency.mit.edu.
Bylinskii, Z. et al. (2019). What do different evaluation metrics tell us about saliency models? IEEE TPAMI.
LeDoux, J. E. (2000). Emotion circuits in the brain. Annual Review of Neuroscience.
Kanwisher, N. et al. (1997). The fusiform face area. Journal of Neuroscience.
Miller, E. K., & Cohen, J. D. (2001). An integrative theory of prefrontal cortex function. Annual Review of Neuroscience.
Google DeepMind. Gemini.