注意力科学

AI 內容分析如何運作:注意力預測背後的技術原理

深入探討 AI 如何預測人類在影像中的視覺焦點。從 DeepGaze 神經網路到認知活化建模的技術解析。

當您將圖片上傳到 FlowDx 時,三個 AI 系統會同時進行分析。以下是系統內部的實際運作方式——沒有行銷術語,只有純粹的技術細節。

引擎 1:注意力預測 (DeepGaze IIE)

注意力熱點圖是由圖賓根大學 (University of Tübingen) Bethge Lab 開發的 DeepGaze IIE 所生成。它是 MIT Saliency Benchmark 中排名第一的模型。

運作原理

DeepGaze IIE 建立在兩個預訓練神經網路(DenseNet-201 和 ResNeXt-50)之上,用於提取多尺度的視覺特徵。接著,這些特徵會透過學習過的讀出層 (readout layers) 進行整合,進而預測注視機率圖 (fixation probability maps)。

核心關鍵在於:該模型不只是偵測「明亮」或「高對比」區域,它還學習了與實際人類眼動相關的複雜特徵交互作用。訓練數據來自 Bylinskii et al. (2019) 的龐大眼動追蹤數據集——包含數千張影像以及來自數百名受試者的對應注視數據。

準確度

DeepGaze IIE 在 MIT 基準測試中獲得了 0.87 以上的 AUC-Judd 分數,這意味著其預測結果與人類實際注視的位置高度相關。作為參考,理論上限(受試者間的一致性)約為 0.92。

引擎 2:認知活化分析

此引擎根據視覺處理的計算神經科學模型,估算不同大腦區域對視覺刺激的反應。

五個維度

  • 視覺皮層 (Visual Cortex, V1-V4) — 低階視覺處理:邊緣、顏色、紋理。與「視覺衝擊力」相關。基於 Hubel & Wiesel 對視覺皮層感受野的基礎研究。
  • 杏仁核 (Amygdala) — 情緒顯著性偵測。LeDoux (2000) 指出此結構會在 170 毫秒內評估情緒內容。
  • 海馬迴 (Hippocampus) — 記憶編碼。Stern et al. (1996) 證明海馬迴的活化能預測刺激是否會被記住。
  • 前額葉皮層 (Prefrontal Cortex) — 決策與行動規劃。Miller & Cohen (2001) 確立了前額葉皮層在目標導向行為中的作用。
  • 梭狀臉部區 (Fusiform, FFA) — 臉部與身體辨識。Kanwisher et al. (1997) 發現了這個臉部選擇性區域。

引擎 3:Gemini Vision AI 診斷

第三個引擎使用 Google 的 Gemini 多模態 AI 及其擴展思考能力,對影像進行整體分析。與前兩個引擎(專門的神經網路)不同,Gemini 執行的是高階視覺推理。

Gemini 的獨特之處

Gemini 能夠理解情境、讀取影像中的文字、識別構圖問題,並生成自然語言建議。它接收來自引擎 1 和 2 的注意力數據作為背景資訊,進而產生:

  • 視覺問題的具體診斷(不只是「注意力低」,而是「白色文字在淺色背景下難以辨識」)
  • 實證建議(參考注意力數據)
  • 用於標記問題區域的精確標註座標

為什麼需要三個引擎?

每個引擎都有其盲點:

  • DeepGaze 預測人們看哪裡,但不知道「為什麼」或「如何修復」
  • 認知活化告訴您哪些大腦系統產生反應,但不知道是針對哪些特定元素
  • Gemini 理解情境與意義,但缺乏專門顯著性模型的感知精確度

它們共同提供了一個完整的圖像:注意力流向何處 (DeepGaze)、大腦如何反應(認知活化),以及該如何應對 (Gemini)。

親自體驗

將任何圖片上傳到 FlowDx,即可看到這三個引擎同時運作。分析大約需要 30 秒,並消耗 1 點額度。

參考文獻

用 FlowDx 診斷您的內容

上傳您的縮圖、封面或廣告素材,30 秒獲得 AI 驅動的注意力診斷報告。

免費試用 FlowDx