當您將圖片上傳到 FlowDx 時,三個 AI 系統會同時進行分析。以下是系統內部的實際運作方式——沒有行銷術語,只有純粹的技術細節。
引擎 1:注意力預測 (DeepGaze IIE)
注意力熱點圖是由圖賓根大學 (University of Tübingen) Bethge Lab 開發的 DeepGaze IIE 所生成。它是 MIT Saliency Benchmark 中排名第一的模型。
運作原理
DeepGaze IIE 建立在兩個預訓練神經網路(DenseNet-201 和 ResNeXt-50)之上,用於提取多尺度的視覺特徵。接著,這些特徵會透過學習過的讀出層 (readout layers) 進行整合,進而預測注視機率圖 (fixation probability maps)。
核心關鍵在於:該模型不只是偵測「明亮」或「高對比」區域,它還學習了與實際人類眼動相關的複雜特徵交互作用。訓練數據來自 Bylinskii et al. (2019) 的龐大眼動追蹤數據集——包含數千張影像以及來自數百名受試者的對應注視數據。
準確度
DeepGaze IIE 在 MIT 基準測試中獲得了 0.87 以上的 AUC-Judd 分數,這意味著其預測結果與人類實際注視的位置高度相關。作為參考,理論上限(受試者間的一致性)約為 0.92。
引擎 2:認知活化分析
此引擎根據視覺處理的計算神經科學模型,估算不同大腦區域對視覺刺激的反應。
五個維度
- 視覺皮層 (Visual Cortex, V1-V4) — 低階視覺處理:邊緣、顏色、紋理。與「視覺衝擊力」相關。基於 Hubel & Wiesel 對視覺皮層感受野的基礎研究。
- 杏仁核 (Amygdala) — 情緒顯著性偵測。LeDoux (2000) 指出此結構會在 170 毫秒內評估情緒內容。
- 海馬迴 (Hippocampus) — 記憶編碼。Stern et al. (1996) 證明海馬迴的活化能預測刺激是否會被記住。
- 前額葉皮層 (Prefrontal Cortex) — 決策與行動規劃。Miller & Cohen (2001) 確立了前額葉皮層在目標導向行為中的作用。
- 梭狀臉部區 (Fusiform, FFA) — 臉部與身體辨識。Kanwisher et al. (1997) 發現了這個臉部選擇性區域。
引擎 3:Gemini Vision AI 診斷
第三個引擎使用 Google 的 Gemini 多模態 AI 及其擴展思考能力,對影像進行整體分析。與前兩個引擎(專門的神經網路)不同,Gemini 執行的是高階視覺推理。
Gemini 的獨特之處
Gemini 能夠理解情境、讀取影像中的文字、識別構圖問題,並生成自然語言建議。它接收來自引擎 1 和 2 的注意力數據作為背景資訊,進而產生:
- 視覺問題的具體診斷(不只是「注意力低」,而是「白色文字在淺色背景下難以辨識」)
- 實證建議(參考注意力數據)
- 用於標記問題區域的精確標註座標
為什麼需要三個引擎?
每個引擎都有其盲點:
- DeepGaze 預測人們看哪裡,但不知道「為什麼」或「如何修復」
- 認知活化告訴您哪些大腦系統產生反應,但不知道是針對哪些特定元素
- Gemini 理解情境與意義,但缺乏專門顯著性模型的感知精確度
它們共同提供了一個完整的圖像:注意力流向何處 (DeepGaze)、大腦如何反應(認知活化),以及該如何應對 (Gemini)。
親自體驗
將任何圖片上傳到 FlowDx,即可看到這三個引擎同時運作。分析大約需要 30 秒,並消耗 1 點額度。
參考文獻
- Linardos, A. et al. (2021). DeepGaze IIE. ICLR 2021.
- MIT Saliency Benchmark. saliency.mit.edu.
- Bylinskii, Z. et al. (2019). What do different evaluation metrics tell us about saliency models? IEEE TPAMI.
- LeDoux, J. E. (2000). Emotion circuits in the brain. Annual Review of Neuroscience.
- Kanwisher, N. et al. (1997). The fusiform face area. Journal of Neuroscience.
- Miller, E. K., & Cohen, J. D. (2001). An integrative theory of prefrontal cortex function. Annual Review of Neuroscience.
- Google DeepMind. Gemini.