AI 內容分析如何運作：注意力預測背後的技術原理

當您將圖片上傳到 FlowDx 時，三個 AI 系統會同時進行分析。以下是系統內部的實際運作方式——沒有行銷術語，只有純粹的技術細節。

引擎 1：注意力預測 (DeepGaze IIE)

注意力熱點圖是由圖賓根大學 (University of Tübingen) Bethge Lab 開發的 DeepGaze IIE 所生成。它是 MIT Saliency Benchmark 中排名第一的模型。

DeepGaze IIE 建立在兩個預訓練神經網路（DenseNet-201 和 ResNeXt-50）之上，用於提取多尺度的視覺特徵。接著，這些特徵會透過學習過的讀出層 (readout layers) 進行整合，進而預測注視機率圖 (fixation probability maps)。

核心關鍵在於：該模型不只是偵測「明亮」或「高對比」區域，它還學習了與實際人類眼動相關的複雜特徵交互作用。訓練數據來自 Bylinskii et al. (2019) 的龐大眼動追蹤數據集——包含數千張影像以及來自數百名受試者的對應注視數據。

DeepGaze IIE 在 MIT 基準測試中獲得了 0.87 以上的 AUC-Judd 分數，這意味著其預測結果與人類實際注視的位置高度相關。作為參考，理論上限（受試者間的一致性）約為 0.92。

此引擎根據視覺處理的計算神經科學模型，估算不同大腦區域對視覺刺激的反應。

視覺皮層 (Visual Cortex, V1-V4) — 低階視覺處理：邊緣、顏色、紋理。與「視覺衝擊力」相關。基於 Hubel & Wiesel 對視覺皮層感受野的基礎研究。
杏仁核 (Amygdala) — 情緒顯著性偵測。LeDoux (2000) 指出此結構會在 170 毫秒內評估情緒內容。
海馬迴 (Hippocampus) — 記憶編碼。Stern et al. (1996) 證明海馬迴的活化能預測刺激是否會被記住。
前額葉皮層 (Prefrontal Cortex) — 決策與行動規劃。Miller & Cohen (2001) 確立了前額葉皮層在目標導向行為中的作用。
梭狀臉部區 (Fusiform, FFA) — 臉部與身體辨識。Kanwisher et al. (1997) 發現了這個臉部選擇性區域。

第三個引擎使用 Google 的 Gemini 多模態 AI 及其擴展思考能力，對影像進行整體分析。與前兩個引擎（專門的神經網路）不同，Gemini 執行的是高階視覺推理。

Gemini 能夠理解情境、讀取影像中的文字、識別構圖問題，並生成自然語言建議。它接收來自引擎 1 和 2 的注意力數據作為背景資訊，進而產生：

每個引擎都有其盲點：

它們共同提供了一個完整的圖像：注意力流向何處 (DeepGaze)、大腦如何反應（認知活化），以及該如何應對 (Gemini)。

將任何圖片上傳到 FlowDx，即可看到這三個引擎同時運作。分析大約需要 30 秒，並消耗 1 點額度。

Linardos, A. et al. (2021). DeepGaze IIE. ICLR 2021.
MIT Saliency Benchmark. saliency.mit.edu.
Bylinskii, Z. et al. (2019). What do different evaluation metrics tell us about saliency models? IEEE TPAMI.
LeDoux, J. E. (2000). Emotion circuits in the brain. Annual Review of Neuroscience.
Kanwisher, N. et al. (1997). The fusiform face area. Journal of Neuroscience.
Miller, E. K., & Cohen, J. D. (2001). An integrative theory of prefrontal cortex function. Annual Review of Neuroscience.
Google DeepMind. Gemini.