FlowDxに画像をアップロードすると、3つのAIシステムが同時に分析を行います。マーケティング用語を排し、その内部で実際に何が起きているのか、技術的な実態を解説します。
エンジン1:視線予測 (DeepGaze IIE)
アテンションヒートマップは、テュービンゲン大学のBethge Labで開発されたDeepGaze IIEによって生成されます。これはMIT Saliency Benchmarkで第1位にランクされているモデルです。
仕組み
DeepGaze IIEは、2つの学習済みニューラルネットワーク(DenseNet-201およびResNeXt-50)をベースに構築されており、複数のスケールで視覚的特徴を抽出します。これらの特徴は、学習済みの読み出し層(readout layers)を通じて統合され、注視確率マップを予測します。
重要なポイントは、このモデルが単に「明るい」場所や「コントラストが高い」領域を検出しているわけではないということです。実際の人間の眼球運動と相関する複雑な特徴の相互作用を学習しています。学習データには、Bylinskii et al. (2019)による大規模なアイトラッキングデータセット(数百人の参加者による数千枚の画像とそれに対応する視線データ)が使用されています。
精度
DeepGaze IIEはMITベンチマークで0.87以上のAUC-Juddスコアを達成しており、その予測が実際の人間がどこを見るかと強く相関していることを示しています。比較として、理論上の上限(被験者間の一致度)は約0.92です。
エンジン2:認知活性化分析
このエンジンは、視覚処理の計算神経科学モデルに基づき、視覚刺激に対して脳の異なる領域がどのように反応するかを推定します。
5つの次元
- 視覚野 (Visual Cortex, V1-V4) — 低次視覚処理:エッジ、色、テクスチャ。「視覚的インパクト」と相関します。視覚野の受容野に関するHubel & Wieselの基礎研究に基づいています。
- 扁桃体 (Amygdala) — 感情的なサリエンシー(顕著性)の検出。LeDoux (2000)は、この構造が170ミリ秒以内に感情的な内容を評価することを示しました。
- 海馬 (Hippocampus) — 記憶の符号化。Stern et al. (1996)は、海馬の活性化がその刺激が記憶されるかどうかを予測することを実証しました。
- 前頭前皮質 (Prefrontal Cortex) — 意思決定と行動計画。Miller & Cohen (2001)は、目標指向型の行動におけるPFCの役割を確立しました。
- 紡錘状回 (Fusiform, FFA) — 顔と体の認識。Kanwisher et al. (1997)がこの顔選択的な領域を発見しました。
エンジン3:Gemini Vision AI 診断
3番目のエンジンは、GoogleのマルチモーダルAIであるGemini(高度な推論機能を備えたモデル)を使用し、画像を包括的に分析します。専門的なニューラルネットワークである最初の2つのエンジンとは異なり、Geminiは高レベルの視覚的推論を行います。
Gemini独自のアプローチ
Geminiは文脈を理解し、画像内のテキストを読み取り、構図の問題を特定し、自然言語で推奨事項を生成することができます。エンジン1と2からのアテンションデータをコンテキストとして受け取り、以下を生成します。
- 視覚的な問題の具体的な診断(単なる「注目度が低い」ではなく、「明るい背景に対して白いテキストが見えにくい」など)
- エビデンスに基づいた推奨事項(アテンションデータを参照)
- 問題箇所をマークするための正確なアノテーション座標
なぜ3つのエンジンが必要なのか?
各エンジンには死角があります:
- DeepGazeは「どこ」を見るかは予測しますが、「なぜ」か、あるいは「どう修正すべきか」は示しません。
- 認知活性化は「どの脳システム」が反応するかを伝えますが、「どの具体的な要素」に対してかは示しません。
- Geminiは「文脈と意味」を理解しますが、専門的なサリエンシーモデルのような知覚的精度には欠けます。
これらが組み合わさることで、注意がどこに向くか(DeepGaze)、脳がどう反応するか(認知活性化)、そしてそれに対して何をすべきか(Gemini)という完全な全体像を提供します。
実際に試してみる
FlowDxに画像をアップロードして、3つのエンジンが動作する様子を確認してください。分析には約30秒かかり、1クレジットを消費します。
参考文献
- Linardos, A. et al. (2021). DeepGaze IIE. ICLR 2021.
- MIT Saliency Benchmark. saliency.mit.edu.
- Bylinskii, Z. et al. (2019). What do different evaluation metrics tell us about saliency models? IEEE TPAMI.
- LeDoux, J. E. (2000). Emotion circuits in the brain. Annual Review of Neuroscience.
- Kanwisher, N. et al. (1997). The fusiform face area. Journal of Neuroscience.
- Miller, E. K., & Cohen, J. D. (2001). An integrative theory of prefrontal cortex function. Annual Review of Neuroscience.
- Google DeepMind. Gemini.