AI 콘텐츠 분석의 원리: 시선 예측 기술의 이면

FlowDx에 이미지를 업로드하면 세 가지 AI 시스템이 동시에 분석을 시작합니다. 마케팅 용어를 배제하고, 기술적인 관점에서 실제로 내부적으로 어떤 일이 일어나는지 설명해 드립니다.

엔진 1: 시선 예측 (DeepGaze IIE)

시선 히트맵은 University of Tübingen의 Bethge Lab에서 개발한 DeepGaze IIE를 통해 생성됩니다. 이 모델은 MIT Saliency Benchmark에서 1위를 기록하고 있는 모델입니다.

작동 원리

DeepGaze IIE는 다양한 스케일에서 시각적 특징을 추출하는 두 개의 사전 학습된 신경망(DenseNet-201 및 ResNeXt-50)을 기반으로 구축되었습니다. 이러한 특징들은 학습된 판독 레이어(readout layers)를 통해 결합되어 시선 고정 확률 맵(fixation probability maps)을 예측합니다.

핵심 원리는 단순히 "밝은" 부분이나 "대조가 강한" 영역을 찾는 것이 아니라는 점입니다. 이 모델은 실제 인간의 안구 운동과 상관관계가 있는 복잡한 특징 간의 상호작용을 학습합니다. 학습 데이터는 Bylinskii et al. (2019)의 방대한 아이트래킹 데이터셋을 사용하며, 여기에는 수백 명의 참가자로부터 얻은 수천 장의 이미지와 그에 해당하는 시선 데이터가 포함되어 있습니다.

정확도

DeepGaze IIE는 MIT 벤치마크에서 0.87 이상의 AUC-Judd 점수를 기록하며, 이는 실제 인간이 보는 위치와 예측 결과가 매우 강력한 상관관계를 가짐을 의미합니다. 참고로, 이론적 상한선(피험자 간 일치도)은 약 0.92입니다.

엔진 2: 인지 활성화 분석

이 엔진은 시각 처리 과정에 대한 계산 신경과학 모델을 기반으로, 다양한 뇌 영역이 시각적 자극에 어떻게 반응할지 추정합니다.

5가지 차원

시각 피질 (Visual Cortex, V1-V4) — 저수준 시각 처리: 가장자리, 색상, 질감. "시각적 임팩트"와 상관관계가 있습니다. 시각 피질 수용 영역에 관한 Hubel & Wiesel의 기초 연구를 바탕으로 합니다.
편도체 (Amygdala) — 정서적 두드러짐(salience) 감지. LeDoux (2000)는 이 구조가 170ms 이내에 정서적 콘텐츠를 평가한다는 것을 보여주었습니다.
해마 (Hippocampus) — 기억 인코딩. Stern et al. (1996)은 해마의 활성화가 자극의 기억 여부를 예측한다는 것을 입증했습니다.
전두엽 피질 (Prefrontal Cortex) — 의사 결정 및 행동 계획. Miller & Cohen (2001)은 목표 지향적 행동에서 PFC의 역할을 정립했습니다.
방추상 안면 영역 (Fusiform, FFA) — 얼굴 및 신체 인식. Kanwisher et al. (1997)이 이 얼굴 선택적 영역을 발견했습니다.

엔진 3: Gemini Vision AI 진단

세 번째 엔진은 Google의 Gemini 멀티모달 AI를 사용하여 이미지를 총체적으로 분석합니다. 전문화된 신경망인 처음 두 엔진과 달리, Gemini는 고수준의 시각적 추론을 수행합니다.

Gemini의 차별점

Gemini는 문맥을 이해하고, 이미지 내 텍스트를 읽으며, 구도상의 문제를 식별하고, 자연어로 권장 사항을 생성할 수 있습니다. 엔진 1과 2에서 얻은 시선 데이터를 컨텍스트로 받아 다음과 같은 결과를 도출합니다.

시각적 문제에 대한 구체적인 진단 (단순히 "주의도 낮음"이 아니라 "밝은 배경에서 흰색 텍스트가 보이지 않음" 등)
근거 기반 권장 사항 (시선 데이터 참조)
문제 영역을 표시하기 위한 정밀한 주석 좌표

왜 세 가지 엔진인가요?

각 엔진에는 사각지대가 있기 때문입니다.

DeepGaze는 사람들이 어디를 보는지 예측하지만, 왜 보는지 또는 어떻게 수정해야 하는지는 알려주지 않습니다.
인지 활성화는 어떤 뇌 시스템이 반응하는지 알려주지만, 어떤 구체적인 요소에 반응하는지는 알려주지 않습니다.
Gemini는 문맥과 의미를 이해하지만, 전문화된 살리언시(saliency) 모델만큼의 지각적 정확도는 부족합니다.

이 세 가지가 합쳐져 전체적인 그림을 완성합니다. 시선이 어디로 향하는지(DeepGaze), 뇌가 어떻게 반응하는지(인지 활성화), 그리고 무엇을 해야 하는지(Gemini)를 모두 파악할 수 있습니다.

직접 체험해 보세요

FlowDx에 이미지를 업로드하여 세 가지 엔진이 작동하는 모습을 직접 확인해 보세요. 분석에는 약 30초가 소요되며 1 크레딧이 차감됩니다.

참고 문헌

Linardos, A. et al. (2021). DeepGaze IIE. ICLR 2021.
MIT Saliency Benchmark. saliency.mit.edu.
Bylinskii, Z. et al. (2019). What do different evaluation metrics tell us about saliency models? IEEE TPAMI.
LeDoux, J. E. (2000). Emotion circuits in the brain. Annual Review of Neuroscience.
Kanwisher, N. et al. (1997). The fusiform face area. Journal of Neuroscience.
Miller, E. K., & Cohen, J. D. (2001). An integrative theory of prefrontal cortex function. Annual Review of Neuroscience.
Google DeepMind. Gemini.