Yapay Zeka İçerik Analizi Nasıl Çalışır: Dikkat Tahmininin Arkasındaki Teknoloji

FlowDx'e bir görsel yüklediğinizde, üç yapay zeka sistemi onu eş zamanlı olarak analiz eder. İşte işin mutfağında gerçekte neler oluyor — pazarlama dili yok, sadece teknik gerçekler.

Motor 1: Dikkat Tahmini (DeepGaze IIE)

Dikkat ısı haritası, Tübingen Üniversitesi Bethge Lab'de geliştirilen DeepGaze IIE tarafından oluşturulur. Bu model, MIT Saliency Benchmark listesinde 1 numarada yer almaktadır.

Nasıl çalışır?

DeepGaze IIE, görsel özellikleri birden fazla ölçekte çıkaran iki önceden eğitilmiş sinir ağı (DenseNet-201 ve ResNeXt-50) üzerine inşa edilmiştir. Bu özellikler daha sonra fiksasyon (odaklanma) olasılık haritalarını tahmin eden öğrenilmiş okuma katmanları aracılığıyla birleştirilir.

Temel içgörü şudur: Model sadece "parlak" veya "kontrastlı" bölgeleri tespit etmekle kalmaz. Gerçek insan göz hareketleriyle korelasyon gösteren karmaşık özellik etkileşimlerini öğrenir. Eğitim verileri, Bylinskii et al. (2019)'ın devasa göz izleme veri setinden — yüzlerce katılımcıdan gelen ilgili bakış verileriyle birlikte binlerce görselden — gelir.

Doğruluk

DeepGaze IIE, MIT benchmark testinde 0.87+ AUC-Judd puanı elde eder; bu da tahminlerinin gerçek insanların baktığı yerlerle güçlü bir şekilde korele olduğu anlamına gelir. Karşılaştırma yapmak gerekirse, teorik üst sınır (denekler arası fikir birliği) 0.92 civarındadır.

Motor 2: Bilişsel Aktivasyon Analizi

Bu motor, görsel işlemenin hesaplamalı sinirbilim modellerine dayanarak, farklı beyin bölgelerinin görsel uyarana nasıl tepki vereceğini tahmin eder.

Beş boyut

Görsel Korteks (V1-V4) — Düşük seviyeli görsel işleme: kenarlar, renkler, dokular. "Görsel etki" ile koreledir. Hubel & Wiesel'in görsel korteks alıcı alanları üzerine yaptığı temel çalışmaya dayanır.
Amigdala — Duygusal belirginlik tespiti. LeDoux (2000) bu yapının duygusal içeriği 170 ms içinde değerlendirdiğini göstermiştir.
Hipokampus — Bellek kodlama. Stern et al. (1996) hipokampal aktivasyonun bir uyaranın hatırlanıp hatırlanmayacağını tahmin ettiğini kanıtlamıştır.
Prefrontal Korteks — Karar verme ve eylem planlama. Miller & Cohen (2001) PFC'nin amaca yönelik davranıştaki rolünü belirlemiştir.
Fusiform (FFA) — Yüz ve vücut tanıma. Kanwisher et al. (1997) bu yüze duyarlı bölgeyi keşfetmiştir.

Motor 3: Gemini Vision AI Teşhisi

Üçüncü motor, görseli bütünsel olarak analiz etmek için Google'ın gelişmiş düşünme yeteneğine sahip Gemini multimodal yapay zekasını kullanır. Uzmanlaşmış sinir ağları olan ilk iki motorun aksine Gemini, üst düzey görsel akıl yürütme gerçekleştirir.

Gemini'nin farkı nedir?

Gemini bağlamı anlayabilir, görsellerdeki metinleri okuyabilir, kompozisyon sorunlarını belirleyebilir ve doğal dilde öneriler oluşturabilir. Motor 1 ve 2'den gelen dikkat verilerini bağlam olarak alır ve ardından şunları üretir:

Görsel sorunların spesifik teşhisi (sadece "düşük dikkat" değil, "beyaz metin açık renkli arka plan üzerinde görünmüyor" gibi)
Kanıta dayalı öneriler (dikkat verilerine atıfta bulunarak)
Sorunlu alanları işaretlemek için hassas açıklama koordinatları

Neden Üç Motor?

Her motorun kör noktaları vardır:

DeepGaze insanların nereye baktığını tahmin eder ancak nedenini veya nasıl düzeltileceğini söylemez
Bilişsel aktivasyon hangi beyin sistemlerinin tepki verdiğini söyler ancak hangi spesifik öğelere olduğunu söylemez
Gemini bağlamı ve anlamı anlar ancak uzmanlaşmış belirginlik modellerinin algısal doğruluğuna sahip değildir

Birlikte eksiksiz bir tablo sunarlar: dikkatin nereye gittiği (DeepGaze), beynin nasıl tepki verdiği (bilişsel aktivasyon) ve bu konuda ne yapılması gerektiği (Gemini).

Kendiniz Deneyin

FlowDx'e herhangi bir görsel yükleyin ve üç motorun da iş başında olduğunu görün. Analiz yaklaşık 30 saniye sürer ve 1 krediye mal olur.

Referanslar

Linardos, A. et al. (2021). DeepGaze IIE. ICLR 2021.
MIT Saliency Benchmark. saliency.mit.edu.
Bylinskii, Z. et al. (2019). What do different evaluation metrics tell us about saliency models? IEEE TPAMI.
LeDoux, J. E. (2000). Emotion circuits in the brain. Annual Review of Neuroscience.
Kanwisher, N. et al. (1997). The fusiform face area. Journal of Neuroscience.
Miller, E. K., & Cohen, J. D. (2001). An integrative theory of prefrontal cortex function. Annual Review of Neuroscience.
Google DeepMind. Gemini.