注意力科学

Yapay Zeka İçerik Analizi Nasıl Çalışır: Dikkat Tahmininin Arkasındaki Teknoloji

Yapay zekanın insanların görsellere nereye baktığını nasıl tahmin ettiğine dair teknik bir inceleme. DeepGaze sinir ağlarından bilişsel aktivasyon modellemesine kadar.

FlowDx'e bir görsel yüklediğinizde, üç yapay zeka sistemi onu eş zamanlı olarak analiz eder. İşte işin mutfağında gerçekte neler oluyor — pazarlama dili yok, sadece teknik gerçekler.

Motor 1: Dikkat Tahmini (DeepGaze IIE)

Dikkat ısı haritası, Tübingen Üniversitesi Bethge Lab'de geliştirilen DeepGaze IIE tarafından oluşturulur. Bu model, MIT Saliency Benchmark listesinde 1 numarada yer almaktadır.

Nasıl çalışır?

DeepGaze IIE, görsel özellikleri birden fazla ölçekte çıkaran iki önceden eğitilmiş sinir ağı (DenseNet-201 ve ResNeXt-50) üzerine inşa edilmiştir. Bu özellikler daha sonra fiksasyon (odaklanma) olasılık haritalarını tahmin eden öğrenilmiş okuma katmanları aracılığıyla birleştirilir.

Temel içgörü şudur: Model sadece "parlak" veya "kontrastlı" bölgeleri tespit etmekle kalmaz. Gerçek insan göz hareketleriyle korelasyon gösteren karmaşık özellik etkileşimlerini öğrenir. Eğitim verileri, Bylinskii et al. (2019)'ın devasa göz izleme veri setinden — yüzlerce katılımcıdan gelen ilgili bakış verileriyle birlikte binlerce görselden — gelir.

Doğruluk

DeepGaze IIE, MIT benchmark testinde 0.87+ AUC-Judd puanı elde eder; bu da tahminlerinin gerçek insanların baktığı yerlerle güçlü bir şekilde korele olduğu anlamına gelir. Karşılaştırma yapmak gerekirse, teorik üst sınır (denekler arası fikir birliği) 0.92 civarındadır.

Motor 2: Bilişsel Aktivasyon Analizi

Bu motor, görsel işlemenin hesaplamalı sinirbilim modellerine dayanarak, farklı beyin bölgelerinin görsel uyarana nasıl tepki vereceğini tahmin eder.

Beş boyut

  • Görsel Korteks (V1-V4) — Düşük seviyeli görsel işleme: kenarlar, renkler, dokular. "Görsel etki" ile koreledir. Hubel & Wiesel'in görsel korteks alıcı alanları üzerine yaptığı temel çalışmaya dayanır.
  • Amigdala — Duygusal belirginlik tespiti. LeDoux (2000) bu yapının duygusal içeriği 170 ms içinde değerlendirdiğini göstermiştir.
  • Hipokampus — Bellek kodlama. Stern et al. (1996) hipokampal aktivasyonun bir uyaranın hatırlanıp hatırlanmayacağını tahmin ettiğini kanıtlamıştır.
  • Prefrontal Korteks — Karar verme ve eylem planlama. Miller & Cohen (2001) PFC'nin amaca yönelik davranıştaki rolünü belirlemiştir.
  • Fusiform (FFA) — Yüz ve vücut tanıma. Kanwisher et al. (1997) bu yüze duyarlı bölgeyi keşfetmiştir.

Motor 3: Gemini Vision AI Teşhisi

Üçüncü motor, görseli bütünsel olarak analiz etmek için Google'ın gelişmiş düşünme yeteneğine sahip Gemini multimodal yapay zekasını kullanır. Uzmanlaşmış sinir ağları olan ilk iki motorun aksine Gemini, üst düzey görsel akıl yürütme gerçekleştirir.

Gemini'nin farkı nedir?

Gemini bağlamı anlayabilir, görsellerdeki metinleri okuyabilir, kompozisyon sorunlarını belirleyebilir ve doğal dilde öneriler oluşturabilir. Motor 1 ve 2'den gelen dikkat verilerini bağlam olarak alır ve ardından şunları üretir:

  • Görsel sorunların spesifik teşhisi (sadece "düşük dikkat" değil, "beyaz metin açık renkli arka plan üzerinde görünmüyor" gibi)
  • Kanıta dayalı öneriler (dikkat verilerine atıfta bulunarak)
  • Sorunlu alanları işaretlemek için hassas açıklama koordinatları

Neden Üç Motor?

Her motorun kör noktaları vardır:

  • DeepGaze insanların nereye baktığını tahmin eder ancak nedenini veya nasıl düzeltileceğini söylemez
  • Bilişsel aktivasyon hangi beyin sistemlerinin tepki verdiğini söyler ancak hangi spesifik öğelere olduğunu söylemez
  • Gemini bağlamı ve anlamı anlar ancak uzmanlaşmış belirginlik modellerinin algısal doğruluğuna sahip değildir

Birlikte eksiksiz bir tablo sunarlar: dikkatin nereye gittiği (DeepGaze), beynin nasıl tepki verdiği (bilişsel aktivasyon) ve bu konuda ne yapılması gerektiği (Gemini).

Kendiniz Deneyin

FlowDx'e herhangi bir görsel yükleyin ve üç motorun da iş başında olduğunu görün. Analiz yaklaşık 30 saniye sürer ve 1 krediye mal olur.

Referanslar

İçeriğinizi FlowDx ile Analiz Edin

Küçük resminizi, kapağınızı veya reklam materyalinizi yükleyin, 30 saniye içinde AI destekli dikkat analiz raporu alın.

FlowDx'i Ücretsiz Deneyin