Cara Kerja Analisis Konten AI: Teknologi di Balik Prediksi Atensi

Saat Anda mengunggah gambar ke FlowDx, tiga sistem AI menganalisisnya secara bersamaan. Inilah yang sebenarnya terjadi di balik layar — tanpa bahasa pemasaran, hanya realitas teknis.

Mesin 1: Prediksi Atensi (DeepGaze IIE)

Heatmap atensi dihasilkan oleh DeepGaze IIE, yang dikembangkan di Bethge Lab Universitas Tübingen. Ini adalah model peringkat #1 di MIT Saliency Benchmark.

Cara kerjanya

DeepGaze IIE dibangun di atas dua jaringan saraf pra-latih (DenseNet-201 dan ResNeXt-50) yang mengekstrak fitur visual pada berbagai skala. Fitur-fitur ini kemudian digabungkan melalui lapisan readout yang dipelajari untuk memprediksi peta probabilitas fiksasi.

Wawasan utama: model ini tidak hanya mendeteksi area yang "terang" atau "kontras". Ia mempelajari interaksi fitur kompleks yang berkorelasi dengan pergerakan mata manusia yang sebenarnya. Data pelatihannya berasal dari dataset pelacakan mata (eye-tracking) masif milik Bylinskii et al. (2019) — ribuan gambar dengan data tatapan yang sesuai dari ratusan partisipan.

Akurasi

DeepGaze IIE mencapai skor AUC-Judd sebesar 0,87+ pada benchmark MIT, yang berarti prediksinya berkorelasi kuat dengan ke mana manusia sebenarnya melihat. Sebagai perbandingan, batas atas teoretis (kesepakatan antar-subjek) adalah sekitar 0,92.

Mesin 2: Analisis Aktivasi Kognitif

Mesin ini mengestimasi bagaimana berbagai wilayah otak akan merespons stimulus visual, berdasarkan model neurosains komputasional dari pemrosesan visual.

Lima dimensi

Korteks Visual (V1-V4) — Pemrosesan visual tingkat rendah: tepi, warna, tekstur. Berkorelasi dengan "dampak visual." Berdasarkan karya fundamental Hubel & Wiesel tentang bidang reseptif korteks visual.
Amigdala — Deteksi saliens emosional. LeDoux (2000) menunjukkan bahwa struktur ini mengevaluasi konten emosional dalam waktu 170 md.
Hipokampus — Pengodean memori. Stern et al. (1996) mendemonstrasikan bahwa aktivasi hipokampus memprediksi apakah suatu stimulus akan diingat.
Korteks Prefrontal — Pengambilan keputusan dan perencanaan tindakan. Miller & Cohen (2001) menetapkan peran PFC dalam perilaku yang diarahkan pada tujuan.
Fusiform (FFA) — Pengenalan wajah dan tubuh. Kanwisher et al. (1997) menemukan wilayah selektif wajah ini.

Mesin 3: Diagnosis AI Gemini Vision

Mesin ketiga menggunakan AI multimodal Gemini dari Google dengan pemikiran mendalam (extended thinking) untuk menganalisis gambar secara holistik. Berbeda dengan dua mesin pertama (yang merupakan jaringan saraf khusus), Gemini melakukan penalaran visual tingkat tinggi.

Apa yang membedakan Gemini

Gemini dapat memahami konteks, membaca teks di dalam gambar, mengidentifikasi masalah komposisi, dan menghasilkan rekomendasi dalam bahasa alami. Ia menerima data atensi dari mesin 1 dan 2 sebagai konteks, lalu menghasilkan:

Diagnosis spesifik masalah visual (bukan sekadar "atensi rendah" tetapi "teks putih tidak terlihat di latar belakang yang terang")
Rekomendasi berbasis bukti (merujuk pada data atensi)
Koordinat anotasi yang presisi untuk menandai area bermasalah

Mengapa Tiga Mesin?

Setiap mesin memiliki titik buta:

DeepGaze memprediksi di mana orang melihat, tetapi bukan mengapa atau bagaimana cara memperbaikinya
Aktivasi kognitif memberi tahu Anda sistem otak mana yang merespons, tetapi bukan pada elemen spesifik yang mana
Gemini memahami konteks dan makna, tetapi kurang memiliki akurasi persepsi seperti model saliens khusus

Bersama-sama, mereka memberikan gambaran yang lengkap: ke mana atensi tertuju (DeepGaze), bagaimana otak merespons (aktivasi kognitif), dan apa yang harus dilakukan (Gemini).

Coba Sendiri

Unggah gambar apa pun ke FlowDx dan lihat ketiga mesin bekerja. Analisis memakan waktu sekitar 30 detik dan membutuhkan 1 kredit.

Referensi

Linardos, A. et al. (2021). DeepGaze IIE. ICLR 2021.
MIT Saliency Benchmark. saliency.mit.edu.
Bylinskii, Z. et al. (2019). What do different evaluation metrics tell us about saliency models? IEEE TPAMI.
LeDoux, J. E. (2000). Emotion circuits in the brain. Annual Review of Neuroscience.
Kanwisher, N. et al. (1997). The fusiform face area. Journal of Neuroscience.
Miller, E. K., & Cohen, J. D. (2001). An integrative theory of prefrontal cortex function. Annual Review of Neuroscience.
Google DeepMind. Gemini.