Saat Anda mengunggah gambar ke FlowDx, tiga sistem AI menganalisisnya secara bersamaan. Inilah yang sebenarnya terjadi di balik layar — tanpa bahasa pemasaran, hanya realitas teknis.
Mesin 1: Prediksi Atensi (DeepGaze IIE)
Heatmap atensi dihasilkan oleh DeepGaze IIE, yang dikembangkan di Bethge Lab Universitas Tübingen. Ini adalah model peringkat #1 di MIT Saliency Benchmark.
Cara kerjanya
DeepGaze IIE dibangun di atas dua jaringan saraf pra-latih (DenseNet-201 dan ResNeXt-50) yang mengekstrak fitur visual pada berbagai skala. Fitur-fitur ini kemudian digabungkan melalui lapisan readout yang dipelajari untuk memprediksi peta probabilitas fiksasi.
Wawasan utama: model ini tidak hanya mendeteksi area yang "terang" atau "kontras". Ia mempelajari interaksi fitur kompleks yang berkorelasi dengan pergerakan mata manusia yang sebenarnya. Data pelatihannya berasal dari dataset pelacakan mata (eye-tracking) masif milik Bylinskii et al. (2019) — ribuan gambar dengan data tatapan yang sesuai dari ratusan partisipan.
Akurasi
DeepGaze IIE mencapai skor AUC-Judd sebesar 0,87+ pada benchmark MIT, yang berarti prediksinya berkorelasi kuat dengan ke mana manusia sebenarnya melihat. Sebagai perbandingan, batas atas teoretis (kesepakatan antar-subjek) adalah sekitar 0,92.
Mesin 2: Analisis Aktivasi Kognitif
Mesin ini mengestimasi bagaimana berbagai wilayah otak akan merespons stimulus visual, berdasarkan model neurosains komputasional dari pemrosesan visual.
Lima dimensi
- Korteks Visual (V1-V4) — Pemrosesan visual tingkat rendah: tepi, warna, tekstur. Berkorelasi dengan "dampak visual." Berdasarkan karya fundamental Hubel & Wiesel tentang bidang reseptif korteks visual.
- Amigdala — Deteksi saliens emosional. LeDoux (2000) menunjukkan bahwa struktur ini mengevaluasi konten emosional dalam waktu 170 md.
- Hipokampus — Pengodean memori. Stern et al. (1996) mendemonstrasikan bahwa aktivasi hipokampus memprediksi apakah suatu stimulus akan diingat.
- Korteks Prefrontal — Pengambilan keputusan dan perencanaan tindakan. Miller & Cohen (2001) menetapkan peran PFC dalam perilaku yang diarahkan pada tujuan.
- Fusiform (FFA) — Pengenalan wajah dan tubuh. Kanwisher et al. (1997) menemukan wilayah selektif wajah ini.
Mesin 3: Diagnosis AI Gemini Vision
Mesin ketiga menggunakan AI multimodal Gemini dari Google dengan pemikiran mendalam (extended thinking) untuk menganalisis gambar secara holistik. Berbeda dengan dua mesin pertama (yang merupakan jaringan saraf khusus), Gemini melakukan penalaran visual tingkat tinggi.
Apa yang membedakan Gemini
Gemini dapat memahami konteks, membaca teks di dalam gambar, mengidentifikasi masalah komposisi, dan menghasilkan rekomendasi dalam bahasa alami. Ia menerima data atensi dari mesin 1 dan 2 sebagai konteks, lalu menghasilkan:
- Diagnosis spesifik masalah visual (bukan sekadar "atensi rendah" tetapi "teks putih tidak terlihat di latar belakang yang terang")
- Rekomendasi berbasis bukti (merujuk pada data atensi)
- Koordinat anotasi yang presisi untuk menandai area bermasalah
Mengapa Tiga Mesin?
Setiap mesin memiliki titik buta:
- DeepGaze memprediksi di mana orang melihat, tetapi bukan mengapa atau bagaimana cara memperbaikinya
- Aktivasi kognitif memberi tahu Anda sistem otak mana yang merespons, tetapi bukan pada elemen spesifik yang mana
- Gemini memahami konteks dan makna, tetapi kurang memiliki akurasi persepsi seperti model saliens khusus
Bersama-sama, mereka memberikan gambaran yang lengkap: ke mana atensi tertuju (DeepGaze), bagaimana otak merespons (aktivasi kognitif), dan apa yang harus dilakukan (Gemini).
Coba Sendiri
Unggah gambar apa pun ke FlowDx dan lihat ketiga mesin bekerja. Analisis memakan waktu sekitar 30 detik dan membutuhkan 1 kredit.
Referensi
- Linardos, A. et al. (2021). DeepGaze IIE. ICLR 2021.
- MIT Saliency Benchmark. saliency.mit.edu.
- Bylinskii, Z. et al. (2019). What do different evaluation metrics tell us about saliency models? IEEE TPAMI.
- LeDoux, J. E. (2000). Emotion circuits in the brain. Annual Review of Neuroscience.
- Kanwisher, N. et al. (1997). The fusiform face area. Journal of Neuroscience.
- Miller, E. K., & Cohen, J. D. (2001). An integrative theory of prefrontal cortex function. Annual Review of Neuroscience.
- Google DeepMind. Gemini.