เมื่อคุณอัปโหลดรูปภาพไปยัง FlowDx ระบบ AI สามระบบจะวิเคราะห์รูปภาพนั้นพร้อมกัน นี่คือสิ่งที่เกิดขึ้นจริงเบื้องหลังการทำงาน — ไม่ใช่แค่คำโฆษณา แต่เป็นความจริงทางเทคนิค
เครื่องยนต์ที่ 1: การทำนายความสนใจ (DeepGaze IIE)
แผนภูมิความร้อนของความสนใจ (Attention heatmap) ถูกสร้างขึ้นโดย DeepGaze IIE ซึ่งพัฒนาที่ Bethge Lab ของ University of Tübingen โดยเป็นโมเดลที่ครองอันดับ 1 ใน MIT Saliency Benchmark
วิธีการทำงาน
DeepGaze IIE ถูกสร้างขึ้นบนโครงข่ายประสาทเทียมที่ผ่านการฝึกฝนมาแล้วสองชุด (DenseNet-201 และ ResNeXt-50) ซึ่งทำหน้าที่ดึงคุณลักษณะทางภาพ (visual features) ในหลายระดับ จากนั้นคุณลักษณะเหล่านี้จะถูกนำมารวมกันผ่านชั้นการอ่านข้อมูล (readout layers) ที่เรียนรู้มาเพื่อทำนายแผนที่ความน่าจะเป็นของการจ้องมอง (fixation probability maps)
ข้อมูลเชิงลึกที่สำคัญ: โมเดลไม่ได้เพียงแค่ตรวจจับบริเวณที่ "สว่าง" หรือ "มีความต่างสีสูง" (contrasty) เท่านั้น แต่มันเรียนรู้การปฏิสัมพันธ์ของคุณลักษณะที่ซับซ้อนซึ่งสอดคล้องกับการเคลื่อนไหวของดวงตามนุษย์จริงๆ ข้อมูลที่ใช้ฝึกฝนมาจากชุดข้อมูลการติดตามดวงตา (eye-tracking) ขนาดใหญ่ของ Bylinskii et al. (2019) ซึ่งประกอบด้วยรูปภาพหลายพันภาพพร้อมข้อมูลการจ้องมองที่สอดคล้องกันจากผู้เข้าร่วมหลายร้อยคน
ความแม่นยำ
DeepGaze IIE ทำคะแนน AUC-Judd ได้มากกว่า 0.87 ในเกณฑ์มาตรฐานของ MIT ซึ่งหมายความว่าการทำนายมีความสัมพันธ์อย่างมากกับจุดที่มนุษย์มองจริงๆ สำหรับการเปรียบเทียบ ขีดจำกัดสูงสุดทางทฤษฎี (ความเห็นพ้องระหว่างบุคคล) อยู่ที่ประมาณ 0.92
เครื่องยนต์ที่ 2: การวิเคราะห์การกระตุ้นทางพุทธิปัญญา (Cognitive Activation Analysis)
เครื่องยนต์นี้จะประมาณการว่าส่วนต่างๆ ของสมองจะตอบสนองต่อสิ่งเร้าทางสายตาอย่างไร โดยอ้างอิงจากโมเดลประสาทวิทยาเชิงคำนวณ (computational neuroscience) ของการประมวลผลภาพ
มิติทั้งห้า
- Visual Cortex (V1-V4) — การประมวลผลภาพระดับต่ำ: เส้นขอบ, สี, พื้นผิว สอดคล้องกับ "ผลกระทบทางสายตา" (visual impact) อ้างอิงจากงานวิจัยพื้นฐานของ Hubel & Wiesel's เกี่ยวกับ receptive fields ของเปลือกสมองส่วนการมองเห็น
- Amygdala — การตรวจจับความโดดเด่นทางอารมณ์ LeDoux (2000) แสดงให้เห็นว่าโครงสร้างนี้ประเมินเนื้อหาทางอารมณ์ภายใน 170 มิลลิวินาที
- Hippocampus — การเข้ารหัสความจำ Stern et al. (1996) สาธิตให้เห็นว่าการกระตุ้นฮิปโปแคมปัสสามารถทำนายได้ว่าสิ่งเร้านั้นจะถูกจดจำหรือไม่
- Prefrontal Cortex — การตัดสินใจและการวางแผนการกระทำ Miller & Cohen (2001) ได้กำหนดบทบาทของ PFC ในพฤติกรรมที่มุ่งเน้นเป้าหมาย
- Fusiform (FFA) — การจดจำใบหน้าและร่างกาย Kanwisher et al. (1997) ค้นพบส่วนที่เลือกตอบสนองต่อใบหน้านี้
เครื่องยนต์ที่ 3: การวินิจฉัยด้วย Gemini Vision AI
เครื่องยนต์ที่สามใช้ Gemini ซึ่งเป็น AI แบบ multimodal ของ Google ที่มีความสามารถในการคิดวิเคราะห์ขั้นสูง (extended thinking) เพื่อวิเคราะห์รูปภาพในภาพรวม แตกต่างจากสองเครื่องยนต์แรก (ที่เป็นโครงข่ายประสาทเทียมเฉพาะทาง) Gemini จะทำการให้เหตุผลทางภาพในระดับสูง
สิ่งที่ Gemini ทำแตกต่างออกไป
Gemini สามารถเข้าใจบริบท อ่านข้อความภายในรูปภาพ ระบุปัญหาด้านองค์ประกอบภาพ และสร้างคำแนะนำเป็นภาษาธรรมชาติ โดยจะได้รับข้อมูลความสนใจจากเครื่องยนต์ที่ 1 และ 2 เป็นบริบท จากนั้นจึงสร้าง:
- การวินิจฉัยปัญหาทางสายตาที่เฉพาะเจาะจง (ไม่ใช่แค่ "ความสนใจต่ำ" แต่เป็น "ข้อความสีขาวมองไม่เห็นเมื่ออยู่บนพื้นหลังสีอ่อน")
- คำแนะนำที่อิงตามหลักฐาน (โดยอ้างอิงจากข้อมูลความสนใจ)
- พิกัดคำอธิบายประกอบที่แม่นยำเพื่อระบุจุดที่เป็นปัญหา
ทำไมต้องมีสามเครื่องยนต์?
แต่ละเครื่องยนต์มีจุดบอด:
- DeepGaze ทำนายว่าคนมองที่ ไหน แต่ไม่ใช่ เพราะอะไร หรือ จะแก้ไขอย่างไร
- การกระตุ้นทางพุทธิปัญญาบอกคุณว่า ระบบสมองส่วนใด ตอบสนอง แต่ไม่ใช่ที่ องค์ประกอบเฉพาะใด
- Gemini เข้าใจ บริบทและความหมาย แต่ขาดความแม่นยำในการรับรู้ของโมเดลความโดดเด่น (saliency models) เฉพาะทาง
เมื่อรวมกัน พวกเขาจะให้ภาพที่สมบูรณ์: ความสนใจไปที่ไหน (DeepGaze), สมองตอบสนองอย่างไร (การกระตุ้นทางพุทธิปัญญา) และควรทำอย่างไรกับมัน (Gemini)
ทดลองด้วยตัวคุณเอง
อัปโหลดรูปภาพใดก็ได้ไปยัง FlowDx และดูการทำงานของทั้งสามเครื่องยนต์ การวิเคราะห์ใช้เวลาประมาณ 30 วินาทีและใช้ 1 เครดิต
เอกสารอ้างอิง
- Linardos, A. et al. (2021). DeepGaze IIE. ICLR 2021.
- MIT Saliency Benchmark. saliency.mit.edu.
- Bylinskii, Z. et al. (2019). What do different evaluation metrics tell us about saliency models? IEEE TPAMI.
- LeDoux, J. E. (2000). Emotion circuits in the brain. Annual Review of Neuroscience.
- Kanwisher, N. et al. (1997). The fusiform face area. Journal of Neuroscience.
- Miller, E. K., & Cohen, J. D. (2001). An integrative theory of prefrontal cortex function. Annual Review of Neuroscience.
- Google DeepMind. Gemini.