การทำงานของการวิเคราะห์เนื้อหาด้วย AI: เทคโนโลยีเบื้องหลังการทำนายความสนใจ

เมื่อคุณอัปโหลดรูปภาพไปยัง FlowDx ระบบ AI สามระบบจะวิเคราะห์รูปภาพนั้นพร้อมกัน นี่คือสิ่งที่เกิดขึ้นจริงเบื้องหลังการทำงาน — ไม่ใช่แค่คำโฆษณา แต่เป็นความจริงทางเทคนิค

เครื่องยนต์ที่ 1: การทำนายความสนใจ (DeepGaze IIE)

แผนภูมิความร้อนของความสนใจ (Attention heatmap) ถูกสร้างขึ้นโดย DeepGaze IIE ซึ่งพัฒนาที่ Bethge Lab ของ University of Tübingen โดยเป็นโมเดลที่ครองอันดับ 1 ใน MIT Saliency Benchmark

วิธีการทำงาน

DeepGaze IIE ถูกสร้างขึ้นบนโครงข่ายประสาทเทียมที่ผ่านการฝึกฝนมาแล้วสองชุด (DenseNet-201 และ ResNeXt-50) ซึ่งทำหน้าที่ดึงคุณลักษณะทางภาพ (visual features) ในหลายระดับ จากนั้นคุณลักษณะเหล่านี้จะถูกนำมารวมกันผ่านชั้นการอ่านข้อมูล (readout layers) ที่เรียนรู้มาเพื่อทำนายแผนที่ความน่าจะเป็นของการจ้องมอง (fixation probability maps)

ข้อมูลเชิงลึกที่สำคัญ: โมเดลไม่ได้เพียงแค่ตรวจจับบริเวณที่ "สว่าง" หรือ "มีความต่างสีสูง" (contrasty) เท่านั้น แต่มันเรียนรู้การปฏิสัมพันธ์ของคุณลักษณะที่ซับซ้อนซึ่งสอดคล้องกับการเคลื่อนไหวของดวงตามนุษย์จริงๆ ข้อมูลที่ใช้ฝึกฝนมาจากชุดข้อมูลการติดตามดวงตา (eye-tracking) ขนาดใหญ่ของ Bylinskii et al. (2019) ซึ่งประกอบด้วยรูปภาพหลายพันภาพพร้อมข้อมูลการจ้องมองที่สอดคล้องกันจากผู้เข้าร่วมหลายร้อยคน

ความแม่นยำ

DeepGaze IIE ทำคะแนน AUC-Judd ได้มากกว่า 0.87 ในเกณฑ์มาตรฐานของ MIT ซึ่งหมายความว่าการทำนายมีความสัมพันธ์อย่างมากกับจุดที่มนุษย์มองจริงๆ สำหรับการเปรียบเทียบ ขีดจำกัดสูงสุดทางทฤษฎี (ความเห็นพ้องระหว่างบุคคล) อยู่ที่ประมาณ 0.92

เครื่องยนต์ที่ 2: การวิเคราะห์การกระตุ้นทางพุทธิปัญญา (Cognitive Activation Analysis)

เครื่องยนต์นี้จะประมาณการว่าส่วนต่างๆ ของสมองจะตอบสนองต่อสิ่งเร้าทางสายตาอย่างไร โดยอ้างอิงจากโมเดลประสาทวิทยาเชิงคำนวณ (computational neuroscience) ของการประมวลผลภาพ

มิติทั้งห้า

Visual Cortex (V1-V4) — การประมวลผลภาพระดับต่ำ: เส้นขอบ, สี, พื้นผิว สอดคล้องกับ "ผลกระทบทางสายตา" (visual impact) อ้างอิงจากงานวิจัยพื้นฐานของ Hubel & Wiesel's เกี่ยวกับ receptive fields ของเปลือกสมองส่วนการมองเห็น
Amygdala — การตรวจจับความโดดเด่นทางอารมณ์ LeDoux (2000) แสดงให้เห็นว่าโครงสร้างนี้ประเมินเนื้อหาทางอารมณ์ภายใน 170 มิลลิวินาที
Hippocampus — การเข้ารหัสความจำ Stern et al. (1996) สาธิตให้เห็นว่าการกระตุ้นฮิปโปแคมปัสสามารถทำนายได้ว่าสิ่งเร้านั้นจะถูกจดจำหรือไม่
Prefrontal Cortex — การตัดสินใจและการวางแผนการกระทำ Miller & Cohen (2001) ได้กำหนดบทบาทของ PFC ในพฤติกรรมที่มุ่งเน้นเป้าหมาย
Fusiform (FFA) — การจดจำใบหน้าและร่างกาย Kanwisher et al. (1997) ค้นพบส่วนที่เลือกตอบสนองต่อใบหน้านี้

เครื่องยนต์ที่ 3: การวินิจฉัยด้วย Gemini Vision AI

เครื่องยนต์ที่สามใช้ Gemini ซึ่งเป็น AI แบบ multimodal ของ Google ที่มีความสามารถในการคิดวิเคราะห์ขั้นสูง (extended thinking) เพื่อวิเคราะห์รูปภาพในภาพรวม แตกต่างจากสองเครื่องยนต์แรก (ที่เป็นโครงข่ายประสาทเทียมเฉพาะทาง) Gemini จะทำการให้เหตุผลทางภาพในระดับสูง

สิ่งที่ Gemini ทำแตกต่างออกไป

Gemini สามารถเข้าใจบริบท อ่านข้อความภายในรูปภาพ ระบุปัญหาด้านองค์ประกอบภาพ และสร้างคำแนะนำเป็นภาษาธรรมชาติ โดยจะได้รับข้อมูลความสนใจจากเครื่องยนต์ที่ 1 และ 2 เป็นบริบท จากนั้นจึงสร้าง:

การวินิจฉัยปัญหาทางสายตาที่เฉพาะเจาะจง (ไม่ใช่แค่ "ความสนใจต่ำ" แต่เป็น "ข้อความสีขาวมองไม่เห็นเมื่ออยู่บนพื้นหลังสีอ่อน")
คำแนะนำที่อิงตามหลักฐาน (โดยอ้างอิงจากข้อมูลความสนใจ)
พิกัดคำอธิบายประกอบที่แม่นยำเพื่อระบุจุดที่เป็นปัญหา

ทำไมต้องมีสามเครื่องยนต์?

แต่ละเครื่องยนต์มีจุดบอด:

DeepGaze ทำนายว่าคนมองที่ ไหน แต่ไม่ใช่ เพราะอะไร หรือ จะแก้ไขอย่างไร
การกระตุ้นทางพุทธิปัญญาบอกคุณว่า ระบบสมองส่วนใด ตอบสนอง แต่ไม่ใช่ที่ องค์ประกอบเฉพาะใด
Gemini เข้าใจ บริบทและความหมาย แต่ขาดความแม่นยำในการรับรู้ของโมเดลความโดดเด่น (saliency models) เฉพาะทาง

เมื่อรวมกัน พวกเขาจะให้ภาพที่สมบูรณ์: ความสนใจไปที่ไหน (DeepGaze), สมองตอบสนองอย่างไร (การกระตุ้นทางพุทธิปัญญา) และควรทำอย่างไรกับมัน (Gemini)

ทดลองด้วยตัวคุณเอง

อัปโหลดรูปภาพใดก็ได้ไปยัง FlowDx และดูการทำงานของทั้งสามเครื่องยนต์ การวิเคราะห์ใช้เวลาประมาณ 30 วินาทีและใช้ 1 เครดิต

เอกสารอ้างอิง

Linardos, A. et al. (2021). DeepGaze IIE. ICLR 2021.
MIT Saliency Benchmark. saliency.mit.edu.
Bylinskii, Z. et al. (2019). What do different evaluation metrics tell us about saliency models? IEEE TPAMI.
LeDoux, J. E. (2000). Emotion circuits in the brain. Annual Review of Neuroscience.
Kanwisher, N. et al. (1997). The fusiform face area. Journal of Neuroscience.
Miller, E. K., & Cohen, J. D. (2001). An integrative theory of prefrontal cortex function. Annual Review of Neuroscience.
Google DeepMind. Gemini.