注意力科学

การทำงานของการวิเคราะห์เนื้อหาด้วย AI: เทคโนโลยีเบื้องหลังการทำนายความสนใจ

เจาะลึกทางเทคนิคเกี่ยวกับวิธีที่ AI ทำนายจุดที่มนุษย์มองบนรูปภาพ ตั้งแต่โครงข่ายประสาทเทียม DeepGaze ไปจนถึงการจำลองการกระตุ้นทางพุทธิปัญญา (Cognitive Activation)

เมื่อคุณอัปโหลดรูปภาพไปยัง FlowDx ระบบ AI สามระบบจะวิเคราะห์รูปภาพนั้นพร้อมกัน นี่คือสิ่งที่เกิดขึ้นจริงเบื้องหลังการทำงาน — ไม่ใช่แค่คำโฆษณา แต่เป็นความจริงทางเทคนิค

เครื่องยนต์ที่ 1: การทำนายความสนใจ (DeepGaze IIE)

แผนภูมิความร้อนของความสนใจ (Attention heatmap) ถูกสร้างขึ้นโดย DeepGaze IIE ซึ่งพัฒนาที่ Bethge Lab ของ University of Tübingen โดยเป็นโมเดลที่ครองอันดับ 1 ใน MIT Saliency Benchmark

วิธีการทำงาน

DeepGaze IIE ถูกสร้างขึ้นบนโครงข่ายประสาทเทียมที่ผ่านการฝึกฝนมาแล้วสองชุด (DenseNet-201 และ ResNeXt-50) ซึ่งทำหน้าที่ดึงคุณลักษณะทางภาพ (visual features) ในหลายระดับ จากนั้นคุณลักษณะเหล่านี้จะถูกนำมารวมกันผ่านชั้นการอ่านข้อมูล (readout layers) ที่เรียนรู้มาเพื่อทำนายแผนที่ความน่าจะเป็นของการจ้องมอง (fixation probability maps)

ข้อมูลเชิงลึกที่สำคัญ: โมเดลไม่ได้เพียงแค่ตรวจจับบริเวณที่ "สว่าง" หรือ "มีความต่างสีสูง" (contrasty) เท่านั้น แต่มันเรียนรู้การปฏิสัมพันธ์ของคุณลักษณะที่ซับซ้อนซึ่งสอดคล้องกับการเคลื่อนไหวของดวงตามนุษย์จริงๆ ข้อมูลที่ใช้ฝึกฝนมาจากชุดข้อมูลการติดตามดวงตา (eye-tracking) ขนาดใหญ่ของ Bylinskii et al. (2019) ซึ่งประกอบด้วยรูปภาพหลายพันภาพพร้อมข้อมูลการจ้องมองที่สอดคล้องกันจากผู้เข้าร่วมหลายร้อยคน

ความแม่นยำ

DeepGaze IIE ทำคะแนน AUC-Judd ได้มากกว่า 0.87 ในเกณฑ์มาตรฐานของ MIT ซึ่งหมายความว่าการทำนายมีความสัมพันธ์อย่างมากกับจุดที่มนุษย์มองจริงๆ สำหรับการเปรียบเทียบ ขีดจำกัดสูงสุดทางทฤษฎี (ความเห็นพ้องระหว่างบุคคล) อยู่ที่ประมาณ 0.92

เครื่องยนต์ที่ 2: การวิเคราะห์การกระตุ้นทางพุทธิปัญญา (Cognitive Activation Analysis)

เครื่องยนต์นี้จะประมาณการว่าส่วนต่างๆ ของสมองจะตอบสนองต่อสิ่งเร้าทางสายตาอย่างไร โดยอ้างอิงจากโมเดลประสาทวิทยาเชิงคำนวณ (computational neuroscience) ของการประมวลผลภาพ

มิติทั้งห้า

  • Visual Cortex (V1-V4) — การประมวลผลภาพระดับต่ำ: เส้นขอบ, สี, พื้นผิว สอดคล้องกับ "ผลกระทบทางสายตา" (visual impact) อ้างอิงจากงานวิจัยพื้นฐานของ Hubel & Wiesel's เกี่ยวกับ receptive fields ของเปลือกสมองส่วนการมองเห็น
  • Amygdala — การตรวจจับความโดดเด่นทางอารมณ์ LeDoux (2000) แสดงให้เห็นว่าโครงสร้างนี้ประเมินเนื้อหาทางอารมณ์ภายใน 170 มิลลิวินาที
  • Hippocampus — การเข้ารหัสความจำ Stern et al. (1996) สาธิตให้เห็นว่าการกระตุ้นฮิปโปแคมปัสสามารถทำนายได้ว่าสิ่งเร้านั้นจะถูกจดจำหรือไม่
  • Prefrontal Cortex — การตัดสินใจและการวางแผนการกระทำ Miller & Cohen (2001) ได้กำหนดบทบาทของ PFC ในพฤติกรรมที่มุ่งเน้นเป้าหมาย
  • Fusiform (FFA) — การจดจำใบหน้าและร่างกาย Kanwisher et al. (1997) ค้นพบส่วนที่เลือกตอบสนองต่อใบหน้านี้

เครื่องยนต์ที่ 3: การวินิจฉัยด้วย Gemini Vision AI

เครื่องยนต์ที่สามใช้ Gemini ซึ่งเป็น AI แบบ multimodal ของ Google ที่มีความสามารถในการคิดวิเคราะห์ขั้นสูง (extended thinking) เพื่อวิเคราะห์รูปภาพในภาพรวม แตกต่างจากสองเครื่องยนต์แรก (ที่เป็นโครงข่ายประสาทเทียมเฉพาะทาง) Gemini จะทำการให้เหตุผลทางภาพในระดับสูง

สิ่งที่ Gemini ทำแตกต่างออกไป

Gemini สามารถเข้าใจบริบท อ่านข้อความภายในรูปภาพ ระบุปัญหาด้านองค์ประกอบภาพ และสร้างคำแนะนำเป็นภาษาธรรมชาติ โดยจะได้รับข้อมูลความสนใจจากเครื่องยนต์ที่ 1 และ 2 เป็นบริบท จากนั้นจึงสร้าง:

  • การวินิจฉัยปัญหาทางสายตาที่เฉพาะเจาะจง (ไม่ใช่แค่ "ความสนใจต่ำ" แต่เป็น "ข้อความสีขาวมองไม่เห็นเมื่ออยู่บนพื้นหลังสีอ่อน")
  • คำแนะนำที่อิงตามหลักฐาน (โดยอ้างอิงจากข้อมูลความสนใจ)
  • พิกัดคำอธิบายประกอบที่แม่นยำเพื่อระบุจุดที่เป็นปัญหา

ทำไมต้องมีสามเครื่องยนต์?

แต่ละเครื่องยนต์มีจุดบอด:

  • DeepGaze ทำนายว่าคนมองที่ ไหน แต่ไม่ใช่ เพราะอะไร หรือ จะแก้ไขอย่างไร
  • การกระตุ้นทางพุทธิปัญญาบอกคุณว่า ระบบสมองส่วนใด ตอบสนอง แต่ไม่ใช่ที่ องค์ประกอบเฉพาะใด
  • Gemini เข้าใจ บริบทและความหมาย แต่ขาดความแม่นยำในการรับรู้ของโมเดลความโดดเด่น (saliency models) เฉพาะทาง

เมื่อรวมกัน พวกเขาจะให้ภาพที่สมบูรณ์: ความสนใจไปที่ไหน (DeepGaze), สมองตอบสนองอย่างไร (การกระตุ้นทางพุทธิปัญญา) และควรทำอย่างไรกับมัน (Gemini)

ทดลองด้วยตัวคุณเอง

อัปโหลดรูปภาพใดก็ได้ไปยัง FlowDx และดูการทำงานของทั้งสามเครื่องยนต์ การวิเคราะห์ใช้เวลาประมาณ 30 วินาทีและใช้ 1 เครดิต

เอกสารอ้างอิง

วินิจฉัยเนื้อหาของคุณด้วย FlowDx

อัปโหลดรูปภาพขนาดย่อ หน้าปก หรือสื่อโฆษณาของคุณ เพื่อรับรายงานการวินิจฉัยความสนใจด้วย AI ภายใน 30 วินาที

ทดลองใช้ FlowDx ฟรี