كيف يعمل تحليل المحتوى بالذكاء الاصطناعي: التكنولوجيا الكامنة وراء التنبؤ بالانتباه

عندما تقوم برفع صورة إلى FlowDx، تقوم ثلاثة أنظمة ذكاء اصطناعي بتحليلها في وقت واحد. إليك ما يحدث بالفعل في الكواليس — بعيداً عن لغة التسويق، وبتركيز على الواقع التقني.

المحرك الأول: التنبؤ بالانتباه (DeepGaze IIE)

يتم إنشاء الخريطة الحرارية للانتباه بواسطة DeepGaze IIE، الذي تم تطويره في مختبر Bethge بجامعة University of Tübingen. وهو النموذج المصنف في المرتبة الأولى في MIT Saliency Benchmark.

كيف يعمل

يعتمد DeepGaze IIE على شبكتين عصبيتين مدربتين مسبقاً (DenseNet-201 و ResNeXt-50) تقومان باستخراج الميزات البصرية بمقاييس متعددة. ثم يتم دمج هذه الميزات من خلال طبقات قراءة (readout layers) متعلمة تتنبأ بخرائط احتمالية تثبيت النظر.

الفكرة الجوهرية: لا يكتفي النموذج باكتشاف المناطق "الساطعة" أو "عالية التباين" فحسب، بل يتعلم تفاعلات الميزات المعقدة التي ترتبط بحركات العين البشرية الفعلية. تأتي بيانات التدريب من مجموعة بيانات تتبع العين الضخمة الخاصة بـ Bylinskii et al. (2019) — وهي آلاف الصور مع بيانات النظر المقابلة لها من مئات المشاركين.

الدقة

يحقق DeepGaze IIE درجة AUC-Judd تبلغ 0.87+ في اختبار MIT، مما يعني أن تنبؤاته ترتبط بقوة بالأماكن التي ينظر إليها البشر فعلياً. وللمقارنة، فإن الحد الأعلى النظري (اتفاق الآراء بين الأشخاص) يبلغ حوالي 0.92.

المحرك الثاني: تحليل التنشيط المعرفي

يقوم هذا المحرك بتقدير كيفية استجابة مناطق الدماغ المختلفة للمحفز البصري، بناءً على نماذج العلوم العصبية الحوسبية للمعالجة البصرية.

الأبعاد الخمسة

القشرة البصرية (V1-V4) — المعالجة البصرية منخفضة المستوى: الحواف، الألوان، والأنسجة. ترتبط بـ "التأثير البصري". تعتمد على العمل التأسيسي لـ Hubel & Wiesel's حول الحقول المستقبلة للقشرة البصرية.
اللوزة الدماغية (Amygdala) — اكتشاف البروز العاطفي. أظهر LeDoux (2000) أن هذا الهيكل يقيم المحتوى العاطفي في غضون 170 مللي ثانية.
الحصين (Hippocampus) — ترميز الذاكرة. أثبت Stern et al. (1996) أن تنشيط الحصين يتنبأ بما إذا كان سيتم تذكر المحفز أم لا.
القشرة أمام الجبهية (Prefrontal Cortex) — اتخاذ القرار وتخطيط العمل. أرسى Miller & Cohen (2001) دور PFC في السلوك الموجه نحو الهدف.
التلفيف المغزلي (FFA) — التعرف على الوجوه والأجسام. اكتشف Kanwisher et al. (1997) هذه المنطقة المتخصصة في الوجوه.

المحرك الثالث: تشخيص Gemini Vision AI

يستخدم المحرك الثالث نموذج Gemini من Google، وهو ذكاء اصطناعي متعدد الوسائط مع تفكير موسع لتحليل الصورة بشكل شامل. على عكس المحركين الأولين (اللذين هما شبكات عصبية متخصصة)، يقوم Gemini بإجراء استدلال بصري عالي المستوى.

ما الذي يفعله Gemini بشكل مختلف

يمكن لـ Gemini فهم السياق، وقراءة النصوص داخل الصور، وتحديد مشكلات التكوين، وإنشاء توصيات بلغة طبيعية. يتلقى بيانات الانتباه من المحركين 1 و 2 كسياق، ثم ينتج:

تشخيص محدد للمشكلات البصرية (ليس فقط "انتباه منخفض" ولكن "النص الأبيض غير مرئي على الخلفية الفاتحة")
توصيات قائمة على الأدلة (بالرجوع إلى بيانات الانتباه)
إحداثيات دقيقة للتعليقات التوضيحية لتحديد مناطق المشكلات

لماذا ثلاثة محركات؟

لكل محرك نقاط ضعف:

يتنبأ DeepGaze بأين ينظر الناس، ولكن ليس لماذا أو كيفية الإصلاح
يخبرك التنشيط المعرفي بأي أنظمة الدماغ تستجيب، ولكن ليس لأي عناصر محددة
يفهم Gemini السياق والمعنى، ولكنه يفتقر إلى الدقة الإدراكية لنماذج البروز البصري المتخصصة

معاً، يقدمون صورة كاملة: أين يذهب الانتباه (DeepGaze)، وكيف يستجيب الدماغ (التنشيط المعرفي)، وماذا تفعل حيال ذلك (Gemini).

جربه بنفسك

قم برفع أي صورة إلى FlowDx وشاهد المحركات الثلاثة وهي تعمل. يستغرق التحليل حوالي 30 ثانية ويكلف رصيداً واحداً (1 credit).

المراجع

Linardos, A. et al. (2021). DeepGaze IIE. ICLR 2021.
MIT Saliency Benchmark. saliency.mit.edu.
Bylinskii, Z. et al. (2019). What do different evaluation metrics tell us about saliency models? IEEE TPAMI.
LeDoux, J. E. (2000). Emotion circuits in the brain. Annual Review of Neuroscience.
Kanwisher, N. et al. (1997). The fusiform face area. Journal of Neuroscience.
Miller, E. K., & Cohen, J. D. (2001). An integrative theory of prefrontal cortex function. Annual Review of Neuroscience.
Google DeepMind. Gemini.