Cách Phân Tích Nội Dung Bằng AI Hoạt Động: Công Nghệ Đằng Sau Việc Dự Đoán Sự Chú Ý

Khi bạn tải một hình ảnh lên FlowDx, ba hệ thống AI sẽ phân tích nó đồng thời. Dưới đây là những gì thực sự diễn ra bên trong — không phải ngôn ngữ marketing, mà là thực tế kỹ thuật.

Công cụ 1: Dự đoán sự chú ý (DeepGaze IIE)

Bản đồ nhiệt chú ý (attention heatmap) được tạo ra bởi DeepGaze IIE, được phát triển tại Bethge Lab của Đại học Tübingen. Đây là mô hình xếp hạng số 1 trên MIT Saliency Benchmark.

Cách thức hoạt động

DeepGaze IIE được xây dựng dựa trên hai mạng thần kinh đã được huấn luyện trước (DenseNet-201 và ResNeXt-50) nhằm trích xuất các đặc trưng thị giác ở nhiều quy mô khác nhau. Các đặc trưng này sau đó được kết hợp thông qua các lớp readout đã được học để dự đoán bản đồ xác suất điểm nhìn (fixation probability maps).

Điểm mấu chốt: mô hình không chỉ phát hiện các vùng "sáng" hoặc "tương phản". Nó học các tương tác đặc trưng phức tạp có tương quan với chuyển động mắt thực tế của con người. Dữ liệu huấn luyện đến từ bộ dữ liệu theo dõi mắt (eye-tracking) khổng lồ của Bylinskii et al. (2019) — hàng nghìn hình ảnh với dữ liệu ánh nhìn tương ứng từ hàng trăm người tham gia.

Độ chính xác

DeepGaze IIE đạt điểm AUC-Judd từ 0.87 trở lên trên bảng xếp hạng MIT, nghĩa là các dự đoán của nó tương quan mạnh mẽ với vị trí con người thực sự nhìn vào. Để so sánh, giới hạn trên lý thuyết (sự đồng thuận giữa các đối tượng) là khoảng 0.92.

Công cụ 2: Phân tích kích hoạt nhận thức

Công cụ này ước tính cách các vùng não khác nhau phản ứng với kích thích thị giác, dựa trên các mô hình khoa học thần kinh tính toán về xử lý thị giác.

Năm chiều kích

Vỏ não thị giác (V1-V4) — Xử lý thị giác cấp thấp: các cạnh, màu sắc, kết cấu. Tương quan với "tác động thị giác". Dựa trên công trình nền tảng của Hubel & Wiesel về các trường tiếp nhận của vỏ não thị giác.
Hạch hạnh nhân — Phát hiện mức độ nổi bật về cảm xúc. LeDoux (2000) đã chỉ ra rằng cấu trúc này đánh giá nội dung cảm xúc trong vòng 170ms.
Hồi hải mã — Mã hóa trí nhớ. Stern et al. (1996) đã chứng minh rằng sự kích hoạt hồi hải mã dự đoán liệu một kích thích có được ghi nhớ hay không.
Vỏ não trước trán — Ra quyết định và lập kế hoạch hành động. Miller & Cohen (2001) đã thiết lập vai trò của PFC trong hành vi hướng tới mục tiêu.
Vùng mặt hình thoi (FFA) — Nhận dạng khuôn mặt và cơ thể. Kanwisher et al. (1997) đã khám phá ra vùng chọn lọc khuôn mặt này.

Công cụ 3: Chẩn đoán bằng Gemini Vision AI

Công cụ thứ ba sử dụng AI đa phương thức Gemini của Google với khả năng tư duy mở rộng để phân tích hình ảnh một cách toàn diện. Khác với hai công cụ đầu tiên (vốn là các mạng thần kinh chuyên biệt), Gemini thực hiện suy luận thị giác cấp cao.

Điểm khác biệt của Gemini

Gemini có thể hiểu ngữ cảnh, đọc văn bản trong hình ảnh, xác định các vấn đề về bố cục và đưa ra các đề xuất bằng ngôn ngữ tự nhiên. Nó nhận dữ liệu chú ý từ công cụ 1 và 2 làm ngữ cảnh, sau đó tạo ra:

Chẩn đoán cụ thể các vấn đề thị giác (không chỉ là "sự chú ý thấp" mà là "văn bản màu trắng không thể nhìn thấy trên nền sáng")
Các đề xuất dựa trên bằng chứng (tham chiếu dữ liệu chú ý)
Tọa độ chú thích chính xác để đánh dấu các khu vực có vấn đề

Tại sao lại cần ba công cụ?

Mỗi công cụ đều có những điểm mù:

DeepGaze dự đoán nơi mọi người nhìn nhưng không biết tại sao hoặc cách khắc phục
Kích hoạt nhận thức cho bạn biết hệ thống não bộ nào phản ứng nhưng không biết tại các yếu tố cụ thể nào
Gemini hiểu ngữ cảnh và ý nghĩa nhưng thiếu độ chính xác về tri giác của các mô hình độ nổi bật chuyên biệt

Cùng nhau, chúng cung cấp một bức tranh hoàn chỉnh: sự chú ý hướng vào đâu (DeepGaze), não bộ phản ứng như thế nào (kích hoạt nhận thức) và cần phải làm gì với nó (Gemini).

Tự mình trải nghiệm

Tải bất kỳ hình ảnh nào lên FlowDx và xem cả ba công cụ hoạt động. Quá trình phân tích mất khoảng 30 giây và tiêu tốn 1 credit.

Tài liệu tham khảo

Linardos, A. et al. (2021). DeepGaze IIE. ICLR 2021.
MIT Saliency Benchmark. saliency.mit.edu.
Bylinskii, Z. et al. (2019). What do different evaluation metrics tell us about saliency models? IEEE TPAMI.
LeDoux, J. E. (2000). Emotion circuits in the brain. Annual Review of Neuroscience.
Kanwisher, N. et al. (1997). The fusiform face area. Journal of Neuroscience.
Miller, E. K., & Cohen, J. D. (2001). An integrative theory of prefrontal cortex function. Annual Review of Neuroscience.
Google DeepMind. Gemini.