VimRAG: Khung RAG trực quan của Alibaba sử dụng đồ thị bộ nhớ

Alibaba's Tongyi Lab has released VimRAG, a multimodal RAG framework that uses a memory graph to efficiently navigate massive visual contexts. The system addresses critical limitations in how AI agents handle images and video during multi-step reasoning, offering a graph-based alternative to linear context history.

Phòng thí nghiệm Tongyi của Alibaba giải quyết nút thắt cổ chai lớn nhất trong Trí tuệ nhân tạo đa phương thức

Các nhà nghiên cứu tại phòng thí nghiệm Tongyi thuộc tập đoàn Alibaba đã cho ra mắt VimRAG, một khung công nghệ mới được thiết kế để khắc phục những hạn chế nghiêm trọng mà dữ liệu hình ảnh gây ra cho các hệ thống suy luận AI. Khung công nghệ này giới thiệu một đồ thị bộ nhớ có cấu trúc cho phép các tác nhân AI điều hướng trong các ngữ cảnh hình ảnh khổng lồ — bao gồm hình ảnh, video và tài liệu đa phương tiện — mà không bị quá tải hoặc mất dấu những thông tin quan trọng.

Phiên bản này ra mắt vào một thời điểm bước ngoặt quan trọng. Các doanh nghiệp và nhà phát triển đang chạy đua để xây dựng các hệ thống AI có khả năng suy luận không chỉ dựa trên văn bản, nhưng các phương pháp hiện có gặp trở ngại ngay khi dữ liệu gồm ảnh chụp màn hình, biểu đồ, video giám sát hoặc hình ảnh sản phẩm được đưa vào quy trình. VimRAG đại diện cho một trong những nỗ lực có chủ đích nhất từ trước đến nay nhằm giải quyết vấn đề đó tận gốc rễ.

VimRAG thực sự khác biệt ở điểm nào?

Để hiểu tại sao VimRAG lại quan trọng, điều cần thiết là phải hiểu những điểm yếu trong các phương pháp hiện tại. Hầu hết các tác nhân tạo nội dung được hỗ trợ bởi truy xuất hiện nay đều dựa trên một mô hình vòng lặp — thường được gọi là ReAct — trong đó mô hình suy nghĩ, thực hiện một hành động, quan sát kết quả, và sau đó đưa toàn bộ lịch sử tương tác đó trở lại bước tiếp theo. Đối với văn bản, điều này hoạt động khá tốt. Nhưng đối với dữ liệu hình ảnh, đó lại là một thảm họa.

Hình ảnh và khung hình video tiêu tốn một lượng lớn token so với thông tin ngữ nghĩa mà chúng mang lại cho bất kỳ truy vấn nào. Khi lịch sử tương tác của tác nhân tăng lên qua nhiều bước suy luận, cửa sổ ngữ cảnh sẽ nhanh chóng bị đầy. Việc nén lịch sử đó để tiết kiệm không gian sẽ làm mất đi các chi tiết hình ảnh quan trọng. Đó là một tình huống không có lợi cho cả hai bên.

VimRAG giải quyết vấn đề này bằng một kiến trúc hoàn toàn khác biệt, được xây dựng dựa trên ba ý tưởng chính:

  • Cấu trúc đồ thị bộ nhớ: Thay vì duy trì một lịch sử quan sát phẳng, tuyến tính, VimRAG tổ chức thông tin hình ảnh và văn bản được truy xuất thành một đồ thị. Các nút đại diện cho các bằng chứng riêng biệt — một vùng ảnh, một đoạn video, một đoạn văn bản — và các cạnh mã hóa mối quan hệ giữa chúng.
  • Điều hướng có chọn lọc: Thay vì nhồi nhét mọi thứ vào một lời nhắc khổng lồ, khung này cho phép tác nhân duyệt qua đồ thị bộ nhớ một cách chiến lược, chỉ lấy ra những bằng chứng trực quan phù hợp nhất ở mỗi bước suy luận.
  • Bộ nhớ hình ảnh tách rời: Hệ thống tách biệt các mã hình ảnh thô khỏi tóm tắt ngữ nghĩa của chúng, cho phép tác nhân tham chiếu các khái niệm trừu tượng cấp cao khi lập kế hoạch và chỉ đi sâu vào chi tiết cấp độ pixel khi cần thiết.

Kết quả cuối cùng là một tác nhân có khả năng xử lý suy luận đa bước trên các tập dữ liệu hình ảnh rộng lớn mà không gặp phải tình trạng phình to ngữ cảnh theo cấp số nhân vốn làm tê liệt các phương pháp truyền thống.

Vì sao điều này lại quan trọng đối với ngành công nghiệp AI nói chung

Thời điểm ra mắt của VimRAG rất quan trọng. Ngành công nghiệp AI đã dành hai năm qua để tối ưu hóa các quy trình RAG cho các trường hợp sử dụng doanh nghiệp nặng về văn bản — tài liệu pháp lý, cơ sở kiến thức hỗ trợ khách hàng, báo cáo tài chính. Nhưng bước tiến tiếp theo chắc chắn là đa phương thức. Hình ảnh y tế, nhật ký nhận thức của xe tự hành, danh mục sản phẩm thương mại điện tử và kiểm soát chất lượng sản xuất đều yêu cầu các hệ thống AI có khả năng suy luận trên cả thông tin hình ảnh và văn bản cùng một lúc.

Nếu bạn đã theo dõi các bài viết của chúng tôi về Mô phỏng động học 3D con người không cần điểm đánh dấu: Pose2Sim, RTMPose & OpenSim , bạn sẽ biết rằng lời hứa cốt lõi của RAG là dựa trên các mô hình ngôn ngữ lớn vào dữ liệu thực tế, bên ngoài để giảm thiểu ảo giác. VimRAG mở rộng lời hứa đó sang lĩnh vực hình ảnh mà không cần mở rộng cửa sổ ngữ cảnh một cách thô bạo — một cách tiếp cận sẽ cực kỳ tốn kém ở quy mô lớn.

Điều này cũng làm gia tăng sự cạnh tranh giữa các công ty công nghệ lớn của Trung Quốc trong nghiên cứu AI cơ bản. Phòng thí nghiệm Tongyi của Alibaba đã và đang dần xây dựng uy tín bên cạnh các đối thủ như nhóm ERNIE của Baidu và bộ phận AI của ByteDance. VimRAG bổ sung một đóng góp có ý nghĩa vào danh mục các nghiên cứu mở đang phát triển của phòng thí nghiệm, tiếp nối các sản phẩm trước đó như loạt mô hình ngôn ngữ và thị giác Qwen.

Bối cảnh kỹ thuật: Tại sao đồ thị lại vượt trội hơn lịch sử tuyến tính

Khái niệm sử dụng bộ nhớ dựa trên đồ thị không hoàn toàn mới trong nghiên cứu trí tuệ nhân tạo. Đồ thị tri thức từ lâu đã được sử dụng trong xử lý ngôn ngữ tự nhiên, và các nghiên cứu gần đây về mạng nơ-ron đồ thị đã chứng minh khả năng suy luận quan hệ mạnh mẽ. Điều mà VimRAG đóng góp là một khung thực tiễn để áp dụng bộ nhớ có cấu trúc đồ thị cụ thể vào bài toán RAG trực quan.

Hãy xem xét một kịch bản cụ thể: một tác nhân phân tích một video hướng dẫn dài 30 phút để trả lời một câu hỏi nhiều phần. Một tác nhân ReAct thông thường sẽ cần phải liên tục mở rộng lịch sử quan sát của mình với mỗi khung hình mà nó xem xét. Đến bước thứ mười hoặc mười lăm, ngữ cảnh sẽ bị phình to với các mã hình ảnh từ các khung hình trước đó mà có thể không còn liên quan nữa.

Đồ thị bộ nhớ của VimRAG cho phép tác nhân “quên” một cách thông minh — hay nói chính xác hơn, giữ cho thông tin có thể truy cập được mà không chiếm không gian ngữ cảnh hoạt động. Tác nhân có thể quay lại một nút cụ thể trong đồ thị khi cần, thay vì mang theo mọi quan sát một cách tuyến tính.

Các nhà phân tích và nghiên cứu đang nói gì?

Không gian RAG đa phương thức đã thu hút sự quan tâm mạnh mẽ từ cả giới học thuật và công nghiệp. Các nhà nghiên cứu tại các tổ chức như Stanford, MIT và Microsoft Research đã công bố các công trình nghiên cứu về những thách thức liên quan, bao gồm hiểu biết hình ảnh ngữ cảnh dài hạn và các mô hình Transformer được tăng cường bộ nhớ. VimRAG nổi bật nhờ cung cấp một khung làm việc hoàn chỉnh, từ đầu đến cuối, thay vì chỉ là một giải pháp điểm cho một khía cạnh của quy trình.

Các chuyên gia trong ngành nhận định rằng quyết định công bố nghiên cứu này của Alibaba thể hiện sự tự tin và tham vọng chiến lược trong việc định hình hướng đi của các công cụ AI đa phương thức. Đối với các nhà phát triển xây dựng ứng dụng phụ thuộc vào khả năng hiểu hình ảnh — từ phân tích tài liệu đến phân tích video — VimRAG cung cấp một mô hình kiến trúc tiềm năng mang tính đột phá để áp dụng hoặc điều chỉnh.

Để hiểu sâu hơn về sự phát triển của các mô hình đa phương thức, hãy xem bài phân tích của chúng tôi về 5 kiến trúc điện toán AI mà mọi kỹ sư cần biết trong năm 2025 .

Bước tiếp theo của VimRAG và Trí tuệ nhân tạo thị giác là gì?

Vẫn còn một số câu hỏi chưa được giải đáp. Khả năng mở rộng trong môi trường sản xuất, tích hợp với các mô hình ngôn ngữ-hình ảnh hiện có như GPT-4o và Qwen-VL, và các tiêu chuẩn đánh giá độ trễ thực tế sẽ quyết định liệu VimRAG có chuyển từ bài báo nghiên cứu thành tiêu chuẩn ngành hay không.

Hãy kỳ vọng vào sự phát triển nhanh chóng trong lĩnh vực này trong những tháng tới. Khi các cửa sổ ngữ cảnh tiếp tục mở rộng — các mô hình Gemini của Google hiện hỗ trợ hàng triệu token — người ta có thể lập luận rằng các phương pháp vét cạn cuối cùng sẽ bắt kịp. Nhưng chi phí token, độ trễ suy luận và độ chính xác của lập luận đều ủng hộ các kiến trúc thông minh hơn so với các cửa sổ lớn hơn. Đó là điều mà VimRAG đang đặt cược.

Đối với các nhà phát triển và nhóm AI làm việc với dữ liệu hình ảnh ở quy mô lớn, thông điệp rất rõ ràng: kỷ nguyên của RAG chỉ dựa trên văn bản đang kết thúc. Các framework như VimRAG báo hiệu rằng cơ sở hạ tầng cho suy luận AI đa phương thức thực sự cuối cùng cũng bắt đầu trưởng thành — và Tongyi Lab của Alibaba dự định sẽ là trung tâm của quá trình này.

Leave a reply

Follow
Loading

Signing-in 3 seconds...

Signing-up 3 seconds...