
Alibaba's Tongyi Lab has released VimRAG, a multimodal RAG framework that uses a memory graph to efficiently navigate massive visual contexts. The system addresses critical limitations in how AI agents handle images and video during multi-step reasoning, offering a graph-based alternative to linear context history.
أطلق باحثون في مختبر تونغي التابع لمجموعة علي بابا إطار عمل VimRAG، وهو إطار عمل جديد متعدد الوسائط يعتمد على استرجاع البيانات وتوليدها، مصمم للتغلب على القيود الكبيرة التي تفرضها البيانات المرئية على أنظمة الاستدلال بالذكاء الاصطناعي. يقدم هذا الإطار مخططًا بيانيًا منظمًا للذاكرة، يسمح لوكلاء الذكاء الاصطناعي بالتنقل بين سياقات مرئية ضخمة - تشمل الصور والفيديوهات والمستندات متعددة الوسائط - دون التشتت في كثرة الرموز أو فقدان التركيز على المعلومات المهمة.
يأتي هذا الإصدار في لحظة حاسمة. تتسابق الشركات والمطورون لبناء أنظمة ذكاء اصطناعي قادرة على تحليل أكثر من مجرد النصوص، لكن الأساليب الحالية تتعثر بمجرد دخول لقطات الشاشة أو الرسوم البيانية أو لقطات المراقبة أو صور المنتجات إلى عملية المعالجة. يُمثل VimRAG أحد أكثر المحاولات المدروسة لحل هذه المشكلة من جذورها.
لفهم أهمية VimRAG، من المفيد إدراك مواطن الخلل في الأساليب الحالية. تعتمد معظم وكلاء توليد البيانات المعززة بالاسترجاع اليوم على نمط تكراري - يُطلق عليه غالبًا ReAct - حيث يفكر النموذج، ويتخذ إجراءً، ويلاحظ النتيجة، ثم يُعيد إدخال سجل التفاعل بالكامل إلى الخطوة التالية. بالنسبة للنصوص، يُجدي هذا الأسلوب نفعًا إلى حد معقول. أما بالنسبة للبيانات المرئية، فهو كارثي.
تستهلك الصور وإطارات الفيديو عددًا هائلاً من الرموز مقارنةً بالمعلومات الدلالية التي تحملها لأي استعلام. ومع ازدياد سجل تفاعلات المستخدم عبر خطوات استدلال متعددة، تمتلئ نافذة السياق بسرعة. ويؤدي ضغط هذا السجل لتوفير المساحة إلى حذف تفاصيل بصرية بالغة الأهمية. إنه وضع خاسر للجميع.
يتصدى VimRAG لهذا الأمر ببنية مختلفة جذرياً مبنية على ثلاثة أفكار رئيسية:
والنتيجة النهائية هي وجود وكيل يمكنه التعامل مع الاستدلال متعدد القفزات على مجموعات البيانات المرئية المترامية الأطراف دون تضخم السياق الأسي الذي يعيق الأساليب التقليدية.
يُعدّ توقيت إطلاق VimRAG بالغ الأهمية. فقد أمضى قطاع الذكاء الاصطناعي العامين الماضيين في تحسين مسارات RAG لتطبيقات المؤسسات التي تعتمد بشكل كبير على النصوص، مثل المستندات القانونية وقواعد بيانات دعم العملاء والتقارير المالية. لكنّ التحدي الأكبر يكمن بلا شك في تعدد الوسائط. فالتصوير الطبي، وسجلات استشعار المركبات ذاتية القيادة، وقوائم منتجات التجارة الإلكترونية، ومراقبة جودة التصنيع، جميعها تتطلب أنظمة ذكاء اصطناعي قادرة على تحليل المعلومات المرئية والنصية في آنٍ واحد.
إذا كنتم تتابعون تغطيتنا لموضوع " الحركة البشرية ثلاثية الأبعاد بدون علامات: Pose2Sim وRTMPose وOpenSim" ، فأنتم تعلمون أن جوهر تقنية RAG يكمن في ربط نماذج اللغة الضخمة ببيانات خارجية حقيقية للحد من التشويش. ويُوسّع VimRAG هذا الوعد ليشمل المجال المرئي دون الحاجة إلى توسيع نوافذ السياق بشكل مُفرط - وهو أسلوب سيكون مكلفًا للغاية عند استخدامه على نطاق واسع.
يُؤدي هذا أيضًا إلى تكثيف المنافسة بين شركات التكنولوجيا الصينية الكبرى في مجال أبحاث الذكاء الاصطناعي الأساسية. وقد دأب مختبر تونغي التابع لشركة علي بابا على بناء مصداقيته جنبًا إلى جنب مع منافسيه مثل فريق ERNIE التابع لشركة بايدو وقسم الذكاء الاصطناعي في شركة بايت دانس. ويُضيف مشروع VimRAG إضافةً قيّمةً إلى محفظة المختبر المتنامية من المساهمات البحثية المفتوحة، وذلك بعد إصدارات سابقة مثل سلسلة Qwen لنماذج اللغة والرؤية الحاسوبية.
إن مفهوم استخدام الذاكرة القائمة على الرسوم البيانية ليس جديدًا تمامًا في أبحاث الذكاء الاصطناعي. فقد استُخدمت الرسوم البيانية المعرفية منذ زمن طويل في معالجة اللغات الطبيعية، وأظهرت الدراسات الحديثة على الشبكات العصبية الرسومية قدرات استدلالية علائقية قوية. ويُقدّم VimRAG إطارًا عمليًا لتطبيق الذاكرة ذات البنية الرسومية تحديدًا على مشكلة RAG المرئية.
لنفترض سيناريو محددًا: وكيل يحلل فيديو تعليميًا مدته 30 دقيقة للإجابة على سؤال متعدد الأجزاء. سيحتاج وكيل ReAct التقليدي إلى توسيع سجل ملاحظاته مع كل إطار يفحصه. وبحلول الخطوة العاشرة أو الخامسة عشرة، يصبح السياق متضخمًا برموز بصرية من إطارات سابقة قد لا تكون ذات صلة.
يُمكّن مخطط الذاكرة في VimRAG العامل من "النسيان" بذكاء، أو بتعبير أدق، من إبقاء المعلومات متاحة دون أن تشغل حيزًا من سياق العمل النشط. يستطيع العامل العودة إلى عقدة محددة في المخطط عند الحاجة، بدلًا من نقل كل ملاحظة بشكل خطي.
استقطب مجال RAG متعدد الوسائط اهتمامًا بالغًا من الأوساط الأكاديمية والصناعية على حد سواء. وقد نشر باحثون من مؤسسات مرموقة مثل ستانفورد ومعهد ماساتشوستس للتكنولوجيا ومايكروسوفت للأبحاث دراساتٍ حول تحدياتٍ ذات صلة، بما في ذلك فهم السياق البصري الطويل النطاق والمحولات المُعززة بالذاكرة. يتميز VimRAG بتقديمه إطار عمل متكامل وشامل، بدلًا من حلول جزئية تُعنى بجانبٍ واحد من مسار المعالجة.
يُشير مراقبو الصناعة إلى أن قرار علي بابا بنشر هذا البحث علنًا يُظهر ثقةً ورغبةً استراتيجيةً في توجيه مسار أدوات الذكاء الاصطناعي متعددة الوسائط. بالنسبة للمطورين الذين يبنون تطبيقات تعتمد على الفهم البصري - بدءًا من ذكاء المستندات وصولًا إلى تحليلات الفيديو - يُقدّم VimRAG نمطًا معماريًا ذا إمكانات تحويلية يُمكن تبنّيه أو تكييفه.
للحصول على نظرة أعمق حول كيفية تطور النماذج متعددة الوسائط، اطلع على تحليلنا لـ 5 بنى حوسبة الذكاء الاصطناعي التي يجب على كل مهندس معرفتها في عام 2025 .
لا تزال هناك عدة أسئلة مفتوحة. ستحدد قابلية التوسع في بيئات الإنتاج، والتكامل مع نماذج لغة الرؤية الحالية مثل GPT-4o و Qwen-VL، ومعايير زمن الاستجابة في العالم الحقيقي ما إذا كان VimRAG سينتقل من ورقة بحثية إلى معيار صناعي.
من المتوقع أن نشهد تطورًا سريعًا في هذا المجال خلال الأشهر القادمة. ومع استمرار توسع نطاقات السياق - حيث تدعم نماذج Gemini من جوجل الآن ملايين الرموز - يمكن القول إن أساليب البحث الشامل ستلحق بالركب في نهاية المطاف. لكن تكلفة الرموز، وزمن استجابة الاستدلال، ودقة التفكير، كلها عوامل تُرجّح كفة البنى الأكثر ذكاءً على حساب النطاقات الأوسع. هذا هو رهان VimRAG.
بالنسبة للمطورين وفرق الذكاء الاصطناعي الذين يعملون مع البيانات المرئية على نطاق واسع، فالرسالة واضحة: لقد ولّى عهد أنظمة RAG النصية فقط. تشير أطر عمل مثل VimRAG إلى أن البنية التحتية اللازمة للاستدلال متعدد الوسائط في الذكاء الاصطناعي بدأت تنضج أخيرًا، ويعتزم مختبر تونغي التابع لشركة علي بابا أن يكون في قلب هذا التطور.