
Alibaba's Tongyi Lab has released VimRAG, a multimodal RAG framework that uses a memory graph to efficiently navigate massive visual contexts. The system addresses critical limitations in how AI agents handle images and video during multi-step reasoning, offering a graph-based alternative to linear context history.
Para peneliti di Tongyi Lab milik Alibaba Group telah merilis VimRAG, sebuah kerangka kerja Retrieval-Augmented Generation multimodal baru yang dirancang untuk mengatasi keterbatasan besar yang ditimbulkan oleh data visual pada sistem penalaran AI. Kerangka kerja ini memperkenalkan grafik memori terstruktur yang memungkinkan agen AI untuk menavigasi konteks visual yang sangat besar — meliputi gambar, video, dan dokumen multimedia — tanpa tenggelam dalam token atau kehilangan fokus pada hal yang penting.
Peluncuran ini hadir pada titik perubahan yang kritis. Perusahaan dan pengembang berlomba-lomba membangun sistem AI yang dapat bernalar lebih dari sekadar teks, tetapi pendekatan yang ada saat ini menemui jalan buntu begitu tangkapan layar, grafik, rekaman pengawasan, atau gambar produk masuk ke dalam alur kerja. VimRAG mewakili salah satu upaya paling disengaja hingga saat ini untuk menyelesaikan masalah tersebut dari akar arsitekturnya.
Untuk memahami mengapa VimRAG penting, ada baiknya memahami apa yang salah dalam pendekatan saat ini. Sebagian besar agen generasi yang diper augmented dengan pengambilan data saat ini bergantung pada pola perulangan — sering disebut ReAct — di mana model berpikir, mengambil tindakan, mengamati hasilnya, dan kemudian memasukkan seluruh riwayat interaksi tersebut kembali ke langkah berikutnya. Untuk teks, ini bekerja cukup baik. Untuk data visual, ini adalah bencana.
Gambar dan bingkai video mengonsumsi sejumlah besar token relatif terhadap informasi semantik yang mereka bawa untuk setiap kueri tertentu. Seiring bertambahnya riwayat interaksi agen di berbagai langkah penalaran, jendela konteks akan cepat penuh. Mengompresi riwayat tersebut untuk menghemat ruang akan menghilangkan detail visual yang penting. Ini adalah skenario yang merugikan semua pihak.
VimRAG mengatasi hal ini dengan arsitektur yang pada dasarnya berbeda, yang dibangun di sekitar tiga gagasan utama:
Hasil akhirnya adalah agen yang mampu menangani penalaran multi-hop pada kumpulan data visual yang luas tanpa pembengkakan konteks eksponensial yang melumpuhkan pendekatan konvensional.
Waktu peluncuran VimRAG sangat penting. Industri AI telah menghabiskan dua tahun terakhir untuk mengoptimalkan alur kerja RAG untuk kasus penggunaan perusahaan yang banyak menggunakan teks — dokumen hukum, basis pengetahuan dukungan pelanggan, laporan keuangan. Tetapi tantangan selanjutnya tidak dapat dipungkiri adalah multimodal. Pencitraan perawatan kesehatan, log persepsi kendaraan otonom, katalog produk e-commerce, dan kontrol kualitas manufaktur semuanya membutuhkan sistem AI yang dapat bernalar di seluruh informasi visual dan tekstual secara bersamaan.
Jika Anda telah mengikuti liputan kami tentang Kinematika Manusia 3D Tanpa Penanda: Pose2Sim, RTMPose & OpenSim , Anda tahu bahwa janji inti RAG adalah mendasarkan model bahasa besar pada data eksternal nyata untuk mengurangi halusinasi. VimRAG memperluas janji itu ke domain visual tanpa memerlukan perluasan jendela konteks secara paksa — sebuah pendekatan yang akan sangat mahal jika diterapkan dalam skala besar.
Hal ini juga memperintensifkan persaingan di antara perusahaan teknologi besar Tiongkok dalam penelitian AI fundamental. Tongyi Lab milik Alibaba telah secara konsisten membangun kredibilitas di samping para pesaing seperti tim ERNIE milik Baidu dan divisi AI milik ByteDance. VimRAG menambahkan kontribusi yang berarti pada portofolio kontribusi penelitian terbuka lab yang terus berkembang, menyusul rilis sebelumnya seperti seri Qwen dari model bahasa dan visi.
Konsep penggunaan memori berbasis graf bukanlah hal yang sepenuhnya baru dalam penelitian AI. Graf pengetahuan telah lama digunakan dalam pemrosesan bahasa alami, dan penelitian terbaru tentang jaringan saraf graf telah menunjukkan kemampuan penalaran relasional yang kuat. Kontribusi VimRAG adalah kerangka kerja praktis untuk menerapkan memori terstruktur graf secara khusus pada masalah RAG visual.
Pertimbangkan skenario konkret: sebuah agen menganalisis video instruksional berdurasi 30 menit untuk menjawab pertanyaan multi-bagian. Agen ReAct konvensional perlu terus mengembangkan riwayat pengamatannya dengan setiap frame yang diperiksanya. Pada langkah kesepuluh atau kelima belas, konteksnya akan membengkak dengan token visual dari frame sebelumnya yang mungkin sudah tidak relevan lagi.
Grafik memori VimRAG memungkinkan agen untuk "melupakan" secara cerdas — atau lebih tepatnya, menjaga agar informasi tetap dapat diakses tanpa menempati ruang konteks aktif. Agen dapat melompat kembali ke simpul tertentu dalam grafik bila diperlukan, alih-alih membawa setiap pengamatan ke depan secara linier.
Ruang lingkup RAG multimodal telah menarik minat yang besar dari kalangan akademisi dan industri. Para peneliti di lembaga-lembaga seperti Stanford, MIT, dan Microsoft Research telah menerbitkan karya tentang tantangan terkait, termasuk pemahaman visual konteks panjang dan transformer yang diperkaya memori. VimRAG membedakan dirinya dengan menawarkan kerangka kerja lengkap dari ujung ke ujung, bukan solusi parsial untuk satu aspek dari alur kerja.
Para pengamat industri mencatat bahwa keputusan Alibaba untuk merilis penelitian ini secara publik menandakan kepercayaan diri dan keinginan strategis untuk membentuk arah pengembangan perangkat AI multimodal. Bagi para pengembang yang membangun aplikasi yang bergantung pada pemahaman visual — mulai dari kecerdasan dokumen hingga analitik video — VimRAG menawarkan pola arsitektur yang berpotensi transformatif untuk diadopsi atau diadaptasi.
Untuk melihat lebih dalam bagaimana model multimodal berkembang, lihat analisis kami tentang 5 Arsitektur Komputasi AI yang Harus Diketahui Setiap Insinyur di Tahun 2025 .
Beberapa pertanyaan terbuka masih tersisa. Skalabilitas di lingkungan produksi, integrasi dengan model bahasa-visi yang ada seperti GPT-4o dan Qwen-VL, serta tolok ukur latensi dunia nyata akan menentukan apakah VimRAG beralih dari makalah penelitian menjadi standar industri.
Kita dapat mengharapkan iterasi cepat di bidang ini dalam beberapa bulan mendatang. Seiring dengan terus meluasnya jendela konteks—model Gemini Google kini mendukung jutaan token—dapat dikatakan bahwa pendekatan brute-force pada akhirnya akan menyusul. Namun, biaya token, latensi inferensi, dan akurasi penalaran semuanya lebih menguntungkan arsitektur yang lebih cerdas daripada jendela yang lebih besar. Itulah taruhan yang dibuat VimRAG.
Bagi para pengembang dan tim AI yang bekerja dengan data visual dalam skala besar, pesannya jelas: era RAG berbasis teks saja akan segera berakhir. Kerangka kerja seperti VimRAG menandakan bahwa infrastruktur untuk penalaran AI multimodal sejati akhirnya mulai matang — dan Tongyi Lab milik Alibaba bermaksud untuk berada di pusatnya.