
Alibaba's Tongyi Lab has released VimRAG, a multimodal RAG framework that uses a memory graph to efficiently navigate massive visual contexts. The system addresses critical limitations in how AI agents handle images and video during multi-step reasoning, offering a graph-based alternative to linear context history.
Az Alibaba Group Tongyi Labjának kutatói kiadták a VimRAG-ot, egy új, multimodális, visszakereséssel kiterjesztett generációs keretrendszert, amelynek célja, hogy leküzdje a vizuális adatok által a mesterséges intelligencia által létrehozott érvelő rendszerekre rótt korlátokat. A keretrendszer egy strukturált memóriagráfot vezet be, amely lehetővé teszi a mesterséges intelligencia által használt ágensek számára, hogy hatalmas vizuális kontextusokban – képeken, videókon és vegyes médiás dokumentumokon átívelően – navigáljanak anélkül, hogy tokenekbe fulladnának, vagy elveszítenék a fontos dolgok fonalát.
A kiadás egy kritikus fordulóponthoz érkezik. A vállalatok és a fejlesztők versenyeznek olyan mesterséges intelligenciarendszerek létrehozásán, amelyek nem csak szöveg alapján tudnak gondolkodni, de a meglévő megközelítések falba ütköznek abban a pillanatban, amikor a képernyőképek, diagramok, megfigyelőfelvételek vagy termékképek megjelennek a folyamatban. A VimRAG az egyik legátgondoltabb kísérlet arra, hogy ezt a problémát az építészeti gyökerénél oldja meg.
Ahhoz, hogy megértsük, miért fontos a VimRAG, hasznos megérteni, hogy mi a hiba a jelenlegi megközelítésekben. A legtöbb, visszakereséssel kiegészített generáló ágens ma egy ciklusmintára – amelyet gyakran ReAct-nak neveznek – támaszkodik, ahol a modell gondolkodik, végrehajt egy műveletet, megfigyeli az eredményt, majd az interakció teljes előzményét visszatáplálja a következő lépésbe. Szöveg esetén ez meglehetősen jól működik. Vizuális adatok esetén katasztrofális.
A képek és videókeretek hatalmas számú tokent fogyasztanak ahhoz a szemantikai információhoz képest, amelyet egy adott lekérdezés során hordoznak. Ahogy egy ágens interakciós előzményei több gondolkodási lépésen keresztül bővülnek, a kontextus ablak gyorsan megtelik. Az előzmények tömörítése a helytakarékosság érdekében kulcsfontosságú vizuális részleteket távolít el. Ez egy vesztes-vesztes forgatókönyv.
A VimRAG ezt egy alapvetően eltérő architektúrával támadja, amely három fő ötlet köré épül:
A végeredmény egy olyan ágens, amely képes többugrásos érvelést kezelni hatalmas vizuális adathalmazokon anélkül, hogy exponenciális kontextus-túlterhelés érné el a hagyományos megközelítéseket.
A VimRAG megjelenésének időzítése jelentős. Az MI-iparág az elmúlt két évet a szöveg-intenzív vállalati felhasználási esetekhez – jogi dokumentumokhoz, ügyfélszolgálati tudásbázisokhoz, pénzügyi jelentésekhez – optimalizálta a RAG-folyamatokat. De a következő határ tagadhatatlanul multimodális. Az egészségügyi képalkotás, az autonóm járművek észlelési naplói, az e-kereskedelmi termékkatalógusok és a gyártási minőségellenőrzés mind olyan MI-rendszereket igényel, amelyek képesek egyszerre vizuális és szöveges információkon keresztül érvelni.
Ha követted a Markerless 3D Human Kinematics: Pose2Sim, RTMPose és OpenSim című tudósításunkat, akkor tudod, hogy az RAG fő ígérete a nagy nyelvi modellek valós, külső adatokon való alapozása a hallucinációk csökkentése érdekében. A VimRAG ezt az ígéretet kiterjeszti a vizuális tartományra anélkül, hogy a kontextuális ablakok nyers erővel történő kiterjesztésére lenne szükség – ez a megközelítés nagy léptékben megfizethetetlenül drága lenne.
Ez fokozza a versenyt a nagy kínai technológiai cégek között az alapvető mesterséges intelligencia kutatásában. Az Alibaba Tongyi Labja folyamatosan hitelességet épít olyan riválisokkal szemben, mint a Baidu ERNIE csapata és a ByteDance mesterséges intelligencia részlege. A VimRAG jelentős újdonsággal bővíti a laboratórium nyílt kutatási hozzájárulásainak bővülő portfólióját, olyan korábbi kiadásokat követően, mint a Qwen nyelvi és látásmodell-sorozat.
A gráfalapú memória használatának koncepciója nem teljesen új a mesterséges intelligencia kutatásában. A tudásgráfokat régóta használják a természetes nyelvi feldolgozásban, és a gráf neurális hálózatokkal kapcsolatos legújabb kutatások hatékony relációs gondolkodási képességeket mutattak ki. A VimRAG egy gyakorlati keretrendszert kínál a gráf-strukturált memória vizuális RAG-problémára való alkalmazásához.
Vegyünk egy konkrét forgatókönyvet: egy ágens egy 30 perces oktatóvideót elemez, hogy megválaszoljon egy több részből álló kérdést. Egy hagyományos ReAct ágensnek minden egyes megvizsgált képkockával folyamatosan növelnie kellene a megfigyelési előzményeit. A tizedik vagy tizenötödik lépésre a kontextus felduzzad a korábbi képkockákból származó vizuális tokenekkel, amelyek már esetleg nem relevánsak.
A VimRAG memóriagráfja lehetővé teszi az ágens számára az intelligens „felejtést” – vagy pontosabban az információk hozzáférhetővé tételét anélkül, hogy azok aktív kontextusterületet foglalnának el. Az ágens szükség esetén vissza tud ugrani egy adott csomópontra a gráfban, ahelyett, hogy minden megfigyelést lineárisan előre kellene vinnie.
A multimodális RAG-terület intenzív érdeklődést váltott ki mind az akadémiai, mind az ipari szférából. Olyan intézmények kutatói, mint a Stanford, az MIT és a Microsoft Research, publikáltak munkákat a kapcsolódó kihívásokkal kapcsolatban, beleértve a hosszú kontextusú vizuális megértést és a memóriával kiterjesztett transzformátorokat. A VimRAG azzal tűnik ki, hogy egy teljes, végponttól végpontig terjedő keretrendszert kínál, nem pedig a folyamat egyetlen aspektusára vonatkozó pontmegoldást.
Az iparági megfigyelők megjegyzik, hogy az Alibaba döntése, miszerint nyilvánosan közzéteszi ezt a kutatást, magabiztosságot és stratégiai vágyat jelez a multimodális mesterséges intelligencia eszközök irányának alakítására. A vizuális megértéstől függő alkalmazásokat fejlesztő fejlesztők számára – a dokumentumintelligenciától a videóelemzésig – a VimRAG egy potenciálisan transzformatív architektúramintát kínál, amelyet átvehetnek vagy adaptálhatnak.
A multimodális modellek fejlődésének mélyebb megértéséhez tekintse meg az 5 mesterséges intelligencia számítási architektúra, amelyet minden mérnöknek ismernie kell 2025-ben című elemzésünket.
Számos nyitott kérdés maradt. Az éles környezetben való skálázhatóság, a meglévő vizuális nyelvi modellekkel, például a GPT-4o-val és a Qwen-VL-lel való integráció, valamint a valós világbeli késleltetési referenciaértékek fogják meghatározni, hogy a VimRAG a kutatási cikkből ipari szabvány lesz-e.
A következő hónapokban gyors iterációra számíthatunk ezen a területen. Ahogy a kontextuális ablakok folyamatosan bővülnek – a Google Gemini modelljei már több millió tokent támogatnak –, felmerülhet az az érv, hogy a nyers erőn alapuló megközelítések végül utolérik majd őket. De a tokenek költsége, a következtetési késleltetés és az érvelési pontosság mind az intelligensebb architektúrákat részesíti előnyben a nagyobb ablakokkal szemben. Erre fogad a VimRAG.
A vizuális adatokkal nagy mennyiségben dolgozó fejlesztők és MI-csapatok számára az üzenet egyértelmű: a csak szöveges RAG korszaka véget ér. Az olyan keretrendszerek, mint a VimRAG, azt jelzik, hogy a valóban multimodális MI-érvelés infrastruktúrája végre kezd kiforrni – és az Alibaba Tongyi Labja ennek középpontjában kíván állni.