VimRAG: Az Alibaba Visual RAG keretrendszere memóriagráfokat használ

Alibaba's Tongyi Lab has released VimRAG, a multimodal RAG framework that uses a memory graph to efficiently navigate massive visual contexts. The system addresses critical limitations in how AI agents handle images and video during multi-step reasoning, offering a graph-based alternative to linear context history.

Az Alibaba Tongyi laboratóriuma a multimodális mesterséges intelligencia legnagyobb szűk keresztmetszetét kezeli

Az Alibaba Group Tongyi Labjának kutatói kiadták a VimRAG-ot, egy új, multimodális, visszakereséssel kiterjesztett generációs keretrendszert, amelynek célja, hogy leküzdje a vizuális adatok által a mesterséges intelligencia által létrehozott érvelő rendszerekre rótt korlátokat. A keretrendszer egy strukturált memóriagráfot vezet be, amely lehetővé teszi a mesterséges intelligencia által használt ágensek számára, hogy hatalmas vizuális kontextusokban – képeken, videókon és vegyes médiás dokumentumokon átívelően – navigáljanak anélkül, hogy tokenekbe fulladnának, vagy elveszítenék a fontos dolgok fonalát.

A kiadás egy kritikus fordulóponthoz érkezik. A vállalatok és a fejlesztők versenyeznek olyan mesterséges intelligenciarendszerek létrehozásán, amelyek nem csak szöveg alapján tudnak gondolkodni, de a meglévő megközelítések falba ütköznek abban a pillanatban, amikor a képernyőképek, diagramok, megfigyelőfelvételek vagy termékképek megjelennek a folyamatban. A VimRAG az egyik legátgondoltabb kísérlet arra, hogy ezt a problémát az építészeti gyökerénél oldja meg.

Pontosan mit csinál másképp a VimRAG?

Ahhoz, hogy megértsük, miért fontos a VimRAG, hasznos megérteni, hogy mi a hiba a jelenlegi megközelítésekben. A legtöbb, visszakereséssel kiegészített generáló ágens ma egy ciklusmintára – amelyet gyakran ReAct-nak neveznek – támaszkodik, ahol a modell gondolkodik, végrehajt egy műveletet, megfigyeli az eredményt, majd az interakció teljes előzményét visszatáplálja a következő lépésbe. Szöveg esetén ez meglehetősen jól működik. Vizuális adatok esetén katasztrofális.

A képek és videókeretek hatalmas számú tokent fogyasztanak ahhoz a szemantikai információhoz képest, amelyet egy adott lekérdezés során hordoznak. Ahogy egy ágens interakciós előzményei több gondolkodási lépésen keresztül bővülnek, a kontextus ablak gyorsan megtelik. Az előzmények tömörítése a helytakarékosság érdekében kulcsfontosságú vizuális részleteket távolít el. Ez egy vesztes-vesztes forgatókönyv.

A VimRAG ezt egy alapvetően eltérő architektúrával támadja, amely három fő ötlet köré épül:

  • Memóriagráf szerkezete: A VimRAG a megfigyelések lapos, lineáris előzményeinek nyilvántartása helyett gráfba rendezi a lekért vizuális és szöveges információkat. A csomópontok különálló bizonyítékokat – egy képterületet, egy videoszegmenst, egy szövegrészt – jelölnek, az élek pedig a közöttük lévő kapcsolatokat kódolják.
  • Szelektív navigáció: Ahelyett, hogy mindent egyetlen hatalmas promptba zsúfolna, a keretrendszer lehetővé teszi az ágens számára, hogy stratégiailag haladjon át a memóriagráfon, és minden érvelési lépésben csak a legrelevánsabb vizuális bizonyítékokat húzza ki.
  • Leválasztott vizuális memória: A rendszer elkülöníti a nyers vizuális tokeneket a szemantikai összefoglalásaiktól, lehetővé téve az ágens számára, hogy a tervezés során magas szintű absztrakciókra hivatkozzon, és csak szükség esetén részletezze a pixel szintű részleteket.

A végeredmény egy olyan ágens, amely képes többugrásos érvelést kezelni hatalmas vizuális adathalmazokon anélkül, hogy exponenciális kontextus-túlterhelés érné el a hagyományos megközelítéseket.

Miért fontos ez a szélesebb körű mesterséges intelligenciaipar számára?

A VimRAG megjelenésének időzítése jelentős. Az MI-iparág az elmúlt két évet a szöveg-intenzív vállalati felhasználási esetekhez – jogi dokumentumokhoz, ügyfélszolgálati tudásbázisokhoz, pénzügyi jelentésekhez – optimalizálta a RAG-folyamatokat. De a következő határ tagadhatatlanul multimodális. Az egészségügyi képalkotás, az autonóm járművek észlelési naplói, az e-kereskedelmi termékkatalógusok és a gyártási minőségellenőrzés mind olyan MI-rendszereket igényel, amelyek képesek egyszerre vizuális és szöveges információkon keresztül érvelni.

Ha követted a Markerless 3D Human Kinematics: Pose2Sim, RTMPose és OpenSim című tudósításunkat, akkor tudod, hogy az RAG fő ígérete a nagy nyelvi modellek valós, külső adatokon való alapozása a hallucinációk csökkentése érdekében. A VimRAG ezt az ígéretet kiterjeszti a vizuális tartományra anélkül, hogy a kontextuális ablakok nyers erővel történő kiterjesztésére lenne szükség – ez a megközelítés nagy léptékben megfizethetetlenül drága lenne.

Ez fokozza a versenyt a nagy kínai technológiai cégek között az alapvető mesterséges intelligencia kutatásában. Az Alibaba Tongyi Labja folyamatosan hitelességet épít olyan riválisokkal szemben, mint a Baidu ERNIE csapata és a ByteDance mesterséges intelligencia részlege. A VimRAG jelentős újdonsággal bővíti a laboratórium nyílt kutatási hozzájárulásainak bővülő portfólióját, olyan korábbi kiadásokat követően, mint a Qwen nyelvi és látásmodell-sorozat.

A technikai kontextus: Miért előzik meg a gráfok a lineáris történelmet?

A gráfalapú memória használatának koncepciója nem teljesen új a mesterséges intelligencia kutatásában. A tudásgráfokat régóta használják a természetes nyelvi feldolgozásban, és a gráf neurális hálózatokkal kapcsolatos legújabb kutatások hatékony relációs gondolkodási képességeket mutattak ki. A VimRAG egy gyakorlati keretrendszert kínál a gráf-strukturált memória vizuális RAG-problémára való alkalmazásához.

Vegyünk egy konkrét forgatókönyvet: egy ágens egy 30 perces oktatóvideót elemez, hogy megválaszoljon egy több részből álló kérdést. Egy hagyományos ReAct ágensnek minden egyes megvizsgált képkockával folyamatosan növelnie kellene a megfigyelési előzményeit. A tizedik vagy tizenötödik lépésre a kontextus felduzzad a korábbi képkockákból származó vizuális tokenekkel, amelyek már esetleg nem relevánsak.

A VimRAG memóriagráfja lehetővé teszi az ágens számára az intelligens „felejtést” – vagy pontosabban az információk hozzáférhetővé tételét anélkül, hogy azok aktív kontextusterületet foglalnának el. Az ágens szükség esetén vissza tud ugrani egy adott csomópontra a gráfban, ahelyett, hogy minden megfigyelést lineárisan előre kellene vinnie.

Mit mondanak az elemzők és a kutatók?

A multimodális RAG-terület intenzív érdeklődést váltott ki mind az akadémiai, mind az ipari szférából. Olyan intézmények kutatói, mint a Stanford, az MIT és a Microsoft Research, publikáltak munkákat a kapcsolódó kihívásokkal kapcsolatban, beleértve a hosszú kontextusú vizuális megértést és a memóriával kiterjesztett transzformátorokat. A VimRAG azzal tűnik ki, hogy egy teljes, végponttól végpontig terjedő keretrendszert kínál, nem pedig a folyamat egyetlen aspektusára vonatkozó pontmegoldást.

Az iparági megfigyelők megjegyzik, hogy az Alibaba döntése, miszerint nyilvánosan közzéteszi ezt a kutatást, magabiztosságot és stratégiai vágyat jelez a multimodális mesterséges intelligencia eszközök irányának alakítására. A vizuális megértéstől függő alkalmazásokat fejlesztő fejlesztők számára – a dokumentumintelligenciától a videóelemzésig – a VimRAG egy potenciálisan transzformatív architektúramintát kínál, amelyet átvehetnek vagy adaptálhatnak.

A multimodális modellek fejlődésének mélyebb megértéséhez tekintse meg az 5 mesterséges intelligencia számítási architektúra, amelyet minden mérnöknek ismernie kell 2025-ben című elemzésünket.

Mi következik a VimRAG és a Visual AI számára?

Számos nyitott kérdés maradt. Az éles környezetben való skálázhatóság, a meglévő vizuális nyelvi modellekkel, például a GPT-4o-val és a Qwen-VL-lel való integráció, valamint a valós világbeli késleltetési referenciaértékek fogják meghatározni, hogy a VimRAG a kutatási cikkből ipari szabvány lesz-e.

A következő hónapokban gyors iterációra számíthatunk ezen a területen. Ahogy a kontextuális ablakok folyamatosan bővülnek – a Google Gemini modelljei már több millió tokent támogatnak –, felmerülhet az az érv, hogy a nyers erőn alapuló megközelítések végül utolérik majd őket. De a tokenek költsége, a következtetési késleltetés és az érvelési pontosság mind az intelligensebb architektúrákat részesíti előnyben a nagyobb ablakokkal szemben. Erre fogad a VimRAG.

A vizuális adatokkal nagy mennyiségben dolgozó fejlesztők és MI-csapatok számára az üzenet egyértelmű: a csak szöveges RAG korszaka véget ér. Az olyan keretrendszerek, mint a VimRAG, azt jelzik, hogy a valóban multimodális MI-érvelés infrastruktúrája végre kezd kiforrni – és az Alibaba Tongyi Labja ennek középpontjában kíván állni.

Leave a reply

Follow
Loading

Signing-in 3 seconds...

Signing-up 3 seconds...