リトリーバル拡張生成(RAG)は、大規模言語モデルを外部知識で裏付けるための標準的な手法になりました。しかし、プレーンテキストの域を超えて画像や動画を混ぜ始めると、アプローチ全体が急に崩れ始めます。視覚データはトークン量が多く、特定のクエリに対して意味的にはスパースであり、さらに多段階の[…]の間にすぐに扱いにくくなります。
記事「Alibaba’s Tongyi Lab Releases VimRAG: a Multimodal RAG Framework that Uses a Memory Graph to Navigate Massive Visual Contexts」は、最初にMarkTechPostに掲載されました。



