CodeMMR:自然言語・コード・画像を統一検索に橋渡しする
arXiv cs.AI / 2026/4/20
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、コード検索をIRとして捉える枠組み—特にLLMのRAGで用いられるコード検索—がこれまでほぼテキスト中心であり、Webインタフェースやデータ可視化、SVG、図式、UMLなどの視覚・構造要素を十分に扱えていないと指摘しています。
- 著者らは、5つのビジュアル領域、8つのプログラミング言語、11のライブラリにまたがる「MMCoIR」という新しいマルチモーダル・コードIRベンチマークを導入し、課題の難しさを示すための大規模評価を行いました。
- その上で、自然言語・コード・画像を共通の意味空間に同時埋め込みする「CodeMMR」を提案し、指示に基づくマルチモーダル整合によって統一的な検索を実現します。
- CodeMMRはモダリティ間・言語間での汎化が強く、既存ベースライン(UniIR、GME、VLM2Vecなど)を平均でnDCG@10あたり約10ポイント上回り、さらにRAGへの統合で生成の忠実性と未見タスクでの視覚的根拠付けを改善します。
- 研究のためのデータセットはHugging Faceで公開されており、マルチモーダル検索を次世代のプログラミング支援に活かす取り組みを後押しします。


