BERAG:ベイズ的アンサンブルによるリトリーバル拡張生成(知識ベースの視覚質問応答向け)

arXiv cs.CL / 2026/4/27

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文は、通常のRAGが行う「取得した複数文書を1つのコンテキストに連結する」方式では、文書ごとの貢献が見えにくく、特に長いコンテキストや視覚データを含む場合に「lost-in-the-middle(途中で見落とされる)」問題が悪化する点を指摘しています。
  • 提案手法はBERAGで、ベイズ的アンサンブルRAGとして、言語モデルを結合コンテキストではなく各取得文書ごとに条件付けし、生成中にベイズの定理にもとづいて文書の事後確率をトークンごとに更新し、これをアンサンブル重みとして用います。
  • このアプローチは確率的な再ランキング、並列メモリ利用、そして各文書が最終回答に与えた影響の明確な帰属を可能にし、大規模文書コレクションに適していると述べています。
  • 知識ベースの視覚質問応答タスクでBERAGとBEFTを評価した結果、標準RAGに対して大幅な改善が示され、Document VQAやマルチモーダルの「needle-in-a-haystack」ベンチマークで強い伸びが得られました。
  • さらに、文書事後確率を根拠不足の検知に利用して「deflection」を引き起こすこと、また文書プルーニングにより標準RAGより高速にデコードできることも実証しています。