OmniTrace:オムニモーダルLLMにおける生成時アトリビューションのための統一フレームワーク

arXiv cs.AI / 2026/4/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • OmniTraceは、生成時にオムニモーダル、デコーダのみLLMが生成する各文を支えるマルチモーダル入力(テキスト、画像、音声、動画のどれか)を特定するための、軽量でモデル非依存のフレームワークとして提案される。
  • 本手法は、因果的なデコーディング過程に対する生成時トレース問題としてアトリビューションを捉え直し、トークン単位のアトリビューション指標(例:注意や勾配ベースのスコア)を、首尾一貫したスパン単位の、モダリティをまたぐ説明へと変換する。
  • トレースされた信号を、確信度で重み付けし、時間的に整合性のある戦略を用いて意味的に意味のあるスパンへ集約することで、再学習や追加の教師なしで、簡潔な支持ソース選択を可能にする。
  • 視覚、音声、動画タスクに関するQwen2.5-OmniおよびMiniCPM-o-4.5での実験により、自身アトリビューションや埋め込みベースのベースラインよりも、より安定して解釈可能なアトリビューションが示される。
  • さらに、複数の基となるトークン単位のアトリビューション指標に対して頑健であることが示されており、構造化された生成時トレースによってマルチモーダルの透明性をスケールできるという考えを支持する。

Abstract

現代のマルチモーダル大規模言語モデル(MLLM)は、テキスト・画像・音声・動画といった入力をインターリーブして与えることで、流暢な応答を生成します。しかし、各生成文を支える入力ソースがどれであるかを特定することは、いまだ解決されていない課題です。既存の帰属(attribution)手法は主として分類設定、固定された予測対象、または単一モダリティのアーキテクチャ向けに設計されており、自律回帰的でデコーダのみのオープンエンドなマルチモーダル生成を行うモデルには自然に拡張できません。私たちは、因果的なデコーディング過程における生成時(generation-time)のトレーシング問題として帰属を定式化する、軽量でモデル非依存のフレームワークであるOmniTraceを提案します。OmniTraceは、注意重みや勾配ベースのスコアといった任意のトークンレベルの信号を、デコーディング中に意味の通ったスパンレベルの、モダリティ横断(cross-modal)な説明へと変換する統一プロトコルを提供します。OmniTraceは、生成された各トークンをマルチモーダル入力へと追跡し、信号を意味的に解釈可能なスパンへ集約し、再学習や教師なしの監督を行うことなく、信頼度重み付きかつ時間的に整合した集約によって簡潔な支持ソースを選択します。Qwen2.5-OmniおよびMiniCPM-o-4.5における、視覚・音声・動画タスクでの評価により、生成を考慮したスパンレベルの帰属は、単純な自己帰属や埋め込みベースのベースラインよりも、より安定して解釈可能な説明を生成し、さらに複数の基盤となる帰属信号に対しても頑健であることが示されます。これらの結果は、帰属を構造化された生成時トレーシング問題として扱うことが、オムニモーダル言語モデルにおける透過性(transparency)のためのスケーラブルな基盤を与えることを示唆しています。