OmniTrace:オムニモーダルLLMにおける生成時アトリビューションのための統一フレームワーク
arXiv cs.AI / 2026/4/16
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- OmniTraceは、生成時にオムニモーダル、デコーダのみLLMが生成する各文を支えるマルチモーダル入力(テキスト、画像、音声、動画のどれか)を特定するための、軽量でモデル非依存のフレームワークとして提案される。
- 本手法は、因果的なデコーディング過程に対する生成時トレース問題としてアトリビューションを捉え直し、トークン単位のアトリビューション指標(例:注意や勾配ベースのスコア)を、首尾一貫したスパン単位の、モダリティをまたぐ説明へと変換する。
- トレースされた信号を、確信度で重み付けし、時間的に整合性のある戦略を用いて意味的に意味のあるスパンへ集約することで、再学習や追加の教師なしで、簡潔な支持ソース選択を可能にする。
- 視覚、音声、動画タスクに関するQwen2.5-OmniおよびMiniCPM-o-4.5での実験により、自身アトリビューションや埋め込みベースのベースラインよりも、より安定して解釈可能なアトリビューションが示される。
- さらに、複数の基となるトークン単位のアトリビューション指標に対して頑健であることが示されており、構造化された生成時トレースによってマルチモーダルの透明性をスケールできるという考えを支持する。