MISID: 戦略的欺瞞ゲームにおける複雑な意図認識のためのマルチモーダル・マルチターン・データセット

arXiv cs.AI / 2026/4/15

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

MISIDは、戦略的欺瞞ゲームにおける複雑な人間の意図を認識することを目的とした、新しいマルチモーダル・マルチターン・マルチ参加者ベンチマークデータセットとして導入される。従来の単一発話や単純な対話に基づくデータセットの限界に対処するものである。
このデータセットには、長い文脈での談話分析と、長期にわたる相互作用における証拠に基づく因果の追跡のために設計された、きめ細かな二層の多次元アノテーションが含まれる。
MISIDに対する最先端のマルチモーダル・大規模言語モデルの評価では、テキスト優先の視覚ハルシネーション、モーダル間の連携の弱さ、因果的手がかりを連鎖させる能力の限定といった、複雑な状況における主要な弱点が明らかになる。
これらの問題を緩和するために、著者らはFRACTAMを提案する。これは「Decouple-Anchor-Reason（分解・アンカー・推論）」というアプローチを用いるベースラインであり、テキストバイアスを抑えること、長距離の事実アンカーに対して二段階の検索を行うこと、明示的なモーダル間のエビデンス連鎖を構築することを特徴とする。
実験の結果、FRACTAMは複雑な戦略タスクにおける性能を向上させ、頑健な知覚精度を維持しつつ、隠れた意図の検出／推論を強化することが報告されている。データセットはオンラインで公開されている。

要旨: 複雑なマルチターンのやり取りにおける人間の意図を理解することは、人間—コンピュータ相互作用および行動分析において根本的な課題であり続けています。既存の意図認識データセットは主に単一の発話、または単純な対話に焦点を当てていますが、実世界の状況では、参加者が長期間にわたり複雑な欺瞞の物語を維持しなければならないような、洗練された戦略的相互作用がしばしば見られます。このギャップに対処するため、私たちは意図認識のための包括的なマルチモーダル、マルチターン、かつマルチ参加者ベンチマークであるMISIDを提案します。ハイステークスなソーシャル戦略ゲームから収集したMISIDは、長文脈談話分析とエビデンスに基づく因果トラッキングに合わせて設計された、きめの細かい二層の多次元注釈スキームを備えています。MISIDに対して最先端のマルチモーダル大規模言語モデル（MLLM）を体系的に評価したところ、テキスト優先の視覚的幻覚、モーダル間の相乗効果の低下、因果的手がかりの連鎖に対する能力の限界といった、複雑なシナリオにおける重大な欠点が明らかになりました。そこで、私たちはベースライン枠組みとしてFRACTAMを提案します。\`\`Decouple-Anchor-Reason\`\`パラダイムを用いることで、FRACTAMは純粋な単一モダリティの事実表現を抽出しテキストバイアスを低減し、長距離の事実アンカーに対して二段階の検索を採用し、明示的なクロスモーダルのエビデンス連鎖を構築します。大規模な実験により、FRACTAMは複雑な戦略タスクにおいて主流モデルの性能を向上させ、頑健な知覚精度を維持しながら、隠れた意図の検出と推論を改善することが示されます。データセットはhttps://naislab.cn/datasets/MISIDで公開しています。