要旨: マルチモーダル言語モデル(MLM)が社会的・協働的な場面でますます利用されるようになるにつれ、その視点の取り方(perspective-taking)能力を評価することが重要になっている。既存のベンチマークは主としてテキストベースの短い状況描写(vignettes)や静的なシーン理解に依存しており、可視空間的な視点の取り方(VPT)は十分に検討されていない。そこで本研究では、人間の研究から2つの評価課題を適応する。参照的なコミュニケーションの枠組みにおいてVPTを評価するディレクター課題(Director Task)と、角度の違い(angular disparities)をまたいで視点の取り方を検証する回転図形課題(Rotating Figure Task)である。各課題において、MLMはレベル2のVPTに顕著な欠陥を示す。レベル2のVPTは、自分自身の視点を抑制して他者の視点を採用することを必要とする。これらの結果は、代替の視点を表現し推論するうえでの、現在のMLMの能力に関する重要な限界を明らかにしており、協働的な文脈での利用に対する示唆を与える。
マルチモーダル言語モデルにおける視空間的パースペクティブ・テイキング
arXiv cs.CL / 2026/3/26
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、視空間的文脈におけるマルチモーダル言語モデル(MLM)のパースペクティブ・テイキングが、特にテキストのみのベンチマークや静的シーンのベンチマークと比べて、十分に評価されていないと主張する。
- それは、視空間的パースペクティブ・テイキングを測定するために、2つの適応型評価タスク、ディレクターモード・タスク(参照的コミュニケーション)と回転図形タスク(角度の不一致を変化させる)を導入する。
- これら2つのタスクにおいて、MLMはレベル2 VPTで顕著な弱点を示す。レベル2 VPTは、モデル自身の視点を抑制して他者の視点を採用することに特に関わる。
- 結果は、現在のMLMが代替となる視点を正確に表現し、推論することに苦戦していることを示唆し、社会的・協働的なシナリオでの導入に関する懸念を引き起こす。