AI Navigate

ビジョン言語モデルはゲームにおける人間の関与を理解しているのか?

arXiv cs.CV / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、GameVibe Few‑Shot データセットを用いて、9つの一人称視点シューティングゲームにおける3つのビジョン–言語モデルを評価し、視覚的手掛かりだけで人間の関与を推測できるかを検証している。
  • VLMのゼロショット予測は一般に弱く、しばしばゲームごとの単純な多数クラスのベースラインを上回らない。検索を補強したプロンプティングは、いくつかの設定で個別の関与予測を改善できる。
  • ペアワイズ関与変化予測は、戦略を問わず一貫して難しく、理論に基づくプロンプティングは信頼できる効果を示さず、表面的な近道を強化する可能性がある。
  • 本研究の知見は、現行のVLMsにおける知覚と理解のギャップを示唆している。すなわち、彼らは可視的なゲームプレイの手掛かりを認識できるが、ゲーム間で人間の関与を堅牢に推測することには苦労している。

要旨:視覚情報だけからこのような潜在的心理状態を推測できるかどうかはまだ不確かです。視覚と言語モデル(VLMs)を用いて、視覚的手掛かりだけからこのような潜在的心理状態を推測できるかを検討します。9種類のファーストパーソン・シューティングゲームにまたがるGameVibe Few-Shotデータセットを用いて、6つのプロンプト戦略の下で3つのVLMを評価します。これにはゼロショット予測、Flow、GameFlow、自己決定理論、およびMDAに基づく理論指向プロンプト、そして取得拡張型プロンプトを含みます。点ごとのエンゲージメント予測と、連続するウィンドウ間のエンゲージメント変化のペアワイズ予測の両方を検討します。結果は、ゼロショットのVLM予測が一般に弱く、しばしば各ゲームごとの単純な多数派クラスのベースラインを上回れないことを示しています。メモリーベースまたは取得拡張型プロンプトは、いくつかの設定で点ごとの予測を改善しますが、ペアワイズ予測は戦略を問わず一貫して難しいままです。理論に基づくプロンプトのみでは信頼性の高い助けにはならず、むしろ表層的な近道を強化することがあります。これらの知見は、現行のVLMには知覚と理解のギャップがあることを示唆します。彼らは目に見えるゲームプレイの手掛かりを認識できますが、ゲーム間で人間のエンゲージメントを堅牢に推測するにはまだ苦労しています。