要旨: 私たちは、対話において話者と聴者が示す口頭および非口頭の言語的特徴が、説明的相互作用における聴者の理解の状態を瞬間ごとに予測することにどのように寄与できるかを調査します。具体的には、認知負荷に関連し、聴者の理解と相関すると仮説される3つの言語的手掛かりを検討します:話者の発話の情報価値(驚度を用いて操作化したもの)と統語的複雑さ、そして聴者の対話的視線挙動の変動です。対面型の対話的ボードゲームの説明のMUNDEXコーパスの統計分析に基づいて、個々の手掛かりは聴者の理解レベルとともに変化することを見いだしました。聴者の状態(「理解」「部分的理解」「非理解」および「誤解」)は、聴者自身が回顧的ビデオリコール法を用いて自己注釈しました。続く分類実験の結果は、2つの市販の分類器と、微調整されたドイツ語BERTベースのマルチモーダル分類器を含むことにより、これら4つの理解状態の予測が一般的に可能であることを示し、3つの言語的手掛かりをテキスト特徴とともに考慮した場合に精度が向上することを示しています。
認知負荷に関連する言語的手掛かりを用いた説明的対話における理解状態の予測
arXiv cs.CL / 2026/3/23
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、認知負荷に関連する言語的手掛かり—サプライザル、統語的複雑性、リスナーの視線変動—が、説明的対話におけるリスナーの瞬間ごとの理解度とどのように関連しているかを調査する。
- 回顧的な映像リコールを用いて、自己注釈付きリスナー状態(理解、部分理解、非理解、誤理解)を持つMUNDEXコーパスを分析する。
- 市販の二つの既製分類器と、ファインチューニングされたドイツ語BERTベースのマルチモーダル分類器を用いた分類研究は、四状態の理解を予測できることを示し、言語的手掛かりとテキスト特徴を組み合わせると精度が向上することを示している。
- 結果は、各手掛かりがリスナーの状態に異なる寄与をすること、複数の手掛かりを統合することで予測性能が向上することを示しており、教育や対話システムにおけるリアルタイム適応の可能性を示唆している。