マルチモーダルQUD：科学図表から生まれる探究的な質問

arXiv cs.CL / 2026/4/28

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は「マルチモーダルQUD（MQUD）」を提案し、図と論文の文脈の両方に基づいて、単なる抽出型の質問ではなくより深い探究的な質問を生成する。
質問のディスカッション（QUD）という言語理論をテキストのみからマルチモーダルへ拡張し、暗黙の問いが読み進める中でどのように生まれ、解決されるかをモデル化する。
元の著者による注釈付きで、そうした暗黙の問いを明示化した研究論文データセットMQUDを公開する。
実験では、VLMをMQUDで微調整することで、汎的な低レベルの視覚質問から、より高いマルチモーダル推論を要する内容に即した可視的に根拠づけられた質問生成へと改善することを示す。