要旨: 視覚的に根拠づけられた物語における物語の一貫性を、Visual Writing Promptsコーパス上で、人が書いた物語と視覚・言語モデル(VLM)によって生成された物語を比較することで研究します。名詞指示(コアファレンス)、談話関係の種類、トピックの継続性、登場人物の持続性、マルチモーダルな登場人物の根拠づけといった、物語の一貫性の異なる側面を捉える一連の指標を用いて、物語の一貫性スコアを算出します。その結果、VLMは、人間とは体系的に異なる一方で、概ね類似した一貫性のプロファイルを示すことが分かりました。さらに、個々の測度における相違はしばしば微妙ですが、併せて考慮するとより明確になります。全体として、本研究の結果は、人間らしい表面的な流暢さにもかかわらず、モデルの物語は、視覚的に根拠づけられた物語の中で談話をどのように構成するかにおいて、人間とは体系的に異なることを示しています。コードは https://github.com/GU-CLASP/coherence-driven-humans で公開しています。
人間対視覚言語モデル:物語の一貫性を統合的に測る指標
arXiv cs.CL / 2026/3/27
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、Visual Writing Promptsコーパスを用いて、人間が書いた物語と視覚言語モデル(VLM)の出力を比較することで、視覚的に根ざした物語における物語の一貫性を測定するための統合的アプローチを提案する。
- 一貫性スコアは、指示対象(コリファレンス)、談話関係の種類、トピックの連続性、登場人物の持続性、そしてマルチモーダルな登場人物の根拠付けといった複数の側面に基づいて定義される。
- 結果として、VLMが生成した物語は人間と概ね同様の「一貫性のプロファイル」を示すが、視覚的な物語内で談話をどのように構成しているかには体系的な違いがあることが分かる。
- 個々の一貫性の差は微妙に見える場合があるが、本研究では、複数の指標を同時に評価するとより顕著になることが示される。
- 著者らは、再現とさらなる一貫性に基づく評価を支援するための付随コードをGitHubで公開している。
広告




