人間対視覚言語モデル：物語の一貫性を統合的に測る指標

arXiv cs.CL / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、Visual Writing Promptsコーパスを用いて、人間が書いた物語と視覚言語モデル（VLM）の出力を比較することで、視覚的に根ざした物語における物語の一貫性を測定するための統合的アプローチを提案する。
一貫性スコアは、指示対象（コリファレンス）、談話関係の種類、トピックの連続性、登場人物の持続性、そしてマルチモーダルな登場人物の根拠付けといった複数の側面に基づいて定義される。
結果として、VLMが生成した物語は人間と概ね同様の「一貫性のプロファイル」を示すが、視覚的な物語内で談話をどのように構成しているかには体系的な違いがあることが分かる。
個々の一貫性の差は微妙に見える場合があるが、本研究では、複数の指標を同時に評価するとより顕著になることが示される。
著者らは、再現とさらなる一貫性に基づく評価を支援するための付随コードをGitHubで公開している。

要旨: 視覚的に根拠づけられた物語における物語の一貫性を、Visual Writing Promptsコーパス上で、人が書いた物語と視覚・言語モデル（VLM）によって生成された物語を比較することで研究します。名詞指示（コアファレンス）、談話関係の種類、トピックの継続性、登場人物の持続性、マルチモーダルな登場人物の根拠づけといった、物語の一貫性の異なる側面を捉える一連の指標を用いて、物語の一貫性スコアを算出します。その結果、VLMは、人間とは体系的に異なる一方で、概ね類似した一貫性のプロファイルを示すことが分かりました。さらに、個々の測度における相違はしばしば微妙ですが、併せて考慮するとより明確になります。全体として、本研究の結果は、人間らしい表面的な流暢さにもかかわらず、モデルの物語は、視覚的に根拠づけられた物語の中で談話をどのように構成するかにおいて、人間とは体系的に異なることを示しています。コードは https://github.com/GU-CLASP/coherence-driven-humans で公開しています。

Black Hat Asia

AI Business

三菱電機が中国新興と協業、AIと人型ロボットで無人工場を実現へ

日経XTECH

Microsoftも実証「中空コア光ファイバー」、空気でガラスの限界突破へ

日経XTECH

TSMC、光電融合でライバル突き放しへ半導体の設計情報「PDK」を広く提供

日経XTECH

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

日経XTECH

人間対視覚言語モデル：物語の一貫性を統合的に測る指標

要点

関連記事

Black Hat Asia

三菱電機が中国新興と協業、AIと人型ロボットで無人工場を実現へ

Microsoftも実証「中空コア光ファイバー」、空気でガラスの限界突破へ

TSMC、光電融合でライバル突き放しへ半導体の設計情報「PDK」を広く提供

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

三菱電機が中国新興と協業、AIと人型ロボットで無人工場を実現へ

Microsoftも実証「中空コア光ファイバー」、空気でガラスの限界突破へ

TSMC、光電融合でライバル突き放しへ 半導体の設計情報「PDK」を広く提供

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

TSMC、光電融合でライバル突き放しへ半導体の設計情報「PDK」を広く提供