AI Navigate

OSCBench: テキストから動画生成におけるオブジェクト状態変化のベンチマーク

arXiv cs.CL / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • OSCBenchは、テキストから動画(T2V)モデルにおけるオブジェクト状態変化(OSC)の理解を評価するための専門的なベンチマークを導入し、既存のベンチマークがカバーしていないギャップに対処します。
  • 料理データの指示情報に基づいて構築されたOSCBenchは、アクション-オブジェクトの相互作用を規則的・新規・構成的なシナリオに整理し、分布内の性能と一般化の両方を検証します。
  • 著者らは、6つの代表的なオープンソースおよび独自のT2Vモデルを、ヒューマンユーザースタディとマルチモーダルLLMベースの自動評価の双方を用いて評価し、意味論とシーン整合性における強力な性能にもかかわらずOSCには依然として困難があることを明らかにしました。
  • 本研究はOSCをテキストから動画生成の主要なボトルネックとして位置づけ、OSCBenchを将来のモデル改善を導く診断ベンチマークとして確立します。
要旨: テキストから動画への生成モデル(T2V)は、視覚的に高品質で時間的に一貫した動画を生み出すことにおいて急速な進歩を遂げてきました。しかし、既存のベンチマークは主に知覚品質、テキストと動画の整合性、または物理的妥当性に焦点を当てており、アクション理解の重要な側面である「オブジェクト状態変化(OSC)」が、テキストプロンプトに明示的に指定されるという点はほとんど検討されていません。OSCは、ポテトの皮をむく、レモンを薄切りにするなど、アクションによって誘発されるオブジェクトの状態の変化を指します。本論文では、T2VモデルにおけるOSCの性能を評価するよう特化したベンチマークOSC Bench? OSCBenchを導入します。OSCBenchは指示的な料理データから構築され、アクション-オブジェクトの相互作用を規則的・新規・構成的なシナリオに体系的に整理し、分布内の性能と一般化の両方を検証します。我々は、6つの代表的なオープンソースおよび独自のT2Vモデルを、ヒューマンユーザースタディとマルチモーダル大規模言語モデル(MLLM)に基づく自動評価の双方を用いて評価しました。結果は、意味論とシーン整合性において高い性能を示すものの、現在のT2Vモデルは正確で時間的に一貫したオブジェクト状態変化に一貫して苦戦しており、特に新規および構成的設定で顕著です。これらの知見はOSCをテキストから動画生成の主要なボトルネックとして位置づけ、OSCBenchを状態認識型の動画生成モデルを推進する診断的ベンチマークとして確立します。