IMPACT-CYCLE:長尺動画のセマンティック・メモリを対象にしたクレーム単位の監督的補正を行う契約ベースのマルチエージェント・システム

arXiv cs.CV / 2026/4/23

📰 ニュースModels & Research

要点

  • IMPACT-CYCLEは、エンドツーエンドの不透明なマルチモーダル出力に頼るのではなく、明確な監督インターフェースを導入することで、長尺動画理解における誤り訂正コストの高さに対処します。
  • システムは長尺動画理解を、typedクレームを符号化するバージョン管理された共有セマンティック・メモリ(クレーム依存グラフとプロベナンスログを含む)をクレーム単位で反復的に保守する形に再構成します。
  • 専門役割ごとのエージェントが、ローカルなオブジェクト関係の正しさ、時間をまたぐ整合性、そしてグローバルな意味的一貫性を複数段階で検証し、修正は構造的に依存するクレームに限定されます。
  • 自動の根拠が不十分な場合は、人間の審判(最終的な上書き権を持つ監督権限)にエスカレーションし、その後は依存関係の閉包に基づく再検証で、訂正にかかる負荷を誤りの範囲に比例させます。
  • VidORでの実験では下流推論性能が向上(VQA:0.71→0.79)し、人間の審判コストも4.8倍削減され、手作業のアノテーションよりワークロードが大幅に低いことが示されています。著者はGitHubでコード公開予定です。

要旨: 長編動画の理解における誤りを修正することは、必要コストが不釣り合いに高くなります。既存のマルチモーダル・パイプラインは、検査のための中間状態を一切公開しない不透明なエンドツーエンド出力を生成するため、注釈者は生の動画に戻って、時間的な論理を最初から組み立て直さなければなりません。この主要なボトルネックは生成品質そのものだけではなく、各誤りの範囲に応じて人間の労力を比例的に投入できる、教師ありのインターフェースが欠如していることです。私たちは、共有セマンティックメモリの反復的な「主張レベルでの維持」として長編動画の理解を組み替える、監督型マルチエージェント・システム IMPACT-CYCLE を提示します。これは、型付けされた主張を符号化する構造化されたバージョン管理状態、主張の依存関係グラフ、そしてプロバナンス(出所記録)ログからなるものです。明示的な権限契約のもとで役割特化したエージェントは、検証をローカルな「対象—関係」の正しさ、時間をまたぐ一貫性、そして全体的なセマンティックの首尾一貫性へと分解し、修正は構造的に依存する主張にのみ限定されます。自動化された証拠が不十分な場合、システムは監督当局として人間の裁定へエスカレーションし、最終的な上書き権を与えます。さらに、依存関係の閉包について再検証を行うことで、修正コストが誤りの範囲に比例したままであることを保証します。VidOR に関する実験では、下流の推論が大幅に改善されました(VQA: 0.71 から 0.79)。また、人間の裁定コストが 4.8 倍削減され、作業負荷は手作業の注釈よりも大幅に低くなりました。コードは https://github.com/MKong17/IMPACT_CYCLE で公開予定です。