PhysNote:進化可能な物理推論のための視覚言語モデルにおける自己知識ノート

arXiv cs.AI / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、実世界の物理課題において視覚言語モデルが苦手とする主因が、時空間的な同一性ドリフトと、推論時の洞察をフレーム間で永続的に統合できない点にあると指摘しています。
  • それに対し、VLMが自分で生成する「Knowledge Notes(知識ノート)」を通じて物理理解を外部化し、反復的に洗練できるエージェント型フレームワークPhysNoteを提案します。
  • PhysNoteは、時系列の知覚を安定化するための時空間カノニカル化、階層的な知識リポジトリへの洞察の整理、仮説を視覚エビデンスに基づいて検証した後に知識として統合する反復推論ループを組み込みます。
  • PhysBenchでの実験では、PhysNoteが全体精度56.68%を達成し、最良のマルチエージェント基線より4.96%改善し、4つの物理推論ドメインすべてで一貫した向上が見られました。
  • 全体として本研究は、静的な評価で一時的に正しいだけでなく、物理推論を時間的に一貫させ再利用可能にすることに焦点を当てています。