要旨:Vision-Language Models (VLMs) はロボットの知覚と操作への適用が進んでいますが、操作に必要な物理的特性を推定する能力は依然として限定されています。特に、実世界のオブジェクトの質量を推定することは、適切な把持力を決定し、安全な相互作用を確保するために不可欠です。しかし、現在の VLM は信頼できる質量推論能力を欠いており、既存の多くのベンチマークは現実的なセンシング条件下での物理量推定を明示的に評価していません。本研究では、VLM を用いた実世界オブジェクトの質量推定のフレームワークである PhysQuantAgent を提案するとともに、評価のための新しいベンチマークデータセット VisPhysQuant を併せて提案します。VisPhysQuant は複数の視点から撮影された実物オブジェクトの RGB-D 動画で構成され、正確な質量測定値で注釈付けされています。推定精度を向上させるために、入力画像を物体検出、スケール推定、断面画像生成で強化する3つのビジュアルプロンプティング手法を導入し、対象オブジェクトの大きさと内部構造をモデルが理解できるようにします。実験により、視覚的プロンプティングが実世界データで質量推定の精度を有意に向上させることが示され、物理推論のための空間推論と VLM 知識の統合の有効性が示唆されます。
PhysQuantAgent: 視覚-言語モデルの質量推定推論パイプライン
arXiv cs.CV / 2026/3/19
📰 ニュースTools & Practical UsageModels & Research
要点
- PhysQuantAgent は、ロボット工学における把持力と安全な相互作用を導くため、視覚-言語モデルを用いた現実世界の物体質量推定のフレームワークです。
- VisPhysQuant という新しい RGB-D 動画データセットを提示します。複数の視点にわたる正確な質量測定が注釈され、物理量推定の評価に用いられます。
- サイズと内部構造を理解するのを助けるため、物体検出、尺度推定、断面画像生成を追加する3つの視覚的プロンプト手法を提案します。
- 実験結果は、視覚的プロンプトが現実世界データでの質量推定精度を大幅に向上させることを示しており、空間推論とVLM知識を統合して物理推論を行う価値を示唆しています。
関連記事
「Google AI Studio」がFirebaseのバックエンドとAntigravityのコーディングエージェントを搭載、プロンプトだけで高度なフルスタックアプリケーションを生成可能に
Publickey
AIエージェントがコマンドラインでブラウザを自動操作できる「Browser Use CLI 2.0」リリース。Chrome DevToolsへの接続などで操作速度が2倍に
Publickey
仕様駆動開発における自己改良エージェント
Dev.to
2026年版:AIでLinkedInプロフィールを最適化して採用担当者に見つけてもらう方法
Dev.to
Agentforce Builder: SalesforceでAIエージェントを構築する方法
Dev.to