KITE:VLMベースのロボット故障解析のためのキーフレーム索引付きトークン化エビデンス

arXiv cs.RO / 2026/4/9

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • KITEは、学習不要でキーフレームにアンカーしたビジュアル前処理であり、長いロボット実行ビデオを、ビジョン・ランゲージ・モデル(VLM)向けのコンパクトで解釈可能なトークン化エビデンスへ変換します。
  • 運動の重要なキーフレームを、鳥瞰視点(BEV)の概略図と組にして要約し、相対的な物体配置、軸、タイムスタンプ、検出の信頼度を捉えます。これらの手掛かりを、ロボットおよびシーン文脈トークンとともに、統一されたプロンプトへシリアライズします。
  • 同一のKITEプロンプト構造は、オフザシェルフのVLMを用いた複数のロボット故障解析タスク(故障の検出、同定、局在化、説明、修正)を支えます。
  • RoboFACベンチマークにおいて、Qwen2.5-VLと組み合わせたKITEは、学習不要設定でバニラのQwen2.5-VLを大きく上回ります。特に改善が大きいのは、シミュレーションにおける故障の検出、同定、局在化です。
  • 小規模なQLoRAの微調整により、説明と修正の品質がさらに向上します。実機のデュアルアームロボットでの定性的テストから、実用性が示唆されており、コードとモデルが公開されています。

要旨: 本論文では、訓練不要で、キーフレームにアンカーした、レイアウトを根拠とするフロントエンドであるKITEを提示する。KITEは、長いロボット実行動画を、視覚言語モデル(VLM)向けのコンパクトで解釈可能なトークン化されたエビデンスへ変換する。KITEは、各軌道を少数の動きの重要性が高いキーフレームの集合へ蒸留し、オープン・ボキャブラリの検出を行う。そして各キーフレームと、相対的な物体のレイアウト、軸、タイムスタンプ、検出信頼度を符号化する模式的な俯瞰図(BEV)表現をペアにする。これらの視覚的手がかりは、ロボットのプロファイルおよびシーン文脈トークンとともに統一プロンプトへ直列化され、既製のVLMによって、同じフロントエンドが失敗検出、同定、ローカリゼーション(位置特定)、説明、そして修正を支援できるようになる。RoboFACベンチマークにおいて、Qwen2.5-VLを用いたKITEは、訓練不要設定において、素のQwen2.5-VLを大幅に上回る。特に、シミュレーションにおける失敗検出、同定、ローカリゼーションで非常に大きな改善が見られる一方、RoboFACで調整されたベースラインとも競争力を維持している。さらに、小規模なQLoRAによる微調整により、説明と修正の品質が一層向上する。加えて、実際のデュアルアームロボットに関する定性的結果も報告し、ロボットの故障解析のための構造化され解釈可能なフロントエンドとしてのKITEの実用的な適用可能性を示す。コードとモデルはプロジェクトページで公開している: https://m80hz.github.io/kite/