指示から支援へ:手順書を組立動画に対応付けるデータセット—マルチモーダルLLMを評価するために

arXiv cs.AI / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、Manual to Action Dataset(M2AD)を提案し、家具の組立手順書を、対応する組立動画と手順ごとに整合させることで、手順型タスクに対するマルチモーダルLLMの支援をベンチマークする。
  • M2ADを用いて著者らは、オープンなマルチモーダルLLMが推論を活用し、詳細な注釈作業の負担を減らし、組立ステップの進行を追跡し、関連する手順書のページを正しく参照できるかを評価する。
  • その結果、いくつかのモデルは手順の流れを理解できるものの、全体の性能はアーキテクチャおよびハードウェア上の制約により制限されることが分かった。
  • これらの結果は、技術的タスクにおけるリアルタイムで、指示に根ざした支援を可能にするために、より強力な複数画像およびテキスト—画像の交互推論能力が必要であることを示している。