指示から支援へ:手順書を組立動画に対応付けるデータセット—マルチモーダルLLMを評価するために
arXiv cs.AI / 2026/3/25
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、Manual to Action Dataset(M2AD)を提案し、家具の組立手順書を、対応する組立動画と手順ごとに整合させることで、手順型タスクに対するマルチモーダルLLMの支援をベンチマークする。
- M2ADを用いて著者らは、オープンなマルチモーダルLLMが推論を活用し、詳細な注釈作業の負担を減らし、組立ステップの進行を追跡し、関連する手順書のページを正しく参照できるかを評価する。
- その結果、いくつかのモデルは手順の流れを理解できるものの、全体の性能はアーキテクチャおよびハードウェア上の制約により制限されることが分かった。
- これらの結果は、技術的タスクにおけるリアルタイムで、指示に根ざした支援を可能にするために、より強力な複数画像およびテキスト—画像の交互推論能力が必要であることを示している。