RaTA-Tool:マルチモーダル大規模言語モデルによる検索ベースのツール選択

arXiv cs.CV / 2026/4/17

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文では、従来手法の多くがテキストのみの入力やクローズドワールド前提に依存しているのに対し、RaTA-Toolはオープンワールドなマルチモーダル環境でのツール選択のための検索ベースの枠組みを提案しています。
  • RaTA-ToolはマルチモーダルLLMを用いてユーザーのマルチモーダル要求を構造化されたタスク記述に変換し、その表現をセマンティックで機械可読なツール記述と照合して最適なツールを選択します。
  • 検索ベースの設計により、学習時に未見のツールにも一般化しやすくなり、新しいツールへの拡張を再学習なしで行えることが狙いです。
  • タスク記述とツール選択の整合性を高めるために、Direct Preference Optimization(DPO)による嗜好(優先度)ベースの最適化段階を組み込んでいます。
  • さらに、Hugging Faceのモデルカードから作成した標準化ツール記述を用いた、オープンワールドなマルチモーダル・ツール利用のための新しいデータセットも提示され、オープンワールドなマルチモーダル条件で特に大きな性能向上が報告されています。