1人の監督者、多様なモダリティ: 自律クエリのための適応ツールオーケストレーション
arXiv cs.CL / 2026/3/13
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- 本論文は、テキスト、画像、音声、動画、文書といった複数のモダリティを横断して専門ツールを調整する、自律的なマルチモーダルクエリ処理のための中心的な監督者アーキテクチャを提案する。
- テキストクエリの学習ルーティングを実現するRouteLLMと、非テキスト経路のためのSLM支援のモダリティ分解を導入し、適切なツールへサブタスクを動的に割り当てる。
- 15のタスクカテゴリにわたる2,847のクエリを評価した結果、正確な回答までの時間を72%、会話のやり直しを85%、コストを67%削減した。
- この結果は、中央集権的なオーケストレーションが、精度の同等性を維持しつつ、マルチモーダルAI導入の経済性を大幅に改善できることを示している。
私達は、テキスト、画像、音声、動画、およびドキュメントのモダリティ間で専門ツールを調整する自律的なマルチモーダルクエリ処理のためのエージェント的AIフレームワークを提示します。中心的な監督者がユーザークエリを動的に分解し、サブタスクをモダリティに適したツール(例: 物体検出、OCR、音声の文字起こし)へ委任し、予め決定された意思決定ツリーではなく適応的なルーティング戦略を通じて結果を統合します。テキストのみのクエリに対しては、RouteLLMによる学習ルーティングを用い、非テキスト経路ではSLM支援のモダリティ分解を用います。15のタスクカテゴリにわたる2,847のクエリで評価したところ、本フレームワークは、適合した階層ベースのベースラインと比較して、正確な回答までの時間を72%、会話の修正を85%、コストを67%削減しつつ、精度のパリティを維持しました。これらの結果は、知的な中央集権的オーケストレーションが、マルチモーダルAIの導入経済性を根本的に向上させることを示しています。




