広告

FusionAgent:人間認識のための動的モデル選択を備えたマルチモーダルエージェント

arXiv cs.CV / 2026/3/31

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • FusionAgentは、入力全体に対して静的なスコア融合を行うのではなく、サンプルごとに動的なモデル選択を実行する、身体全体の人間認識のためのエージェント型マルチモーダルフレームワークである。
  • 各エキスパートモデルをツールとして扱い、メトリクスに基づく報酬を用いた強化微調整(Reinforcement Fine-Tuning)により、テストサンプルごとに最適なモデル組み合わせを学習する。
  • スコアのミスアラインメントや埋め込みの不均質性の下で融合品質を向上させるため、最も確信度の高いモデルにアンカーするAnchor-based Confidence Top-k(ACT)スコア融合を導入し、確信度を考慮した補完的な予測の融合を行う。
  • 複数の身体全体のバイオメトリクスベンチマークで実験を行い、モデル呼び出し回数が少ないことに起因して、効率性を高めつつ最先端の性能を報告している。
  • 本研究は、制約のない環境での実世界の認識における重要な要素として、動的で説明可能かつ頑健なモデル融合を強調している。

要旨: モデル・フュージョンは、制約のない状況での頑健な認識における重要な戦略です。異なるモデルは補完的な強みを提供するためです。これは特に、顔、歩容、体の形状といった生体情報の手がかりがサンプルごとに変化し、通常はスコア・フュージョンにより統合される全身の人間認識において重要です。しかし、既存のスコア・フュージョン戦略は概ね静的であり、サンプルの品質やモダリティの信頼性にかかわらず、すべてのモデルを各テストサンプルに対して呼び出します。これらの制約を克服するために、我々は extbf{FusionAgent} という新しいエージェント型フレームワークを提案します。この枠組みは、マルチモーダル・ラージ言語モデル(MLLM)を活用して、動的にサンプル固有のモデル選択を行います。各専門モデルはツールとして扱われ、メトリックに基づく報酬による強化学習(Reinforcement Fine-Tuning: RFT)を通じて、エージェントは各テスト入力に対して最適なモデルの組み合わせを適応的に決定することを学習します。モデルのスコア不整合と埋め込みの異種性に対処するために、最も自信のあるモデルをアンカーとするアンカー基盤の信頼度Top-k(ACT)スコア・フュージョンを導入します。これにより、信頼度を考慮した形で補完的な予測を統合します。複数の全身生体認証ベンチマークに対する大規模な実験の結果、FusionAgentは効率性(モデル呼び出し回数の削減)を高めつつ、SoTA手法を大幅に上回ることが示されました。これは、現実世界の認識システムにおける動的で説明可能かつ頑健なモデル・フュージョンの重要性を裏付けています。プロジェクトページ: \\href{https://fusionagent.github.io/}{FusionAgent}。

広告