効率的ユニバーサル知覚エンコーダ

arXiv cs.CV / 2026/3/25

💬 オピニオンSignals & Early TrendsModels & Research

要点

  • 本論文は、資源の限られたエッジデバイス上で多用途のAIビジョンモデルを動作させつつ、多くの下流タスクにわたって強力な表現を維持するための、効率的ユニバーサル知覚エンコーダ(EUPE)を提案する。
  • EUPEは、複数のドメイン専門家の基盤(foundation)ビジョンエンコーダからの蒸留によって学習され、その目的は、推論の効率性と幅広く有用な知覚的特徴の両方を備えた、単一の小型エンコーダを得ることである。
  • 著者らは、複数の教師から直接スケールダウンする先行の凝集型(agglomerative)蒸留アプローチに反対し、代わりに、まず大規模な代理教師へスケールアップしてから、その単一の教師を起点にスケールダウンする方が結果が改善されることを示す。
  • 実験の結果、EUPEは多様なタスク領域において、同程度のサイズの個々のドメイン専門家エンコーダと同等、あるいはそれを上回る性能を示し、さらに先行する凝集型エンコーダ手法よりも優れていることが分かった。
  • 著者らは、さらなる研究を支援するために、EUPEのモデルファミリ一式とそれに付随するコードを公開すると述べている。

Abstract

スマートなエッジデバイス上でAIモデルを実行することは、多様なユーザー体験を可能にしますが、計算資源が限られていることや、複数のタスクを同時に扱う必要があることにより課題も生じます。これは、小型でありながら強力かつ汎用的な表現を備えたビジョンエンコーダを必要とします。本研究では、推論効率と多様な下流タスクに対して普遍的に良好な表現の両方を提供する手法である、Efficient Universal Perception Encoder(EUPE)を提案します。私たちは、複数のドメイン専門家による基盤ビジョンエンコーダから蒸留することでこの実現を図ります。効率的なエンコーダへと、複数の教師から直接スケールダウンする先行の凝集(agglomerative)手法とは異なり、まず大規模なプロキシ教師へスケールアップし、その後この単一の教師からスケールダウンすることの重要性を示します。実験の結果、EUPEは多様なタスク領域において、同じサイズの個々のドメイン専門家と同等以上の性能を達成し、さらに従来の凝集型エンコーダよりも優れた性能を示すことが分かりました。EUPEモデルのファミリー一式と、今後の研究を促進するためのコードを公開します。