大規模ビジョン言語モデルにおける言語ガイド付きトークン圧縮と強化学習

arXiv cs.CV / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • TPRL は、エンドタスクの性能に結びついた言語ガイド付き逐次最適化を通じて、大規模なビジョン言語モデルにおける適応的な視覚トークン剪定の軌跡を学習する強化学習フレームワークです。
  • このアプローチは、自己教師付きオートエンコーダを用いて視覚トークンを効率的な方針学習のためのコンパクトな状態表現へ圧縮します。
  • 剪定ポリシーはデモンストレーションから初期化され、近接ポリシー最適化(PPO)を用いて、タスク精度と計算効率を共同で最適化するように微調整されます。
  • 実験では、TPRL が最大で視覚トークンの 66.7% を削減し、FLOPs を最大で 54.2% 削減できる一方、平均精度の低下は約 0.7% にとどまることを示しています。
  • 本手法のコードは GitHub で公開されており、実務者による利用と再現を可能にします。

要旨: 大規模な視覚-言語モデル(LVLMs)は、膨大な数の視覚トークンを処理することによる推論コストが大きくなる。既存の手法は、逐次依存性を伴う多段階の意思決定プロセスとしての進行的な視覚トークン削減をモデル化するのに一般的に苦労し、複雑な推論経路の適応的最適化を欠く手作業設計のスコアリング規則に依存することが多い。これらの制限を克服するため、エンドタスクの性能に直接結びつく言語ガイド付きの逐次最適化を通じて適応的剪定軌道を学習する強化学習フレームワークTPRLを提案する。我々は視覚トークンの剪定を、明示的な状態遷移を伴う逐次決定プロセスとして定式化し、自己教師付きオートエンコーダを用いて視覚トークンを効率的な方針学習のためのコンパクトな状態表現に圧縮する。剪定ポリシーはデモンストレーションからの学習によって初期化され、その後Proximal Policy Optimization(PPO)を用いてタスクの正確さと計算効率を共同最適化するようファインチューニングされる。実験結果は、TPRLが最大66.7%の視覚トークンを削除し、推論時のFLOPsを最大54.2%削減しつつ、平均精度の低下をほぼ失われない0.7%に抑えることを示している。コードは下記のリンクで公開されています: \href{https://github.com/MagicVicCoder/TPRL}{\textcolor{mypink}{https://github.com/MagicVicCoder/TPRL}}。