大規模ビジョン言語モデルにおける言語ガイド付きトークン圧縮と強化学習

arXiv cs.CV / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

TPRL は、エンドタスクの性能に結びついた言語ガイド付き逐次最適化を通じて、大規模なビジョン言語モデルにおける適応的な視覚トークン剪定の軌跡を学習する強化学習フレームワークです。
このアプローチは、自己教師付きオートエンコーダを用いて視覚トークンを効率的な方針学習のためのコンパクトな状態表現へ圧縮します。
剪定ポリシーはデモンストレーションから初期化され、近接ポリシー最適化（PPO）を用いて、タスク精度と計算効率を共同で最適化するように微調整されます。
実験では、TPRL が最大で視覚トークンの 66.7% を削減し、FLOPs を最大で 54.2% 削減できる一方、平均精度の低下は約 0.7% にとどまることを示しています。
本手法のコードは GitHub で公開されており、実務者による利用と再現を可能にします。

要旨: 大規模な視覚-言語モデル（LVLMs）は、膨大な数の視覚トークンを処理することによる推論コストが大きくなる。既存の手法は、逐次依存性を伴う多段階の意思決定プロセスとしての進行的な視覚トークン削減をモデル化するのに一般的に苦労し、複雑な推論経路の適応的最適化を欠く手作業設計のスコアリング規則に依存することが多い。これらの制限を克服するため、エンドタスクの性能に直接結びつく言語ガイド付きの逐次最適化を通じて適応的剪定軌道を学習する強化学習フレームワークTPRLを提案する。我々は視覚トークンの剪定を、明示的な状態遷移を伴う逐次決定プロセスとして定式化し、自己教師付きオートエンコーダを用いて視覚トークンを効率的な方針学習のためのコンパクトな状態表現に圧縮する。剪定ポリシーはデモンストレーションからの学習によって初期化され、その後Proximal Policy Optimization（PPO）を用いてタスクの正確さと計算効率を共同最適化するようファインチューニングされる。実験結果は、TPRLが最大66.7％の視覚トークンを削除し、推論時のFLOPsを最大54.2％削減しつつ、平均精度の低下をほぼ失われない0.7％に抑えることを示している。コードは下記のリンクで公開されています: \href{https://github.com/MagicVicCoder/TPRL}{\textcolor{mypink}{https://github.com/MagicVicCoder/TPRL}}。

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

大規模ビジョン言語モデルにおける言語ガイド付きトークン圧縮と強化学習

要点

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer