マトリョーシュカ型大規模マルチモーダルモデルの周波数変調ビジュアル復元

arXiv cs.CL / 2026/3/13

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

FMVRは、視覚トークン予算が削減される場合でも、LMMのセマンティクス情報を保持するプラグアンドプレイ型の視覚復元戦略を導入します。
AvgPoolとMaxPoolを用いて視覚表現を高周波成分と低周波成分に分離し、それらは軽量な学習可能パラメータで調整されます。
AvgPool由来の高周波成分は顕著性フィルターとして顕著な視覚セマンティクスを強化し、MaxPool由来の低周波成分は非顕著性フィルターとして弱い視覚セマンティクスを強化します。
Matryoshka Representation Learningと統合することで、推論時の視覚トークンを柔軟に調整でき、FLOPsを大幅に削減（LLaVA-1.5-7Bで最大89%）しつつほぼ元の精度を維持します。コードは公開予定です。

本文: arXiv:2603.11220v1 Announce Type: cross Abstract: 大規模マルチモーダルモデル（LMM）は、視覚トークンが多数あるため、さまざまな計算予算に適応するのに苦労します。従来の手法は、視覚トークンの数をLLMsの前段階または内部で削減することを試みました。しかし、これらの戦略は必然的に視覚セマンティクスの喪失を招きます。これらの問題に対処するため、視覚トークン削減下での推論能力を高める、プラグアンドプレイかつ極めて単純な周波数変調ビジュアル復元（FMVR）戦略を導入します。具体的には、FMVRは視覚トークンが少ない視覚表現を、AvgPoolとMaxPoolを通じて低周波成分と高周波成分に分離します。導出された周波数は、その後、軽量な学習可能パラメータで調整されます。AvgPool由来の高周波成分は顕著性フィルターとして顕著な視覚セマンティクスを強化し、MaxPool由来の低周波成分は非顕著性フィルターとして弱い視覚セマンティクスを強化します。これにより、少数の視覚トークンに支配された視覚セマンティクスを保持し、希薄化した視覚セマンティクスを復元します。さらに、FMVRをマトリョーシュカ表現学習に組み込み、粗から細へと視覚トークンのセットを学習させることで、推論時に視覚トークンの数を柔軟に調整しながら、性能を比較可能な水準に維持します。10個の画像ベースのベンチマークと4つの動画ベースのベンチマークにまたがる実験は、FMVR-LLaVAがLLaVA-1.5-7BのFLOPsを89%削減しつつ、元の精度のほぼ100%を維持することを示しています。コードは公開される予定です。