EffiMiniVLM:コンパクトな双エンコーダ回帰フレームワーク

arXiv cs.CV / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • EffiMiniVLMは、ユーザ履歴が利用できないカールドスタート設定において、画像とテキストのメタデータを用いて製品品質を予測するための、コンパクトな双エンコーダ型の視覚言語回帰フレームワークとして提案される。
  • この手法は、EfficientNet-B0の画像エンコーダとMiniLMベースのテキストエンコーダ、さらに軽量な回帰ヘッドを組み合わせ、より大規模な視覚言語モデルと比べて計算コストの削減を目指している。
  • 定量評価(レーティング)数の情報を用いて、より信頼性の高いサンプルを重視することで学習サンプル効率を高める、加重Huber損失が導入される。
  • モデルはAmazon Reviews 2023データセットの20%のみで学習され、27.7Mパラメータおよび6.8 GFLOPsを用い、ベンチマークでリソースコスト最小の条件でCESスコア0.40を報告している。
  • 著者らは高いスケーラビリティを見出しており、学習データを40%まで増やすことで、大規模モデルや外部データセットに依存する他手法をEffiMiniVLMが上回ることができるとしている。