AI Navigate

HIFICL: マルチモーダルタスクにおける高忠実度の文脈内学習

arXiv cs.CV / 2026/3/16

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、大規模マルチモーダルモデルにおけるインコンテキスト学習がデモンストレーションの設定に敏感で、計算コストが高いことを指摘している。
  • 学習可能な文脈として仮想のキーと値のペアを用いる High-Fidelity In-Context Learning (HIFICL) を提案し、ICL の機構をより忠実にモデリングする。
  • HIFICL は安定かつ正則化された訓練のための低ランク分解を用い、手法を文脈対応型のパラメータ効率的ファインチューニングとして位置づける。
  • マルチモーダル・ベンチマークでの広範な実験により、HIFICL が既存の近似手法を一貫して上回ることを示し、コードは公開されている。

要約: イン・コンテキスト学習(ICL)は、大規模マルチモーダルモデル(LMMs)にとって重要なパラダイムであり、新しいタスク適応のために数件の文脈内デモンストレーション(ICD)を使用します。しかし、その性能はデモンストレーションの設定に敏感で、計算コストが高いです。数学的には、これらのデモンストレーションの影響は、標準のアテンション出力と文脈値の動的な混合として分解できます。現在の近似手法は、この過程を「シフトベクトル」を学習することで簡略化します。厳密な分解に触発され、ICLメカニズムをより忠実にモデル化するために、高忠実度の文脈内学習(HIFICL)を導入します。HIFICL は、1) 学習可能な文脈として機能する仮想のキー-バリューペア、2) 安定かつ正則化された訓練のための低ランク因子分解、3) 単純なエンドツーエンド訓練目的、という3つの主要な構成要素からなります。別の観点から見ると、このメカニズムは文脈を意識したパラメータ効率的微調整(PEFT)の一形態を成しています。広範な実験により、HiFICL は複数のマルチモーダルベンチマークで既存の近似手法を一貫して上回ることが示されています。コードは https://github.com/bbbandari/HiFICL に公開されています。