パーソナライゼーション・ツールキット:大規模ビジョン言語モデルの学習不要パーソナライズ

arXiv cs.CV / 2026/4/29

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文は、個別アイテムごとの時間のかかる学習を不要にすることで、大規模ビジョン言語モデル(LVLM)のパーソナライズを扱います。
  • 提案手法(\ours)は、学習済みのビジョン基盤モデルを用いて識別可能な視覚的特徴を抽出する、モデルに依存しない「パーソナライゼーション・ツールキット」です。
  • retrieval-augmented generation(RAG)により画像や動画内の関連インスタンスを特定し、さらに視覚的プロンプトでLVLMの出力を誘導します。
  • 著者らは、物体中心の単一コンセプト評価にとどまらない、より包括的な実世界ベンチマークを提示しています。
  • 実験では、既存の学習ベース手法を上回り、最先端の性能が報告されています。

Abstract

大規模ビジョン-言語モデル(LVLM)のパーソナライズは、特定のユーザやオブジェクトのインスタンスを認識し、文脈に合わせて調整された応答を生成するためにモデルをカスタマイズすることを指します。既存のアプローチは、各対象ごとに時間のかかる学習を必要とするため、現実のデプロイメントには不向きです。これは、現在のパーソナライズのベンチマークが、オブジェクト中心の単一コンセプト評価に限定されていることからも明らかです。本論文では、 ours と呼ぶ LVLM パーソナライズのための新しい訓練(学習)不要手法を提案します。我々は、パーソナライズ課題のさまざまな側面を厳密に評価するための、包括的で現実世界に即したベンチマークを設計します。 ours は、事前学習済みのビジョン基盤モデルを活用して識別的特徴を抽出し、検索拡張生成(RAG)技術を適用して視覚入力内のインスタンスを特定し、視覚プロンプト戦略を用いてモデル出力を導きます。我々のモデル非依存のビジョン・ツールキットは、追加の学習なしで、画像と動画の両方に対して、効率的かつ柔軟なマルチコンセプト・パーソナライズを可能にします。既存の訓練ベース手法を上回る最先端の結果を達成します。