パーソナライゼーション・ツールキット:大規模ビジョン言語モデルの学習不要パーソナライズ
arXiv cs.CV / 2026/4/29
💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本論文は、個別アイテムごとの時間のかかる学習を不要にすることで、大規模ビジョン言語モデル(LVLM)のパーソナライズを扱います。
- 提案手法(\ours)は、学習済みのビジョン基盤モデルを用いて識別可能な視覚的特徴を抽出する、モデルに依存しない「パーソナライゼーション・ツールキット」です。
- retrieval-augmented generation(RAG)により画像や動画内の関連インスタンスを特定し、さらに視覚的プロンプトでLVLMの出力を誘導します。
- 著者らは、物体中心の単一コンセプト評価にとどまらない、より包括的な実世界ベンチマークを提示しています。
- 実験では、既存の学習ベース手法を上回り、最先端の性能が報告されています。




