概要: マルチモーダル大規模言語モデル(MLLM)は、何百万人もの人々の日常のアシスタントとして機能します。しかし、個々の嗜好に沿った応答を生成する能力には限界があります。従来のアプローチでは、入力拡張や出力整合によって静的な単一ターンのパーソナライズしか実現できないため、時間とともに変化するユーザの嗜好や性格を捉えきれません(図1参照)。本論文では、長期パーソナライズを目的とした革新的なパーソナライズド・マルチモーダル・エージェントの枠組みであるPersonaVLMを提案します。これは、3つの主要な能力を統合することで汎用的なMLLMをパーソナライズされたアシスタントへと変換します。(a)記憶: 相互作用から時系列のマルチモーダルな記憶を能動的に抽出・要約し、それらをパーソナライズされたデータベースに統合します。(b)推論: データベースから関連する記憶を検索し、それらを統合することでマルチターン推論を行います。(c)応答整合: 長期の相互作用を通じてユーザの変化するパーソナリティを推定し、出力がユーザ固有の特性に確実に整合するようにします。評価のために、7つの主要観点と14のきめ細かなタスクにわたって長期MLLMパーソナライズを評価することを目的とした、2,000件超の厳選された相互作用ケースから成る包括的ベンチマークPersona-MMEを構築します。大規模な実験により、本手法の有効性が検証され、128kコンテキスト下でベースラインをPersona-MMEで22.4%、PERSONAMEMで9.8%改善し、さらにそれぞれGPT-4oに対して5.2%および2.0%上回りました。プロジェクトページ: https://PersonaVLM.github.io.
PersonaVLM: 長期パーソナライズされたマルチモーダルLLM
arXiv cs.CL / 2026/4/16
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- PersonaVLMは、汎用的なマルチモーダルLLMを、時間の経過とともに変化するユーザーの嗜好に適応する長期的なパーソナライズ・アシスタントへと変換するためのフレームワークとして導入される。
- この手法は、3つの能力を組み合わせる:主導的なマルチモーダル・メモリ抽出と要約(Remembering)、推論のための検索ベースのマルチターン統合、そして応答の整合性を高めるための継続的な性格推論。
- 本論文では、性能の大幅な向上を主張しており、128kコンテキスト下でPersona-MMEが22.4%改善(およびPERSONAMEMが9.8%改善)するほか、提案する評価においてGPT-4oを上回る結果が示される。
- 長いホライズンにわたるパーソナライズを測定するために、著者らはまた、7つの観点と14のきめ細かなタスクをカバーする2,000件超の厳選された対話事例を含むベンチマーク「Persona-MME」も公開する。
- 全体としてPersonaVLMは、従来のパーソナライズ手法のギャップ、すなわち主として静的、または単一ターンのユーザー整合性にしか対応できていない点を狙っている。




