どこで何を：状況に応じた会話型推薦における推論のダイナミクスと暗黙の嗜好

arXiv cs.AI / 2026/4/23

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、視覚シーンと対話を組み合わせて文脈に適した推薦を行う状況に応じた会話型推薦（SCR）を扱い、会話の進行に伴って暗黙のユーザー嗜好が変化し得る点を重視しています。
提案手法SiPeR（Situated Preference Reasoning）は、現在のシーンがユーザーのニーズに合っているかを推定して必要に応じてより適切なシーンへ導く「シーン遷移推定」を中核に据えます。
さらにSiPeRは、マルチモーダル大規模言語モデル（MLLM）の尤度を用いたベイズ逆推論によって、シーン内の候補アイテムに関するユーザー嗜好を推定します。
2つのベンチマークでの実験結果から、SiPeRは推薦精度と応答生成品質の双方で既存手法より優れていることが示されています。
著者はGitHubでコードとデータを公開しており、再現や発展研究を進めやすくしています。

要旨: 特定の環境に根ざした視覚シーンと自然言語の対話を利用して、状況に適した推薦を行う状況付き会話型レコメンデーション（SCR）は、現実のシナリオに密接に対応しているため、有望な研究方向として注目されている。従来の推薦と比べてSCRは、動的で暗黙的なユーザの嗜好をより深く理解する必要がある。周囲のシーンがユーザの根底にある関心に影響することが多い一方で、両者はいずれも対話の進行に伴って変化しうるためである。この複雑さは、推薦のタイミングと妥当性に大きな影響を与える。これに対処するために、本研究では、2つの中核メカニズムを統合した新しい枠組みである状況付き嗜好推論（SiPeR）を提案する。(1) シーン遷移推定：現在のシーンがユーザのニーズを満たしているかを推定し、必要に応じてユーザをより適したシーンへ導く。および(2) ベイズ逆推論：マルチモーダル大規模言語モデル（MLLM）の尤度を活用して、シーン内の候補アイテムに関するユーザの嗜好を予測する。2つの代表的ベンチマークに対する大規模な実験により、SiPeRが推薦精度と応答生成品質の両面で優れていることが示される。コードとデータは https://github.com/DongdingLin/SiPeR で利用可能である。