ユーザーの行動ログからの階層的マルチパーソナ誘導:エビデンスに基づく、そして真実味のあるパーソナを学習する

arXiv cs.AI / 2026/4/30

📰 ニュースModels & Research

要点

  • 本論文は、ノイズが多く意図が入り混じったユーザーの行動ログから、高品質なユーザーパーソナを生成する方法を扱い、LLMを用いる既存研究に対してパーソナ品質を保証する評価が不足している点を補うことを目的としています。
  • 階層的な枠組みとして、ユーザーの行動を意図の「記憶(intent memories)」に集約し、それをクラスタリングしてラベリングすることで複数のパーソナを誘導します。
  • パーソナ品質は、クラスタの凝集性、パーソナと証拠(エビデンス)の整合、そしてパーソナの「真実性」をバランスさせる目的関数として定式化されています。
  • パーソナモデルの学習には、Direct Preference Optimization(DPO)のグループワイズ拡張を用いて、得られるパーソナの改善を図ります。
  • 大規模なサービスログと2つの公開データセットでの実験により、提案手法がより一貫しており、エビデンスに基づき、信頼できるパーソナを生成できること、さらに将来のインタラクション予測も向上することが示されています。

Abstract

行動ログはユーザーモデリングにとって豊富なシグナルを提供しますが、ノイズが多く、さまざまな意図にまたがって混在しています。近年の研究では、ユーザーログからLLMを用いて解釈可能な自然言語のペルソナを生成していますが、評価はしばしば下流タスクの有用性に重点が置かれ、ペルソナ品質そのものについての保証は限られています。そこで本研究では、ユーザの行動を意図メモリに集約し、これらのメモリをクラスタリングおよびラベリングすることで、複数のエビデンスに基づいたペルソナを誘導する階層的フレームワークを提案します。ペルソナ誘導を、クラスタの凝集性、ペルソナとエビデンスの整合、ペルソナの真実性によって捉えられるペルソナ品質の最適化問題として定式化し、Direct Preference Optimization(DPO)の群ごとの拡張(groupwise extension)を用いてペルソナモデルを学習します。大規模なサービスログと2つの公開データセットでの実験により、本手法はより首尾一貫しており、エビデンスに基づき、かつ信頼できるペルソナを誘導できることを示すとともに、将来のインタラクション予測も改善することが分かりました。