SessionIntentBench:EC(電子商取引)顧客行動理解のための、セッション間イントネーション(意図)のシフトをマルチタスクでモデリングするベンチマーク

arXiv cs.CL / 2026/4/13

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 著者らは、意図(イントネーション)の信号を注入することでLLMの性能が向上することを報告しており、プロダクトのテキスト情報だけに依存するのではなく、明示的な意図モデリングが有用であることを示している。

要旨: セッション履歴は、複数の製品にまたがる閲覧アクティビティ全体を通じて、ユーザーの対話行動を記録する一般的な方法である。例えば、ユーザーがある製品のWebページをクリックしてから離脱した場合、その理由は、ユーザーの要求を満たさない特定の機能が存在することである可能性があり、これはその場におけるユーザーの嗜好を示す重要な指標となる。しかし、これまでのあらゆる先行研究は、情報の活用が不十分で、説明やタイトルのような見かけ上の情報のみを用いるため、顧客の意図を効果的に捉えてモデル化できていない。また、Eコマースの製品購入セッションにおいて、意図を明示的にモデル化するためのデータと、それに対応するベンチマークが不足している。これらの課題に対処するために、本研究では「意図ツリー」という概念を導入し、データセットのキュレーション(選定・整備)パイプラインを提案する。そして、4つの下位タスクを通じて、セッション間の意図の変化を理解するうえでのL(V)LMの能力を評価する、兄弟マルチモーダル・ベンチマークであるSessionIntentBenchを構築する。1,952,177件の意図エントリ、1,132,145本のセッション意図トラジェクトリ、10,905セッションを用いてマイニングした13,003,664件の利用可能なタスクにより、既存のセッションデータを顧客の意図理解のために活用する、スケーラブルな方法を提供する。収集したデータの一部に対して人手によるアノテーションを行い、評価用のゴールドセット(真値ラベル)を形成する。アノテーションされたデータに対する大規模な実験は、現在のL(V)LMが複雑なセッション設定において意図を捉え、活用できていないことをさらに確認する。追加の分析により、意図を注入することでLLMの性能が向上することが示される。