GISTBench：エビデンスに基づく関心の検証によってLLMのユーザー理解を評価する

arXiv cs.AI / 2026/4/1

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

GISTBenchは、レコメンデーションシステムにおけるユーザーの関心を、インタラクション履歴からどれだけ推論し検証できるかを測るためのベンチマークとして導入されており、純粋なアイテム予測の指標を超えた評価を目指しています。
本論文では2つの指標ファミリを提案します。Interest Groundedness（精度/再現率：幻覚的なカテゴリを罰し、カバレッジを報いる）と、Interest Specificity（検証されたユーザープロファイルがどれほど互いに明確に異なるかを評価）です。
合成データセットが公開されます。これは、グローバルな短尺動画プラットフォームの実際のエンゲージメント・トレースから構築され、暗黙/明示の両方のシグナルに加えてテキストによる説明も含みます。
著者らは、ユーザー調査によってデータセットの忠実性を検証し、オープンウェイトのLLMを8モデル（7B〜120B）テストした結果、さまざまなインタラクション種類にまたがってエンゲージメント・シグナルを正確に数え上げ、帰属づけることに顕著なボトルネックがあることを見いだしています。
全体としての結果は、現在のLLMがユーザーの関心をエビデンスに基づいて検証する点で依然として難しさがあること、特にエンゲージメント・シグナルの種類や構造が多様な場合にその傾向が強いことを示唆しています。

要旨: 本稿では、レコメンデーションシステムにおいて、ユーザが提示する対話履歴からユーザを理解する能力をLarge Language Models（LLM）が備えているかを評価するためのベンチマークであるGISTBenchを導入する。アイテム予測の精度に焦点を当てる従来のRecSysベンチマークとは異なり、当該ベンチマークは、LLMがエンゲージメントデータからユーザの関心をどれだけ正確に抽出し、検証できるかを評価する。新規の2つの指標群を提案する。すなわち、Interest Groundedness（IG）であり、これを適合率と再現率の構成要素に分解して、幻覚的な関心カテゴリを別々に罰し、カバレッジを報いることとする。またInterest Specificity（IS）では、検証されたLLMによるユーザプロファイル予測の識別性（distinctiveness）を評価する。実在のユーザの相互作用に基づいて構築した、グローバルな短尺動画プラットフォーム上の合成データセットを公開する。本データセットには、暗黙および明示のエンゲージメント指標と、豊富なテキスト記述が含まれる。ユーザ調査によりデータセットの忠実性を検証し、7Bから120Bまでのパラメータを持つ8つのオープンウェイトLLMを評価する。結果から、現在のLLMには性能上のボトルネックが存在することが示される。特に、異なる種類の相互作用にまたがってエンゲージメント指標を正確に数え上げ、その帰属を行う能力が限定的である点が顕著である。