概要: 科学的ディープリサーチ(DR)エージェントは、研究論文を複数セクションのレポートに統合することで、ユーザーの質問に答えます。ユーザーフィードバックは有用性を高め得ますが、既存のプロトコルでは最終レポートのみをスコアリングするため、DRエージェントがレポートを改善するためにどの中間アクションを取るべきかを研究し学習することが難しくなっています。私たちは、DRにおける中間アクションに対するユーザーフィードバックを収集した最初のデータセットであるDRACULAを構築しました。5週間を超える期間にわたり、19人の専門的なCS研究者が、(例:「データセットに関するセクションを追加する」)といったアクションを提案するDRシステムにクエリを投げます。私たちのユーザーは好みのアクションを選択し、その後、出力レポートが選択内容をどれだけうまく反映したかを判定し、8,103件のアクション嗜好と5,230件の実行判定を得ました。DRエージェントがDRACULAのアクションを実行できることを確認した上で、ユーザーが好むアクションの予測可能性をシミュレーションにより調べます。すなわち、ユーザーが選択するアクションをLLMがどれだけ予測できるかを評価し、有用なアクションを生成するための学習に向けた一歩とします。私たちは次を発見しました: (1) LLMによる判定は当初、アクション選択の予測に苦戦しますが、自身の自己申告や推測に基づくユーザー文脈シグナルではなく、ユーザーの全選択履歴を用いると最も大きく改善します; (2) 同一クエリに対するユーザーの選択は、明示されない目標に基づいて異なり、シミュレーションのボトルネックとなり、ユーザーがレポートを導くことを可能にするアフォーダンスに動機づけを与えます;そして (3) 私たちのシミュレーション結果は、ユーザーの過去のやり取りに基づいて新しいアクションを生成するオンライン介入を導きます。この介入で生成されたアクションは、その後のフォローアップ研究においてユーザーに最も頻繁に選ばれます。総じて、実行(execution)を広範に研究しつつも、DRACULAは重要な課題がまず「どのアクションを実行するかを決めること」にあることを明らかにします。私たちは、DRACULAの研究デザイン、ユーザーフィードバック、およびシミュレーションタスクをオープンソース化し、長期的なエージェントに対するアクション・フィードバックのための今後の研究を促進します。
DRACULA:ユーザーが実行してほしい行動を探る——深いリサーチ・エージェントのための調査
arXiv cs.CL / 2026/4/28
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- DRACULAは、深いリサーチ(DR)エージェントが提案する中間アクションについてユーザーのフィードバックを集めた新しいデータセットであり、最終レポートだけでなく途中の行動も評価対象にする。
- 5週間の調査では19人のCS専門研究者がDRシステムの提案(例:「データセットに関するセクションを追加」)に対して好みの中間アクションを選び、8,103件のアクション嗜好と5,230件の「選ばれたアクションがレポートに反映されたか」の判断が得られた。
- さらに、ユーザーが好むアクションの予測可能性を評価し、LLMは当初は予測が難しいが、自己申告や外挿による文脈信号よりも「ユーザーの選択履歴を完全に与える」ことで大きく改善することを示した。
- 同一のクエリでも、ユーザーが明示しない目標によって選好アクションが変わるためシミュレーションが詰まりやすい点を指摘し、その結果を活用して、過去のユーザー相互作用に基づき新しいアクションを提案するオンライン介入を設計したところ、追試ではユーザーが最も頻繁に選んだ。
- 研究の全体としては、実行(execution)ばかりを研究してきた領域に対し、「そもそもどのアクションを実行するかを決める」ことが重要な課題であることを明らかにし、DRACULAの調査設計・フィードバック・シミュレーション課題をオープンソース化して今後の発展を促す。

