ESL-Bench: 健康エージェントのためのイベント駆動型シンセティック・ロングチュージナル・ベンチマーク
arXiv cs.AI / 2026/4/6
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、「健康エージェント」を評価するための新しいイベント駆動型シンセティック・ロングチュージナル・ベンチマークであるESL-Benchを提案する。ここでの健康エージェントは、多ソースかつ時間的に拡張された患者の軌跡に対して推論する必要がある。
- ESL-Benchは、連続的なデバイスストリーム、疎な臨床検査、エピソード的な生活イベントを組み合わせた1〜5年のタイムラインを持つ100人の合成ユーザを生成し、さらに指標への影響の明示的なグランドトゥルースとなるパラメータを提供する。
- フレームワークは、各健康指標を、離散イベントによって起動される確率過程の基底成分としてモデル化する。シグモイド状の立ち上がりと指数減衰を用い、生理学的な飽和/投影制約を適用する。
- ハイブリッドなパイプラインでは、疎な意味的アーティファクトにはLLMベースの計画を用い、密な指標ダイナミクスにはアルゴリズムによるシミュレーションを用いることで、評価クエリに対するプログラム可能な回答を可能にする。
- 13手法での実験では、DBネイティブなエージェントがメモリ拡張RAGを上回る(48〜58% vs. 30〜38%)。特に、多段ホップの証拠帰属を要求する比較(Comparison)および説明(Explanation)タスクで最大の向上が見られる。



