PSI-Bench: Towards Clinically Grounded and Interpretable Evaluation of Depression Patient Simulators
arXiv cs.CL / 4/29/2026
📰 NewsDeveloper Stack & InfrastructureModels & Research
Key Points
- PSI-Benchは、うつ病患者シミュレータの挙動を「解釈可能で臨床的に根拠のある」形で、ターン/対話/集団レベルの多面的に評価する自動評価フレームワークです。
- 既存評価がLLMジャッジと不明確なプロンプトに依存し、行動多様性の検証が不足している点を補うことを狙っています。
- PSI-Benchを用いたベンチマークでは、7つのLLMでシミュレータが応答を長く・語彙的に多様にしつつも変動性が下がり、感情の解決が速すぎることや、否定→肯定へ一様に推移する傾向が見られました。
- モデル規模よりも、シミュレーションの枠組み(シミュレータ実装側)の方が忠実度(fidelity)への影響が大きいことが示され、人手による評価でも専門家の判断と強く整合する結果になりました。
Related Articles

How I Use AI Agents to Maintain a Living Knowledge Base for My Team
Dev.to

An API testing tool built specifically for AI agent loops
Dev.to
IK_LLAMA now supports Qwen3.5 MTP Support :O
Reddit r/LocalLLaMA
OpenAI models, Codex, and Managed Agents come to AWS
Dev.to

Automatic Error Recovery in AI Agent Networks
Dev.to