CLベンチ・ライフ:言語モデルは実生活の文脈から学べるのか?
arXiv cs.CL / 2026/5/1
📰 ニュースSignals & Early TrendsModels & Research
要点
- 本論文は、AIアシスタントが専門的な環境から日常へ広がるにつれ、グループチャット、個人アーカイブ、行動の痕跡といった、経験に深く結びついた「雑で断片的な」実世界の文脈から学ぶ能力が不可欠になると指摘している。
- その能力を評価するために、著者らは人手でキュレーションしたベンチマーク「CL-bench Life」を提示しており、405の文脈タスクペアと5,348の検証ルーブリックで一般的な実生活シナリオをカバーする。
- 10個の最先端の言語モデルを評価した結果、実生活文脈の学習は依然として非常に難しく、最良モデルでもタスク解決率は19.3%にとどまり、平均は13.8%だった。
- 証拠として、散らかった多人数の会話履歴や、日常における行動記録の断片のような複雑な情報に対する推論が特に苦手であることが示されている。
- CL-bench Lifeは、日常でより信頼できるAIアシスタント実現に向けた改善を促すテストベッドとして位置づけられている。




