CLベンチ・ライフ:言語モデルは実生活の文脈から学べるのか?

arXiv cs.CL / 2026/5/1

📰 ニュースSignals & Early TrendsModels & Research

要点

  • 本論文は、AIアシスタントが専門的な環境から日常へ広がるにつれ、グループチャット、個人アーカイブ、行動の痕跡といった、経験に深く結びついた「雑で断片的な」実世界の文脈から学ぶ能力が不可欠になると指摘している。
  • その能力を評価するために、著者らは人手でキュレーションしたベンチマーク「CL-bench Life」を提示しており、405の文脈タスクペアと5,348の検証ルーブリックで一般的な実生活シナリオをカバーする。
  • 10個の最先端の言語モデルを評価した結果、実生活文脈の学習は依然として非常に難しく、最良モデルでもタスク解決率は19.3%にとどまり、平均は13.8%だった。
  • 証拠として、散らかった多人数の会話履歴や、日常における行動記録の断片のような複雑な情報に対する推論が特に苦手であることが示されている。
  • CL-bench Lifeは、日常でより信頼できるAIアシスタント実現に向けた改善を促すテストベッドとして位置づけられている。

Abstract

OpenClaw のような今日のAIアシスタントは、コンテキストを効果的に扱えるように設計されており、そのためコンテキスト学習は、モデルにとってますます重要な能力になりつつあります。これらのシステムが、プロフェッショナルな環境から日常生活へと広がっていくにつれて、扱わなければならないコンテキストの性質も変化します。現実のコンテキストは、多人数の会話、個人的なアーカイブ、行動の痕跡のように、個人的・社会的な経験と深く結びついており、しばしばごちゃごちゃしていて断片的で、扱いにくいものです。しかし、現在の最先端の言語モデルが、このようなコンテキストから確実に学習し、それに根ざしたタスクを解けるのかは、依然として不明です。そこで本研究では、ヒトによる完全なキュレーションに基づくベンチマークである CL-bench Life を提案します。これは、405 のコンテキスト—タスクペアと 5,348 の検証用ルーブリックからなるベンチマークで、よくある現実の生活シナリオをカバーしています。CL-bench Life でタスクを解くには、複雑でごちゃごちゃした現実のコンテキストに対して推論することが必要であり、既存のベンチマークで評価されている以上に踏み込んだ、強力な現実のコンテキスト学習能力が求められます。本研究では最先端の10個の LM を評価し、その結果、現実のコンテキスト学習は依然として非常に困難であることを見いだしました。最良の性能モデルでもタスク解決率は 19.3% にとどまり、一方でモデル間の平均性能はわずか 13.8% です。モデルは、雑然としたグループチャットの履歴や、日常生活における断片化された行動記録といったコンテキストに対して、いまだに十分に推論できていません。CL-bench Life は、現実のコンテキスト学習を進めるための重要な試験場を提供し、この分野での進展は、日常生活においてより知的で信頼できる AI アシスタントを実現することにつながります。