LLMは時間を知覚できるのか？実証的調査

arXiv cs.AI / 2026/4/2

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LLMは一般に自分のタスクがどれくらいで終わるかを信頼できる形で見積もることができず、68のタスクと4つのモデルファミリにわたって大きな推定誤差が見られると報告している。
タスク実行前の所要時間の見積もりでは、モデルは実際の所要時間に対して体系的に4〜7倍の過大推定を行い、数秒で終わるタスクに対して人間の時間感覚の分単位を予測することが多い。
相対的な順序（どちらが先か／長いか）を問う実験では、直感に反するタスク対に対してほぼ偶然以下の、あるいはそれに近い性能しか示されず、時間理解というよりはヒューリスティックやラベルに基づく振る舞いを示唆している。
所要時間の事後的な想起（回想）についても校正が不十分で、推定が実測からおよそ桁（オーダー）単位で乖離し、どちらの方向にも1桁程度のずれが生じる。また、5〜10倍の誤差が同様に続く多段のエージェント型設定でも、同様の失敗が見られる。
著者らは、LLMは学習データから命題的な「時間に関する知識」を保持している可能性はあるものの、自身の推論に要する時間に対する経験的な裏付け（実体験に基づく根拠）を欠いていると結論づけており、エージェントのスケジューリング、計画、時間的制約のある用途への直接的な含意があるとしている。

要旨: 大規模言語モデルは、自身のタスクがどれくらいの時間を要するかを見積もることができません。本研究では、68のタスクと4つのモデルファミリーにまたがる4つの実験を通じて、この制約を検証します。事前の見積もりは実際の所要時間を4--7 $imes$ （ $p < 0.001$ ）過大評価し、モデルは数秒で完了するタスクに対して、人間の尺度での数分を予測します。相対的な順序付けも同様にうまくいきません。ヒューリスティックへの依存をあぶり出すように設計されたタスク対では、モデルのスコアは偶然（GPT-5: 逆説的なペアで18 emplate on counter-intuitive pairs, $p = 0.033$ ）以下にとどまり、複雑さのラベルが誤解を招くと系統的に失敗します。事後の想起は現実とかけ離れています――見積もりは実際から、どちらの方向にも1桁（オーダーオブマグニチュード）ずれます。これらの失敗は、多段のエージェント的設定においても持続し、誤差は5--10 $imes$ です。モデルは訓練から、所要時間に関する命題的な知識を持っていますが、自身の推論時間に対する経験的な裏付けを欠いています。このことには、エージェントのスケジューリング、計画、そして時間に敏感な状況に対する実用上の含意があります。