学習時テスト（Learning to Learn-at-Test-Time）：学習可能な適応ポリシーを備えた言語エージェント

arXiv cs.LG / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

テスト時学習（TTL）は、推論時に環境との反復的な相互作用を通じて行動を反復的に改善できるようにすることで、言語エージェントを強化します。
本論文では、TTLにおける適応ポリシーは手作業で設計するのではなく学習されるべきだと主張しています。最適な更新は、タスク環境や下流での改善に依存するためです。
標準的なTTLを内側ループで実行し、外側ループでタスク分布をまたいだ進化的探索を用いて適応ポリシーを最適化する、バイレベル最適化フレームワークであるMeta-TTLを提案します。
JerichoおよびWebArena-Liteでの実験（いずれも分布内・分布外）により、Meta-TTLが複数のメタエージェントのバックボーンにおいて、手作りのベースラインを一貫して上回ることが示されます。
著者らは、学習された適応ポリシーが、学習時のタスク分布を超えて一般化できる転移可能な戦略を捉えていると結論づけています。

AI Business

日経XTECH

日経XTECH

Reddit r/LocalLLaMA

Dev.to