委任するとLLMが文書を壊す:DELEGATE-52による評価
arXiv cs.CL / 2026/4/20
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本研究は、52の専門領域にまたがる文書編集を伴う長い委任型ワークフローにおいて、LLMがどれだけ信頼できるかを検証するベンチマークDELEGATE-52を提案しています。
- 19のLLMを用いた大規模実験では、最先端のフロンティアモデルであっても委任中に文書を破損し、長いワークフローの終点で文書内容の平均約25%が損なわれることが示されました。
- エージェント的なツール使用はDELEGATE-52の性能を改善しないことが分かり、ツール活用だけでは文書の劣化を防げない可能性が示されています。
- 文書サイズの大きさ、やり取りの長さ、そして紛らわしい(ディストラクタ)ファイルの存在によって劣化の深刻さが増すことが明らかになり、誤りはまばらでも致命的になり得るとされています。
- 著者らは、現在のLLMは「委任の代理人」として信頼できず、長時間のやり取りの中で静かに(見過ごされて)誤りが蓄積し、文書の正確性を損なうと結論づけています。
関連記事
推論では余裕の8GBが、ファインチューニングでは即死する — 学習が推論の8倍のVRAMを食う理由
Qiita

Appleが「声なき入力」に約3000億円を投じた理由|Q.ai買収とAirPods Pro 3の接点
Innovatopia
北京ヒューマノイドロボットハーフマラソンで優勝記録更新、CursorがバリュエーションUS$50Bでの調達協議など:2026-04-20 AI動向まとめ
Qiita

イーロン・マスクがAIによる解雇に対し給付金を送る「ユニバーサル・ハイインカム」で対応すべきと発言し批判が殺到
GIGAZINE
Anthropicとホワイトハウス、Mythosへの懸念高まりを受けて“仲直り”を模索か
ITmedia AI+