先端LLMで例外なく観測された「思わぬ弱点」とは、2月のAI注目論文

日経XTECH / 3/13/2026

📰 NewsSignals & Early TrendsModels & Research

共有:

Key Points

著者らはGPT-5.2やClaude Opus 4.6といった最新モデルでも同様の傾向が見られると報告。学術界では、AIエージェントの社会実装における長期的課題の一つとして位置づけられている。

　生成AI（人工知能）を含む最新のAI研究動向を知るため、世界中の研究者やエンジニアが参照しているのが、論文速報サイト「arXiv（アーカイブ）」である。そんなarXivの投稿論文から、2026年2月8日～3月8日にSNSのX、Bluesky、LinkedIn、Redditで多く言及されたAI分野の注目論文を紹介する。調査には米Meltwater（メルトウォーター）のSNS分析ツールを利用した。対象は全世界のオリジナル投稿、コメント、再投稿、引用投稿である。

　ChatGPTやClaudeといった最先端のLLM（大規模言語モデル）は、単一の質問（プロンプト）に対しては高い精度で回答できる一方、日常会話でよくある複数回のやり取りからなる質問には精度がガクッと落ちてしまう――。そんなLLMの思わぬ弱点を示す論文が、2026年2月の世界SNS言及で1位になった。Microsoft ResearchとSalesforce Researchの研究チームによる「LLMs Get Lost In Multi-Turn Conversation（大規模言語モデルは複数ターンにわたる会話で混乱する）」である。

関連論文： LLMs Get Lost In Multi-Turn Conversation

図　実験では15のLLMについて単一ターンおよび複数ターンの会話をシミュレートした。この結果、いずれも複数ターンの会話では能力（aptitude）の低下と信頼性（reliability）の大幅な低下がみられた。グラフ中の能力（aptitude）とは最良ケースの会話シミュレーションにおける性能を、信頼性の欠如（unreliability）とは最良ケースと最悪ケースの性能差を指す。

（出所：論文「LLMs Get Lost In Multi-Turn Conversation」）

[画像のクリックで拡大表示]

　この論文が投稿されたのは2025年5月だが、2026年4月開催のAIトップカンファレンス「ICLR 2026」の口頭発表に採択された他、2026年2月に著者の1人がX上で「現時点での最新モデルでも同様の精度劣化がみられる」と明らかにしたことで、AI研究者の間で改めて注目された。研究者コミュニティーの間で、AIエージェントの社会実装にあたって解決すべき長期的課題の1つと認識されつつある。

　これまでLLMの性能を測るベンチマークの多くは、単一の質問テキストに対する回答の精度を測定するものだった。一方、日常会話の多くは複数のやり取り（ターン）の中で少しずつ情報が明らかになるのが一般的で、一問一答型のベンチマークとは乖離（かいり）がある。そこで論文の著者は「1つの質問を複数の断片に分割し、それを段階的に開示する」AIを構築し、最新のLLMと対話させた。

　例えば、「アンドリューは600kcalのシナモンロール200個と450kcalのマフィン300個を作りました。アンドリューが作ったお菓子の総カロリーを計算してください」といった単一の質問を、

　「アンドリューが作ったお菓子の総カロリーを計算してください」
　「まず、アンドリューはシナモンロールを200個作りました」
　「さらにアンドリューはマフィン300個も作りました」
　「ちなみに、シナモンロール1個のカロリーは600kcalです」
　「マフィン1個のカロリーは450kcalです」

　といった複数ターンの会話に分割し、LLMに逐次入力した。この手法で、当時の最先端のLLMに対して20万件以上の会話シミュレーションデータを取得した。

　この結果、LLMの回答精度は、1回の質問で全ての情報を示す単一ターンのケースで約90％だったのに対し、情報を小出しにする複数ターンのケースでは約65％に低下した。LLMは最初の質問に対し、足りない情報を勝手に追加して誤った回答を出力する傾向がみられた。その後のやり取りで情報を全て与えても、LLMは当初の誤答を引きずる形で「迷走」し、誤った回答を返すことがあった。こうした精度の劣化は、評価した15モデルすべてで例外なく観測されたという。

　なお、著者の1人であるPhilippe Laban氏が2026年2月にX上で示した最新の調査結果によると、GPT-5.2やClaude Opus 4.6のような最新モデルでも同様の傾向がみられたという。

　論理推論（Reasoning）思考の長さ・深さを問わず劣化がみられたことから、この問題は「一問一答を前提としたベンチマーク」に最適化された現在のLLMが共通して抱える課題といえそうだ。AIと人間が日常的に対話する未来に向け、本質的な解決が求められている。

AIエージェントをめぐるトラブルの責任はどこに

この記事は有料会員限定です

PearlOS. We gave swarm intelligence a local desktop environment and code control to self-evolve. Has been pretty incredible to see so far. Open source and free if you want your own.

Reddit r/LocalLLaMA

Waymo hits 170 million miles while avoiding serious mayhem

The Verge

The Inference Market Is Consolidating. Agent Payments Are Still Nobody's Problem.

Dev.to

QwenDean-4B | fine-tuned SLM for UIGen; our first attempt, looking for feedback!

Reddit r/LocalLLaMA

Signal’s Creator Is Helping Encrypt Meta AI

Wired

先端LLMで例外なく観測された「思わぬ弱点」とは、2月のAI注目論文

Key Points

次のページ

Related Articles

PearlOS. We gave swarm intelligence a local desktop environment and code control to self-evolve. Has been pretty incredible to see so far. Open source and free if you want your own.

Waymo hits 170 million miles while avoiding serious mayhem

The Inference Market Is Consolidating. Agent Payments Are Still Nobody's Problem.

QwenDean-4B | fine-tuned SLM for UIGen; our first attempt, looking for feedback!

Signal’s Creator Is Helping Encrypt Meta AI

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer