AI Navigate

先端LLMで例外なく観測された「思わぬ弱点」とは、2月のAI注目論文

日経XTECH / 3/14/2026

📰 NewsSignals & Early TrendsIdeas & Deep AnalysisModels & Research

Key Points

  • 複数ターンの会話でLLMの精度が大きく低下し、15モデル全てで同様の傾向を確認。単一ターンの正確さは約90%なのに対し、複数ターンでは約65%へ低下。初期情報の欠落を補おうとして誤答を出すケースが多い。
  • 研究は単一質問ベンチマークの限界を指摘し、情報を断片化して逐次開示する多段階対話を用いた新評価手法を提案した。
  • 投稿は2025年5月の論文だが、2026年ICLRで口頭発表採択や著者の発言で注目を集め、AIエージェントの社会実装で長期課題として認識されている。
  • 影響はプロダクト設計やメモリ・対話設計、信頼性向上の取り組みに波及し、現実世界の対話エージェント開発に重要な示唆を与える。
 生成AI(人工知能)を含む最新のAI研究動向を知るため、世界中の研究者やエンジニアが参照しているのが、論文速報サイト「arXiv(アーカイブ)」である。そんなarXivの投稿論文から、2026年2月8日~3月8日にSNSのX、Bluesky、LinkedIn、Redditで多く言及されたAI分野の注目論文を紹介する。調査には米Meltwater(メルトウォーター)のSNS分析ツールを利用した。対象は全世界のオリジナル投稿、コメント、再投稿、引用投稿である。

 ChatGPTやClaudeといった最先端のLLM(大規模言語モデル)は、単一の質問(プロンプト)に対しては高い精度で回答できる一方、日常会話でよくある複数回のやり取りからなる質問には精度がガクッと落ちてしまう――。そんなLLMの思わぬ弱点を示す論文が、2026年2月の世界SNS言及で1位になった。Microsoft ResearchとSalesforce Researchの研究チームによる「LLMs Get Lost In Multi-Turn Conversation(大規模言語モデルは複数ターンにわたる会話で混乱する)」である。

関連論文: LLMs Get Lost In Multi-Turn Conversation
図 実験では15のLLMについて単一ターンおよび複数ターンの会話をシミュレートした。この結果、いずれも複数ターンの会話では能力(aptitude)の低下と信頼性(reliability)の大幅な低下がみられた。グラフ中の能力(aptitude)とは最良ケースの会話シミュレーションにおける性能を、信頼性の欠如(unreliability)とは最良ケースと最悪ケースの性能差を指す。
図 実験では15のLLMについて単一ターンおよび複数ターンの会話をシミュレートした。この結果、いずれも複数ターンの会話では能力(aptitude)の低下と信頼性(reliability)の大幅な低下がみられた。グラフ中の能力(aptitude)とは最良ケースの会話シミュレーションにおける性能を、信頼性の欠如(unreliability)とは最良ケースと最悪ケースの性能差を指す。
(出所:論文「LLMs Get Lost In Multi-Turn Conversation」)
[画像のクリックで拡大表示]

 この論文が投稿されたのは2025年5月だが、2026年4月開催のAIトップカンファレンス「ICLR 2026」の口頭発表に採択された他、2026年2月に著者の1人がX上で「現時点での最新モデルでも同様の精度劣化がみられる」と明らかにしたことで、AI研究者の間で改めて注目された。研究者コミュニティーの間で、AIエージェントの社会実装にあたって解決すべき長期的課題の1つと認識されつつある。

 これまでLLMの性能を測るベンチマークの多くは、単一の質問テキストに対する回答の精度を測定するものだった。一方、日常会話の多くは複数のやり取り(ターン)の中で少しずつ情報が明らかになるのが一般的で、一問一答型のベンチマークとは乖離(かいり)がある。そこで論文の著者は「1つの質問を複数の断片に分割し、それを段階的に開示する」AIを構築し、最新のLLMと対話させた。

 例えば、「アンドリューは600kcalのシナモンロール200個と450kcalのマフィン300個を作りました。アンドリューが作ったお菓子の総カロリーを計算してください」といった単一の質問を、

 「アンドリューが作ったお菓子の総カロリーを計算してください」
 「まず、アンドリューはシナモンロールを200個作りました」
 「さらにアンドリューはマフィン300個も作りました」
 「ちなみに、シナモンロール1個のカロリーは600kcalです」
 「マフィン1個のカロリーは450kcalです」

 といった複数ターンの会話に分割し、LLMに逐次入力した。この手法で、当時の最先端のLLMに対して20万件以上の会話シミュレーションデータを取得した。

 この結果、LLMの回答精度は、1回の質問で全ての情報を示す単一ターンのケースで約90%だったのに対し、情報を小出しにする複数ターンのケースでは約65%に低下した。LLMは最初の質問に対し、足りない情報を勝手に追加して誤った回答を出力する傾向がみられた。その後のやり取りで情報を全て与えても、LLMは当初の誤答を引きずる形で「迷走」し、誤った回答を返すことがあった。こうした精度の劣化は、評価した15モデルすべてで例外なく観測されたという。

 なお、著者の1人であるPhilippe Laban氏が2026年2月にX上で示した最新の調査結果によると、GPT-5.2やClaude Opus 4.6のような最新モデルでも同様の傾向がみられたという。

関連投稿: https://x.com/PhilippeLaban/status/2026329136864645390

 論理推論(Reasoning)思考の長さ・深さを問わず劣化がみられたことから、この問題は「一問一答を前提としたベンチマーク」に最適化された現在のLLMが共通して抱える課題といえそうだ。AIと人間が日常的に対話する未来に向け、本質的な解決が求められている。

次のページ

AIエージェントをめぐるトラブルの責任はどこに

この記事は有料会員限定です