AIとの長い会話は逆効果？MIT論文が示した事実

note / 3/12/2026

📰 NewsIdeas & Deep AnalysisModels & Research

Read original →

共有:

Key Points

MITの論文は、AIとの長い対話がタスクの正確性や生産性を低下させる可能性を示唆している。
長文対話は注意力の分散や誤情報の混入を引き起こしやすいと報告されている。
短く要点を絞った対話や要約機能、深掘りを段階的に提供する設計が有効だとの結論が含まれる。
実務への示唆として、チャットUXは長話を避け、要約・分岐・再確認を組み込む設計が推奨される。

AIとの長い会話は逆効果？MIT論文が示した事実

とある地方都市の某外科医

2026年3月11日 17:00

AIに何度も「違う、そうじゃなくて」と言い直した経験はないだろうか。同じチャットで会話を重ねるほど、なぜか回答がズレていく。修正を頼んでも、さっきと同じ間違いを繰り返す。

気のせいだと思っていた。でも、気のせいではなかった。

論文が出た

MITとIBMの共同研究チームが、この問題を正面から検証している。

タイトルは"Do LLMs Benefit from Their Own Words?"。「LLMは自分自身の言葉から恩恵を受けているのか？」

Do LLMs Benefit from Their Own Words? arxiv.org

AIチャットの仕組みとして、会話が続くと過去のやり取りが全部プロンプトに含まれる。自分の質問だけでなく、AIの過去の回答も丸ごと。20回やり取りした後の21回目には、過去の質問20個、AIの回答20個、そして新しい質問。これが一塊で送られている。

AIの回答は長い。だから会話が進むほど、コンテキストの大半はAIの過去の回答で埋まっていく。

本来5,000〜10,000文字で済むユーザー側の情報が、AIの回答履歴を含めると25,000〜55,000文字に膨れ上がる。最大10倍。研究チームはこの膨大な過去の回答が本当に必要なのかを問うた。

消しても変わらない

実際のユーザー会話データを使って、4つのモデルで比較実験をしている。「全履歴あり」と「AIの過去の回答を全部消した状態」。

AIの過去の回答を全て消しても、回答の品質が落ちないケースが大量にあった。モデルによっては、消した方が品質が上がった。

理由の一つは単純で、実際の会話の36.4%はそもそも前の文脈と関係がない。同じチャットの中で話題を変えたり、全く別のことを聞いたりするのは普通のことで、そのとき過去の履歴はただのノイズになる。

コンテキスト汚染

もっと厄介な問題がある。研究チームが「コンテキスト汚染（Context Pollution）」と呼んでいる現象。

AIが自分の過去の回答に引きずられて、誤りを次のターンに持ち込む。

論文の例がわかりやすい。あるユーザーがAIにUMAPという手法のコードを書かせた。その後「やっぱりt-SNEに変えて」と頼む。するとAIは、UMAP固有の設定であるJaccard距離をt-SNEにも持ち込んでしまい、バグのあるコードを出した。過去の履歴がない状態で同じ質問をすると、正しいコードが出る。

これが最新の最高性能モデル（GPT-5.2）でも起きている。モデルの性能が上がれば解決する類の問題ではない。むしろ賢いモデルほど過去の文脈を丁寧に拾おうとするから、そこに誤りがあると忠実に引きずられる。

圧縮すれば解決するのか

ChatGPTやClaudeには、会話が長くなると過去のやり取りを要約して圧縮する機能がある。これで問題は解消されるように見える。

されない。

圧縮は、コンテキストが上限に達しそうなときに初めて動く。それまではフルの履歴を抱えたまま走っている。そして要約すること自体が情報の取捨選択だから、必要な情報が落ちることもあれば、誤った情報が要約に残ることもある。コンテキスト汚染が要約の中に焼き込まれれば、圧縮後もそのまま引き継がれる。

チャットだけの問題ではない

この論文はClaude CodeやCursorといったコーディングエージェントの文脈管理にも言及している。

エージェント系のツールでは、会話の履歴に加えてツールの実行結果やファイルの中身、計画のメモなど、さらに多くの情報がコンテキストに積み上がっていく。チャット以上に文脈のゴミ処理が切実な領域で、各社がすでに対策を模索し始めている。Cursorは動的な文脈管理を導入し、Claude Codeはツール結果のクリアや文脈の編集機能を実装した。問題が認識され始めた段階にある。