1Mトークン級コンテキストにおけるリトリーバルとマルチホップ推論：古典中国文書でLLMを評価

arXiv cs.AI / 2026/5/5

📰 ニュースModels & Research

共有:

要点

この研究は、1Mトークン級のコンテキストをうたう5つの最先端LLMを対象に、古典中国語テキストで長文リトリーバル能力と推論能力を評価します。
1Mトークンにおける単一ニードルのリトリーバルは、最強モデルでは実質的に解決されており、Gemini 3.1 Pro、Claude Opus 4.7、GPT-5.5はすべて100%の精度を達成しています。
マルチホップ推論では、コンテキストが伸びるにつれて性能が「減衰の型（decay signatures）」として異なる挙動を示します。Gemini/Claudeは512Kまで80%以上を維持し1Mでは緩やかに低下する一方、GPT-5.5/Qwen3.6-plusは512Kから1Mの間で急激に落ち、DeepSeek V4 Proは全レンジで滑らかに低下します。
著者らは、宣伝されるコンテキスト長は実際の“使える”長文マルチホップ性能の予測指標として弱いと結論づけており、モデル比較の最強の判別軸は512Kから1Mへの遷移であると述べています。

要旨: 古典的な中国語コーパスを用いて、1Mトークンのコンテキストウィンドウを公称する最先端の大規模言語モデル5つの、長文脈における検索と推論能力を評価する。補完的な2つの研究を報告する。テスト1は、入力の1Mトークン地点に対するシングルニードル検索を測定し、3つの深さにそれぞれ3つの伝記的ニードルを埋め込み、実際の（学習上の事前分布と整合的な）変種と、改変された（学習上の事前分布に矛盾する）変種の組を用いて、真のインコンテキスト検索と、記憶された学習データへの依存とを切り分ける。テスト2は、長文脈能力が、検索に中間推論が必要になる場合に低下するかどうかを調べるための追跡研究であり、3つのコンテキスト階層（256K、512K、1Mトークン）にまたがる3ホップのチェーントラバーサルを測定する。最も強力なモデルでは、1Mにおけるシングルニードル検索は実質的に解決されており、Gemini 3.1 Pro、Claude Opus 4.7、GPT-5.5はいずれも100%を達成する。しかし、マルチホップの性能をみると、3つの異なる劣化パターンが明らかになる。すなわち、安定レジーム（Gemini Pro、Claude）は、512Kまで80%超の精度を維持し、1Mでの劣化は小さい。終盤の崖レジーム（GPT-5.5、Qwen3.6-plus）は、512Kから1Mの間で急激に崩れる。そしてなめらかな低下レジーム（DeepSeek V4 Pro）は、全レンジにわたって徐々に低下する。これらの知見は、名目上のコンテキストウィンドウ長は、実用的な長文脈マルチホップ能力の良い代理指標ではないこと、また現在の1Mコンテキストのフラッグシップ同士を最も鋭く判別するのは512Kから1Mへの移行であることを示唆している。