大規模言語モデルは基盤アルゴリズムを“再発明”できるか?

arXiv cs.AI / 2026/4/8

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、大規模言語モデルが、事前学習で得た知識から意図的に特定の内容を忘れさせた後に、確立された基盤コンピュータサイエンスのアルゴリズムを「再発明」できるかどうかを調査する。
  • 具体的には、GRPOベースのオンポリシー型アンラーニング手法を用いるUnlearn-and-Reinvent(忘却して再発明する)パイプラインを提案し、特定のアルゴリズム(例:ダイクストラ、ユークリッド)を除去したうえで、制御された環境で再発明を評価する。
  • 対象10のアルゴリズム、3つのオープンウェイトモデル、複数のヒント水準にわたる実験の結果、最も性能の高いモデル(Qwen3-4B-Thinking-2507)は、ヒントなしでアルゴリズムの50%を再発明でき、ヒント水準1で70%、ヒント水準2で90%まで上昇する。
  • 本研究では、ヒントはより単純なアルゴリズムに対して大きく役立つ一方で、より複雑なアルゴリズムでは段階的なヒントでさえうまく機能しないことが分かる。また、テスト時強化学習により、より高いヒント水準においてストラッセン(Strassen)アルゴリズムの再発明が成功することが示される。
  • 分析とアブレーションの結果、再発明フェーズにおける生成的検証器(generative verifier)が推論品質を維持し、「思考の崩壊(thought collapse)」を回避するうえで重要であることが示唆され、LLMによるアルゴリズム革新の可能性と限界の両方が明らかになる。

要旨: LLMは科学的発見を前進させる強い可能性を示している。しかし、それらが基礎的な革新(foundational innovation)を生み出す能力を有しているかどうかは、依然として未解決の問いである。本研究では、基礎的な革新に必要な前提条件に焦点を当てる。すなわち、「LLMは計算機科学の基礎アルゴリズムを再発明できるのか?」である。私たちの extit{Unlearn-and-Reinvent} パイプラインでは、Dijkstraのアルゴリズムやユークリッドのアルゴリズムのような特定の基礎アルゴリズムを、LLMの事前学習済み知識から取り除くためにLLMのアンラーニング(unlearning)を適用し、その上で、制御された環境のもとでモデルがそれを再発明できるかどうかを検証する。効果的なアンラーニングを可能にするため、GRPOに基づくオンポリシーのアンラーニング手法を採用する。10個の対象アルゴリズム、3つの強力なオープンウェイトモデル、3つのヒントレベルにわたって行った実験により、次のことが示された。(1) 最も強力なモデルであるQwen3-4B-Thinking-2507は、ヒントなしでアルゴリズムの50%を、ヒントレベル1で70%、ヒントレベル2で90%を、それぞれ正常に再発明する。(2) いくつかの高レベルなヒントは再発明の成功率を高めるが、手順ごとのヒントでさえ、これらの複雑なアルゴリズムに対しては失敗する。(3) テスト時強化学習により、ストラッセン(Strassen)アルゴリズムはヒントレベル2において成功裏に再発明される。出力軌跡の分析およびアブレーション研究を通じて、再発明フェーズにおける生成型の検証(generative verifier)が、モデルの推論力を維持する上で重要な役割を果たし、「thought collapse(思考崩壊)」現象を回避するのに役立つことが分かった。これらの知見は、LLMの革新的思考の可能性と現時点での限界の両方に関する洞察を提供する。