AI Navigate

継続的に自己改善するAI

arXiv cs.AI / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 現代の大規模言語モデル(LLM)に基づくAIを制約する3つの根本的なボトルネックを特定した。これらは、データ効率の高い知識獲得、有限な人間が生成するデータへの依存、そして学習アルゴリズムの探索が人間の能力に制限されている点である。
  • 小さなコーパスを豊かな知識表現へ拡張する合成データ手法を提案し、限られたソース素材からモデルのパラメータを更新できるようにする。
  • 市販のインストラクションチューニング済みLMからの蒸留を用いずに、モデル自身が合成データを生成して事前学習機能をブートストラップできることを示している。
  • テスト時に学習アルゴリズム構成の空間を探索する範囲を広げることで、AIは人間が手作業で探索できるより大きな学習戦略の領域を探索できることを示している。
  • 本論文は、継続的に自己改善するAIに向けた取り組みとしてこれらのアイデアを位置づけ、人間データと手動のアルゴリズム設計への依存を減らすことを目指している。

要旨: 現代の言語モデルベースのAIシステムは非常に力強い一方で、その能力は三つの重要な点で人間の創作者によって根本的に制限されている。第一に、モデルの重みはファインチューニングによって更新できるにもかかわらず、事前学習後に小規模で専門的なコーパスから新しい知識を獲得することはデータの効率が極めて低いままである。第二に、これらのシステムの訓練は歴史全体にわたる有限の人間作成データに大きく依存している。第三に、AIモデルを訓練するために用いられるパイプラインは、人間の研究者が発見し探究できるアルゴリズムによって制約されている。この論文は、これら固有の制約を克服する小さな一歩を踏み出し、これらの依存関係を断ち切って継続的に自己改善するAIを作成することを目的とした三つの章を提示する。第一に、知識獲得におけるデータ効率の壁を克服するために、小規模なコーパスを多様化・増幅して豊かな知識表現へと変換する合成データアプローチを提案し、限られた出典素材からモデルがパラメータを効果的に更新できるようにする。第二に、人間データへの依存を減らすため、一定量のこのようなデータが与えられた場合でも、モデルは自己生成の合成データを用いてオフ・ザ・シェルフの指示チューニング済みLMからの蒸留なしに基本的な事前訓練能力をブートストラップできることを示す。最後に、人間設計の訓練パラダイムを超越するため、テスト時にアルゴリズムの空間を横断して探索を拡大することにより、AIは人間の研究者が手動で探索できる範囲よりも大きな学習アルゴリズム構成空間を探索できることを示す。