大規模言語モデルにおけるファインチューニング対インコンテキスト学習:形式言語学習の観点から

arXiv cs.CL / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、大規模言語モデルにおける2つの基本的な学習モードであるファインチューニング(FT)とインコンテキスト学習(ICL)を比較し、言語能力の向上にどちらが優れるのか、また両者の帰納バイアスがどう異なるのかを検討する。
  • 先行研究での比較結果が実験設定のばらつきにより混在・不明確だったことを受けて、明確な言語境界、制御された文字列サンプリング、データ汚染なしを備えた統制タスクと、生成確率に基づく判別的な言語熟達テストを提案する。
  • 結果として、FTはイン分布の汎化でICLより高い言語能力を示す一方、アウト・オブ・ディストリビューションの汎化では両者が同程度の性能となる。
  • 帰納バイアスは、両者が言語を部分的に学習している段階では概ね似ているが、熟達が高くなるにつれて分岐することが示される。
  • FTと異なりICLは、モデルサイズやモデルファミリによって性能差が大きく、さらに言語のトークン彙に敏感であることが分かり、形式言語が自然言語データでは切り分けが難しい挙動を評価する有望な検証基盤になると結論づけている。著者は関連コードも公開している。

概要: 大規模言語モデル(LLM)は、2つの基本的な学習モード――微調整(FT)とインコンテキスト学習(ICL)――で動作しており、どちらのモードがより高い言語能力をもたらすのか、またそれらが異なる帰納バイアスを持つのかという重要な問いが生じる。FTとICLを比較した先行研究では、実験設定が一貫していないことにより、混在した結果や決定的でない結果が得られてきた。厳密な比較を可能にするために、我々は形式的な言語学習タスクを提案する。そこでは、明確な言語境界を与え、文字列のサンプリングを制御し、データの汚染を防ぐ。そして、言語能力のための識別的テストも導入する。LLMが、言語内の文字列に対する生成確率が言語外の文字列に対する生成確率より高いと判断できれば成功とする。
実験的に、次のことが分かる。(a) 分布内の汎化においては、FTの方がICLよりも高い言語能力を示すが、分布外の汎化では両者は同程度の性能である。(b) 文字列生成確率の相関により測定したそれらの帰納バイアスは、両モードが言語を部分的に学習している場合には類似しているが、高い能力レベルでは分岐する。(c) FTとは異なり、ICLの性能は、サイズや系統の異なるモデル間で大きく異なり、言語のトークン語彙に敏感である。したがって本研究は、LLMの評価において制御された検証場として形式言語が有望であること、そして自然言語データセットでは分離しにくい挙動を示すことを明らかにする。我々のソースコードは https://github.com/bishwamittra/formallm で公開している。

大規模言語モデルにおけるファインチューニング対インコンテキスト学習:形式言語学習の観点から | AI Navigate