広告

最後の指紋:MarkdownトレーニングがLLMの散文をどのように形作るか

arXiv cs.CL / 2026/3/31

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMにおけるemダッシュの「使いすぎ」が単なる文体上の癖ではなく、Markdownに満ちた学習データから散文へ漏れ出した一種のMarkdownであると主張する。
  • データセットの構造、書式規範の内面化、Markdownと散文の双方におけるemダッシュの二重の役割、そしてポストトレーニングがその効果をどのように増幅するかを結びつける、機械論的な系譜(ジェネロジー)を提案する。
  • 複数のプロバイダにまたがる12のモデルを対象とした、2条件の抑制実験では、Markdownを避けるよう指示した場合に、ほとんどの目に見えるMarkdown機能は消失する一方で、emダッシュは概ね残存することが分かる。
  • emダッシュの頻度と抑制への耐性はモデルごとに異なり、MetaのLlamaモデルではゼロから、他のモデルでは大幅に高い値まで幅がある。また、微調整(ファインチューニング)手法の診断的シグネチャとして機能する。
  • 追加の抑制勾配(グラデーション)や、ベースモデルとインストラクションモデルの比較は、この傾向がRLHF以前から存在し得て、明示的な禁止プロンプトであっても完全には除去できない可能性を示唆する。

要旨: 大規模言語モデルはダッシュ(em dash)をさまざまな頻度で生成し、いくつかのモデルが「過剰に」それを用いるという観察は、AI生成テキストの最も広く議論されている指標の1つになっている。にもかかわらず、このパターンについての機構的(メカニスティックな)説明は存在しない。さらに、LLMがマークダウン形式の出力をデフォルトにするという並行した観察も、それと結び付けられたことはない。我々は、em dash が散文へ漏れ出たマークダウンである、という仮説を提案する。すなわち、em dash は、マークダウンに飽和した学習コーパスから LLM が獲得する構造的な指向性のうち、最小の生き残り単位である。そこで我々は、学習データの構成、構造の内面化、em dash のデュアルレジスタ(複調的)な位置付け、そして事後学習(ポストトレーニング)による増幅を結ぶ5段階の系譜(genealogy)を提示する。
我々は、この仮説を、5つのプロバイダ(Anthropic、OpenAI、Meta、Google、DeepSeek)の12モデルを対象とした2条件の抑制実験で検証する。すなわち、モデルにマークダウン形式を避けるよう指示すると、目立つ特徴(見出し、箇条書き、太字)は除去されるか、ほぼ除去される。しかし em dash は残り続ける。例外として、MetaのLlamaモデルでは、まったく生成されない。em dash の頻度と抑制耐性は、1,000語あたり0.0(Llama)から、9.1(抑制下の GPT-4.1)まで幅があり、適用された特定のファインチューニング手順の署名(signature)として機能する。3条件の抑制勾配では、たとえ em dash の明示的な禁止を行っても、一部のモデルではそのアーティファクトを完全には除去できないことが示される。さらに、ベース(base)対指示(instruct)の比較により、この潜在的な傾向が RLHF の前から存在することが確認される。これらの発見は、これまで分離されていた2つのオンライン上の議論を結び付け、em dash の頻度をスタイル上の欠陥としてではなく、ファインチューニング手法の診断指標として再解釈する。

広告