品質マルチプライヤとしての合成書き換え:ポルトガル語の継続事前学習からのエビデンス

arXiv cs.CL / 2026/3/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、継続事前学習において合成の書き換えが、元のポルトガル語ソーステキストの品質とどのように相互作用するかを調べており、英語のみの実験ではなくポルトガル語に焦点を当てている。
  • ClassiCC-PTの品質スコア付きサブセット(品質レベル別に10Bトークン)を、7Bの命令調整済みモデルによって4つのスタイルに書き換え、条件ごとに訓練用として約40Bの合成トークンを生成する。
  • PoETa V2(ポルトガル語の44タスク)での評価では、強いスケール依存効果が示される。7Bのベースモデルでは、高品質データの書き換えが性能を改善する(+3.4 NPM)が、低品質データの書き換えは改善幅がはるかに小さい(+0.5 NPM)。
  • より小さな1.1Bモデルでは、品質と書き換えの相互作用は弱くなり、書き換えを行わない低品質データが、書き換えた高品質データと同程度に機能する。
  • 全体として、本研究は合成書き換えが「データ品質の増幅(quality multiplier)」として主に働き、データキュレーションの必要性を置き換えるものではないこと、そしてその効果はモデルの規模に依存することを結論づけている。
広告