品質マルチプライヤとしての合成書き換え：ポルトガル語の継続事前学習からのエビデンス

arXiv cs.CL / 2026/3/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、継続事前学習において合成の書き換えが、元のポルトガル語ソーステキストの品質とどのように相互作用するかを調べており、英語のみの実験ではなくポルトガル語に焦点を当てている。
ClassiCC-PTの品質スコア付きサブセット（品質レベル別に10Bトークン）を、7Bの命令調整済みモデルによって4つのスタイルに書き換え、条件ごとに訓練用として約40Bの合成トークンを生成する。
PoETa V2（ポルトガル語の44タスク）での評価では、強いスケール依存効果が示される。7Bのベースモデルでは、高品質データの書き換えが性能を改善する（+3.4 NPM）が、低品質データの書き換えは改善幅がはるかに小さい（+0.5 NPM）。
より小さな1.1Bモデルでは、品質と書き換えの相互作用は弱くなり、書き換えを行わない低品質データが、書き換えた高品質データと同程度に機能する。
全体として、本研究は合成書き換えが「データ品質の増幅（quality multiplier）」として主に働き、データキュレーションの必要性を置き換えるものではないこと、そしてその効果はモデルの規模に依存することを結論づけている。