二重目的の言語モデル:過学習なしでの学習効率
arXiv cs.CL / 2026/3/30
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文では、アーキテクチャの変更なしで、自回帰モデリング目的とマスク付き拡散目的を組み合わせた二重目的により言語モデルを学習することを提案する。
- このアプローチは、アーキテクチャの学習効率という自回帰モデルの利点を維持しつつ、単一目的の学習に比べて過学習への頑健性を高めると主張する。
- データの反復度合いをさまざまに変えながら50モデルを学習し、それを評価した実験を通じて、著者らは、両方の目的を用いることがすべての検証条件下で最適であることを見いだす。
- 本研究では、評価が下流の自回帰性能かマスク付き拡散性能のいずれを重視する場合でも、目的間の最良の重み付け/バランスは概ね同様であると報告している。



