Diffutron:トルコ語向けのマスク付き拡散言語モデル
arXiv cs.CL / 2026/3/24
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、形態的に豊かな言語に対するマスク付き拡散アプローチの活用におけるギャップを埋めることを目的として、トルコ語に特化したマスク付き拡散言語モデルであるDiffutronを提案する。
- Diffutronは、リソース効率に配慮したパイプラインとして構築されており、多言語エンコーダを大規模コーパス上でLoRAベースの継続的事前学習で学習する。
- モデルを生成可能にするため、著者らは段階的な命令チューニング戦略を用いる。すなわち、まず一般的な命令セットでモデルを適応させ、その後にタスク固有の命令セットで段階的に適応を行う。
- ベンチマーク実験では、コンパクトなモデルサイズであっても、Diffutronが大規模なマルチビリオン規模の自己回帰ベースラインに対して競争力のある結果を示すことが確認された。
- 全体として本研究は、マスク付き拡散モデリングとマルチステージのチューニングを組み合わせることが、トルコ語における非自己回帰のテキスト生成に有効であると主張している。
