M-DaQ:多言語の多様性と品質を用いたサンプル取得による指示微調整データセット
arXiv cs.CL / 2026/5/1
💬 オピニオンTools & Practical UsageModels & Research
要点
- 本論文は、現状不足している高品質な指示微調整(IFT)データセットを補うことを目的に、多言語の多様性と品質を両立するサンプリング枠組み「M-DaQ」を提案します。
- M-DaQは、微調整された品質スコアリングモデルと、最大限の相違(maximal marginal relevance)に着想を得た選択戦略を組み合わせ、応答品質とクロスリンガルな意味多様性を同時に最適化します。
- さらに、多言語環境での「スーパーフィシャル・アラインメント仮説」を体系的に調査する最初の取り組みも行っています。
- 18言語にわたる実験では、M-DaQでキュレーションしたデータで学習したモデルが、Alpaca-EvalおよびMT-Benchで強力なベースラインに対して平均勝率60%超を達成し、人手評価でも文化的関連性や文脈適切性、指示追従が大きく改善したことが示されます。
- 再現性と今後の研究を促すため、コードが公開されています。




