M-DaQ：多言語の多様性と品質を用いたサンプル取得による指示微調整データセット

arXiv cs.CL / 2026/5/1

💬 オピニオンTools & Practical UsageModels & Research

共有:

要点

本論文は、現状不足している高品質な指示微調整（IFT）データセットを補うことを目的に、多言語の多様性と品質を両立するサンプリング枠組み「M-DaQ」を提案します。
M-DaQは、微調整された品質スコアリングモデルと、最大限の相違（maximal marginal relevance）に着想を得た選択戦略を組み合わせ、応答品質とクロスリンガルな意味多様性を同時に最適化します。
さらに、多言語環境での「スーパーフィシャル・アラインメント仮説」を体系的に調査する最初の取り組みも行っています。
18言語にわたる実験では、M-DaQでキュレーションしたデータで学習したモデルが、Alpaca-EvalおよびMT-Benchで強力なベースラインに対して平均勝率60%超を達成し、人手評価でも文化的関連性や文脈適切性、指示追従が大きく改善したことが示されます。
再現性と今後の研究を促すため、コードが公開されています。