M-DaQ:多言語の多様性と品質を用いたサンプル取得による指示微調整データセット

arXiv cs.CL / 2026/5/1

💬 オピニオンTools & Practical UsageModels & Research

要点

  • 本論文は、現状不足している高品質な指示微調整(IFT)データセットを補うことを目的に、多言語の多様性と品質を両立するサンプリング枠組み「M-DaQ」を提案します。
  • M-DaQは、微調整された品質スコアリングモデルと、最大限の相違(maximal marginal relevance)に着想を得た選択戦略を組み合わせ、応答品質とクロスリンガルな意味多様性を同時に最適化します。
  • さらに、多言語環境での「スーパーフィシャル・アラインメント仮説」を体系的に調査する最初の取り組みも行っています。
  • 18言語にわたる実験では、M-DaQでキュレーションしたデータで学習したモデルが、Alpaca-EvalおよびMT-Benchで強力なベースラインに対して平均勝率60%超を達成し、人手評価でも文化的関連性や文脈適切性、指示追従が大きく改善したことが示されます。
  • 再現性と今後の研究を促すため、コードが公開されています。