概要: 大規模言語モデル(LLMs)を特化した領域へ適応させるには、高品質な指示チューニングデータセットが必要で、これを人間のアノテーションで作成するのは高価です。既存のデータ合成手法は汎用タスクに焦点を当て、領域特有の用語や推論パターンを捉えられていません。これに対処するため、DS^2-Instructというゼロショットフレームワークを導入します。これは人間の監視なしに領域特有の指示データセットを生成します。私たちのアプローチは、まず領域を網羅するためのタスク情報を含むキーワードを生成します。次に、これらのキーワードをブルームの分類法のさまざまな認知レベルと組み合わせることで、多様な指示を作成します。最後に、データ品質を保証するために自己一貫性検証を用います。私たちはこのフレームワークを適用して、数学、金融、論理的推論など、七つの難しい領域にわたるデータセットを生成します。包括的な評価は、私たちが生成したデータでファインチューニングしたモデルが、既存のデータ生成手法よりも大幅な改善を達成することを示しています。
DS²-Instruct: 大規模言語モデルの指示チューニングのためのドメイン特化データ合成
arXiv cs.CL / 2026/3/16
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- DS²-Instructは、LLMsの指示チューニングを人間の監視なしで改善するための、ドメイン特化型指示データセットを生成するゼロショットフレームワークです。
- 本手法はまず、ドメインの用語と概念を網羅的にカバーするよう、タスク情報に基づいたキーワードを生成します。
- 次に、これらのキーワードをブルームの分類法(Bloom's Taxonomy)の異なる認知レベルと組み合わせることで、さまざまな推論タスクを捉える多様な指示を作成します。
- 自己整合性検証ステップを適用してデータ品質を保証し、数学、金融、論理推論を含む7つの難解なドメインにわたって手法を実証し、既存のデータ生成手法よりも大幅な改善を示します。




