DS²-Instruct: 大規模言語モデルの指示チューニングのためのドメイン特化データ合成

arXiv cs.CL / 2026/3/16

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

DS²-Instructは、LLMsの指示チューニングを人間の監視なしで改善するための、ドメイン特化型指示データセットを生成するゼロショットフレームワークです。
本手法はまず、ドメインの用語と概念を網羅的にカバーするよう、タスク情報に基づいたキーワードを生成します。
次に、これらのキーワードをブルームの分類法（Bloom's Taxonomy）の異なる認知レベルと組み合わせることで、さまざまな推論タスクを捉える多様な指示を作成します。
自己整合性検証ステップを適用してデータ品質を保証し、数学、金融、論理推論を含む7つの難解なドメインにわたって手法を実証し、既存のデータ生成手法よりも大幅な改善を示します。

概要: 大規模言語モデル（LLMs）を特化した領域へ適応させるには、高品質な指示チューニングデータセットが必要で、これを人間のアノテーションで作成するのは高価です。既存のデータ合成手法は汎用タスクに焦点を当て、領域特有の用語や推論パターンを捉えられていません。これに対処するため、DS $^2$ -Instructというゼロショットフレームワークを導入します。これは人間の監視なしに領域特有の指示データセットを生成します。私たちのアプローチは、まず領域を網羅するためのタスク情報を含むキーワードを生成します。次に、これらのキーワードをブルームの分類法のさまざまな認知レベルと組み合わせることで、多様な指示を作成します。最後に、データ品質を保証するために自己一貫性検証を用います。私たちはこのフレームワークを適用して、数学、金融、論理的推論など、七つの難しい領域にわたるデータセットを生成します。包括的な評価は、私たちが生成したデータでファインチューニングしたモデルが、既存のデータ生成手法よりも大幅な改善を達成することを示しています。