Optimsyn：影響（インフルエンス）ガイド付きルーブリック最適化による合成データ生成

arXiv cs.CL / 2026/4/3

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、知識集約的な領域において高品質な教師あり微調整（SFT）データを得ることの難しさに取り組み、手作りのルーブリックに依存する合成データのパイプラインを改善することを提案する。
既存のルーブリック最適化ループを、脆く信頼できる定量的フィードバック（ルーブリックの変更が下流の性能にどう結びつくか）を欠いているものとして批判する。
Optimsynは、影響推定により勾配から得られる影響スコアを用いて、各合成サンプルがタスク目標への貢献度を測り、ターゲットモデルの学習有用性シグナルで合成データを評価する。
ルーブリックに特化したモデルがタスク条件付きのルーブリックを生成し、影響スコアを強化学習の報酬として用い、ルーブリックのガイダンストークン（テキスト）が生成を条件付ける、最適化フレームワークを導入する。
複数の領域、ターゲットモデル、データ生成器にまたがる実験により、タスク固有のチューニングなしでも一貫した改善と強い汎化が示される。さらに、合成サンプルと実サンプルが埋め込み空間上で近い場合でも効果が確認される。

要旨: 大規模言語モデル（LLM）は、豊富な教師あり微調整（SFT）データのおかげで、下流タスクで強力な性能を実現します。しかし、人文学、社会科学、医学、法律、金融などの知識集約型領域における高品質なSFTデータは、専門家によるキュレーションが高価であること、プライバシー上の制約が厳しいこと、そしてラベルの一貫性を確実に担保することが難しいことから、入手が困難です。近年の研究では、合成データを用いるのが一般的であり、通常は、領域文書に対して生成器へプロンプトを与え、手作りのルーブリックで出力をフィルタリングします。しかし、ルーブリック設計は専門家に依存しており、領域間での移転がうまくいかないことが多く、また、ルーブリックを書き、データを合成し、モデルを訓練し、結果を検査し、手作業で修正案を推測するという脆い（壊れやすい）ヒューリスティックなループによってしばしば最適化されます。このプロセスには、ルーブリックが下流性能にどのように影響するかについての信頼できる定量的なフィードバックが欠けています。そこで本研究では、合成データを、対象モデルにおける訓練上の有用性によって評価し、その信号を用いてデータ生成を導くことを提案します。影響推定に着想を得て、我々は、勾配情報を用いて、特定のタスクにおける対象モデルの目的関数に対する各合成サンプルの寄与を定量化する、最適化器を意識した推定器を採用します。分析の結果、埋め込み空間において合成サンプルと実サンプルが近い場合であっても、学習への影響は大きく異なり得ることが示されます。この洞察に基づき、対象モデルのフィードバックを用いてルーブリックを適応させる、最適化ベースの枠組みを提案します。軽量なガイダンステキストを提示し、タスク条件付きのルーブリックを生成するためにルーブリック専用モデルを使用します。影響スコアを報酬として、強化学習によりルーブリック生成器を最適化します。領域、対象モデル、およびデータ生成器にまたがる実験により、一貫した改善と、タスク固有のチューニングなしでの強い汎化が示されます。