概要:私たちは、3つの目的を同時にバランスさせる必要がある場合に、固定された監督付きファインチューニング予算をどのように割り当てるかを検討します。対象は、マルチターンの安全性整合、良性境界クエリに対する過剰拒否の低減、検証可能な制約の下での指示遵守です。私たちは、MOSAIC(Multi-Objective Slice-Aware Iterative Curation for Alignment、整合のためのスライス認識型反復キュレーションの多目的)を提案します。これは、統一されたL1-L3評価インターフェース上に構築された、閉ループデータ混合検索の多目的フレームワークです。MOSAIC は、スライスレベルの故障プロファイルをデータセットレベルの混合比、バケットレベルの重み、焦点基準を含む実行可能なデータアクションへ変換します。固定された100万トークンの予算と、同じベースモデルからの5回の独立したファインチューニングを実施する条件の下で、MOSAIC は内部 XGuard を 2.76 から 4.67 へ改善し、OrBench を 4.41、IFEval を 3.65 のまま維持します。最終的なパレート解は、独立攻撃、過剰拒否、能力テストにおいて、ランダムな静的 LoRA ベースラインよりも一般化性能が高いことを示しており、構造化された故障診断が予算付きデータ構築の実践的な制御信号として機能し得ることを示唆しています。コードは https://github.com/douyipu/mosaic に公開されています。
MOSAIC: スライス対応の多目的反復キュレーションによるアラインメント
arXiv cs.CL / 2026/3/20
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- MOSAICは、固定の100万トークン予算の下で、安全性、善意のリクエストに対する過剰拒否、指示遵守をバランスさせるための、スライス認識型の反復キュレーションのマルチオブジェクティブフレームワークを5回のファインチューニングラウンドにわたって導入する。
- スライスレベルの失敗プロファイルを用いて、データアクションを実行可能に導出し、データセットレベルの混合比、バケットレベルの重み、焦点基準を含める。
- 本手法は XGuard(2.76→4.67)、OrBench(4.41)、および IFEval(3.65)で改善を達成し、攻撃、過剰拒否、能力テストにおいて、ランダムな静的 LoRA ベースラインよりも一般化性能が高いことを示す。
- 構造化された失敗診断が、予算付きデータ構築の実用的な制御信号として機能し得ることを示唆しており、GitHubでコードが公開されている。
- 本研究は制約下でのデータ中心のアラインメントのフレームワークを提供し、今後の予算認識型ファインチューニングパイプラインの設計に示唆を与える可能性がある。

