MOSAIC: スライス対応の多目的反復キュレーションによるアラインメント

arXiv cs.CL / 2026/3/20

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

MOSAICは、固定の100万トークン予算の下で、安全性、善意のリクエストに対する過剰拒否、指示遵守をバランスさせるための、スライス認識型の反復キュレーションのマルチオブジェクティブフレームワークを5回のファインチューニングラウンドにわたって導入する。
スライスレベルの失敗プロファイルを用いて、データアクションを実行可能に導出し、データセットレベルの混合比、バケットレベルの重み、焦点基準を含める。
本手法は XGuard（2.76→4.67）、OrBench（4.41）、および IFEval（3.65）で改善を達成し、攻撃、過剰拒否、能力テストにおいて、ランダムな静的 LoRA ベースラインよりも一般化性能が高いことを示す。
構造化された失敗診断が、予算付きデータ構築の実用的な制御信号として機能し得ることを示唆しており、GitHubでコードが公開されている。
本研究は制約下でのデータ中心のアラインメントのフレームワークを提供し、今後の予算認識型ファインチューニングパイプラインの設計に示唆を与える可能性がある。

概要：私たちは、3つの目的を同時にバランスさせる必要がある場合に、固定された監督付きファインチューニング予算をどのように割り当てるかを検討します。対象は、マルチターンの安全性整合、良性境界クエリに対する過剰拒否の低減、検証可能な制約の下での指示遵守です。私たちは、MOSAIC（Multi-Objective Slice-Aware Iterative Curation for Alignment、整合のためのスライス認識型反復キュレーションの多目的）を提案します。これは、統一されたL1-L3評価インターフェース上に構築された、閉ループデータ混合検索の多目的フレームワークです。MOSAIC は、スライスレベルの故障プロファイルをデータセットレベルの混合比、バケットレベルの重み、焦点基準を含む実行可能なデータアクションへ変換します。固定された100万トークンの予算と、同じベースモデルからの5回の独立したファインチューニングを実施する条件の下で、MOSAIC は内部 XGuard を 2.76 から 4.67 へ改善し、OrBench を 4.41、IFEval を 3.65 のまま維持します。最終的なパレート解は、独立攻撃、過剰拒否、能力テストにおいて、ランダムな静的 LoRA ベースラインよりも一般化性能が高いことを示しており、構造化された故障診断が予算付きデータ構築の実践的な制御信号として機能し得ることを示唆しています。コードは https://github.com/douyipu/mosaic に公開されています。

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

Dev.to

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

Dev.to

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

Dev.to

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

Dev.to

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

Dev.to

MOSAIC: スライス対応の多目的反復キュレーションによるアラインメント

要点

関連記事

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer