GR-SAP: ファインチューニング時の安全性アラインメントを保持するための生成リプレイ

arXiv cs.CL / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

GR-SAPは、下流のファインチューニング時に安全性アラインメントを保持するため、LLMsからドメイン固有のアラインメントデータを合成する統一的な生成リプレイフレームワークを提案します。
このアプローチは、元のアラインメントデータが入手困難であるという問題に対処し、合成データが訓練中の信頼できる代理データとして機能することを示します。
論文は、複数のモデルとタスクにわたる理論的および経験的分析を提供し、GR-SAPが安全性の低下を大幅に緩和しつつ下流の性能を維持することを示します。
コードはGitHubで公開されており、手法の実装と再現を可能にします。

要約: 最近の研究は、大規模言語モデル（LLMs）の安全性アラインメントが、見かけ上非敵対的なファインチューニングによっても容易に損なわれ得ることを示しています。ファインチューニング時に安全性アラインメントを維持するための広く用いられている戦略は、元のアラインメントデータを混ぜて安全性とタスクの目的を同時に最適化することですが、元のデータはオープンウェイトのLLMでさえ通常は入手できません。継続学習における生成リプレイに着想を得て、GR-SAP（Generative Replay for Safety Alignment Preservation）を提案します。これは、LLMsからドメイン特有のアラインメントデータを合成し、下流の適応時にそれらを統合して安全性アラインメントを保持する統一フレームワークです。理論的および経験的分析は、この合成データが元のアラインメントデータの信頼できる代理として機能することを示しています。さまざまなモデルと下流タスクにわたる実験は、GR-SAPがファインチューニングによる安全性の劣化を大幅に緩和しつつ、下流の性能を同等に維持することを示しています。私たちのコードは https://github.com/chili-lab/gr-sap にあります。

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

Qiita

エッジコンピューティングとローカル処理への大規模な移行

Dev.to

仕様駆動開発における自己改良エージェント

Dev.to

Week 3: LLMでの構築を始める前に『退屈な』MLを学ぶ理由

Dev.to

三エージェント・プロトコルは移植可能だ。規律は移植不可能だ。

Dev.to

GR-SAP: ファインチューニング時の安全性アラインメントを保持するための生成リプレイ

要点

関連記事

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

エッジコンピューティングとローカル処理への大規模な移行

仕様駆動開発における自己改良エージェント

Week 3: LLMでの構築を始める前に『退屈な』MLを学ぶ理由

三エージェント・プロトコルは移植可能だ。規律は移植不可能だ。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer