AI Navigate

Pragma-VL: マルチモーダル大規模言語モデルにおける安全性と有用性の実践的な裁定へ

arXiv cs.LG / 2026/3/17

📰 ニュースModels & Research

要点

  • Pragma-VLは、マルチモーダルLLMのためのエンドツーエンドの整合性手法を提案し、安全性と有用性の間を実践的に裁定することで、安全性-有用性のトレードオフに対処する。
  • コールドスタートの教師ありファインチューニング段階を追加し、視覚リスク認識を改善する。これは視覚エンコーダのリスク認識を踏まえたクラスタリングと、リスク説明と高品質データを交互に含むデータセットによって実現される。
  • このアプローチは、ユーザーのクエリに基づいて動的な重みを割り当てる新規データ拡張法で訓練された、理論的に保証された報酬モデルを導入し、安全性と有用性の文脈的裁定を可能にする。
  • 実験結果は、Pragma-VLがほとんどのマルチモーダル安全性ベンチマークでベースラインを5%〜20%上回り、数学と知識推論の中核能力を維持することを示している。

要旨: マルチモーダル大規模言語モデル(MLLMs)は、反逆的な攻撃としてのジャイルブレイキングなどだけでなく、健全なユーザーにとって有害なコンテンツをうっかり生成してしまう可能性にも脆弱であるため、重要な安全性の課題を提起します。内部の安全性整合を監督付きファインチューニング(SFT)と強化学習(RL)を通じて行うことは主要な緩和戦略ですが、現行の手法はしばしば安全性と有用性のトレードオフに直面します。過度の慎重さのため健全なクエリを拒否するか、クロスモーダルな相互作用の潜在的リスクを見落とすかのいずれかです。これを解決するために、Pragma-VLを導入します。これはエンドツーエンドの整合アルゴリズムで、MLLMsが安全性と有用性の間で実務的に裁定できるようにします。まず、革新的なコールドスタートSFT段階で視覚的リスク認識を強化します。これは視覚エンコーダにリスク認識クラスタリングを適用し、リスク説明と高品質データの交互データセットを使用することで実現します。次に、相乗学習を活用する理論的に保証された報酬モデルを導入します。クエリに基づいて動的な重み付けを割り当てる新しいデータ拡張手法を用いて訓練し、安全性と有用性の文脈に応じた裁定を可能にします。広範な実験により、Pragma-VLは安全性と有用性のバランスを効果的に取り、ほとんどのマルチモーダル安全性ベンチマークにおいてベースラインを5%から20%上回り、数学や知識推論などの分野での一般的な能力を維持することを示します。