AI Navigate

大規模言語モデルの安全な線形アライメント

arXiv cs.AI / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、独立して訓練された言語モデルが表現の収束を示す方法を調査し、この現象を活用するプライバシー保護型のクロスサイロ推論フレームワークを提案します。
  • 共有公開データセット上でアフィン変換を学習し、モデル間の最終隠れ状態を揃え、推論時にはホモモルフィック暗号を用いてクライアントのクエリを保護し、セキュリティ保証を維持しつつサブ秒のレイテンシを実現します。
  • このアプローチは、埋め込み表現の分類と分布外検出を対象とした経験的評価により、モデルペア間で性能低下を最小限に抑えることを示し、場合によっては独立して訓練されたモデル間でのテキスト生成を可能にします。
  • この手法は、プライバシー、データ共有、競合上の制約の下で安全なモデル間協力を可能にし、直接データやモデルの共有が制限される新しい適用分野を開きます。

要約: 言語モデルは、訓練目的、アーキテクチャ、およびデータモダリティの違いにもかかわらず、似通った表現を学ぶようになっているように見える。独立して訓練されたモデル間のこの新たな適合性は、下流の目標へのクロスモデル整合の新たな機会を生み出します。さらに、セキュリティ、プライバシー、競争上の制約により直接データまたはモデルの共有が禁止される設定といった、新しい潜在的な適用領域を解放します。本研究では、表現の収束を利用して、独立した言語モデル間でのクロスサイロ推論を可能にするプライバシー保護フレームワークを提案します。フレームワークは共有公開データセット上でアファイン変換を学習し、推論時にクエリを保護するため同型暗号を適用します。線形整合および分類操作のみを暗号化することにより、強力なセキュリティ保証を維持しつつ、サブ秒の推論遅延を実現します。私たちはこのフレームワークを、独立したモデルの最終隠れ状態間の線形変換を学習する表現の収束に関する実証的調査によって裏付けます。これらのモデル間マッピングを埋め込み分類と分布外検出(OOD検出)で評価し、モデルペア間での性能劣化が最小限であることを観察します。さらに、線形整合が独立して訓練されたモデル間でテキスト生成を時には可能にすることを、初めて示します。