LLMにおけるデータ・パラメータ対応へ：予備的議論

arXiv cs.LG / 2026/4/21

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LLMの一般的な最適化手法を「統一的なデータ・パラメータ対応」として、統計マニフォールド上の同一の幾何学における双対的な見方として捉える提案を行っています。
Fisher-Rao計量と、自然パラメータと期待パラメータのLegendre双対性に基づき、データの剪定・増強・ポイズニングがモデルのパラメータ空間の変化とどう結び付くかを示します。
主要な対応関係として、幾何学的同等性（データ剪定とパラメータの疎化）、低ランク同等性（ICLとLoRAが同じ部分空間を探索する関係）、およびセキュリティ／プライバシーのつながり（ポイズニングとバックドア、保護策としての圧縮の相互作用）が提示されます。
学習から事後学習の圧縮、推論までを通して議論を拡張し、データ中心とモデル中心という別コミュニティ間で手法を移転できることを狙っています。
著者らは、データとパラメータのモダリティを協調させて最適化することで、効率・頑健性・プライバシーの面で単独最適化より優位になり得ると主張しています。

要旨: 大規模言語モデルの最適化はこれまで、データ中心とモデル中心という2つの分岐したパラダイムに分かれて発展してきました。前者は選択、拡張、あるいはポイズニングによって関与するサンプルを操作し、一方後者はマスキング、量子化、または低ランク適応によってモデルの重みを調整します。本論文は、これら一見無関係に見える操作を、統計的マニフォールド $mathcal{M}$ 上の同一の幾何学的構造の二重の現れとして明らかにする統一的な emph{データ—パラメータ対応}を確立します。フィッシャー・ラオ計量 $g_{ij}(theta)$ と、自然パラメータ（ $theta$ ）と期待パラメータ（ $eta$ ）の間のレジャンドル双対性に基づき、モデルのライフサイクル全体を貫く3つの基本的対応関係を特定します：1. 幾何学的対応: データのプルーニングとパラメータの疎化は、二重座標の制約によってマニフォールドの体積を同等に減少させます；2. 低ランク対応: in-context learning（ICL）とLoRA適応は、グラスマンニアン $mathcal{G}(r,d)$ 上で同一の部分空間を探索し、 $k$ -shot のサンプルはランク- $r$ の更新に対して幾何学的に同等です；3. セキュリティ—プライバシー対応: 敵対的攻撃では、データポイズニングとパラメータのバックドアの間に協調的な増幅が観察されますが、防御機構は、データ圧縮がパラメータのプライバシーを乗法的に高めるような連鎖的減衰に従います。学習からポストトレーニングの圧縮、そして推論に至るまで拡張することで、本枠組みはコミュニティ間の手法転用を数学的に形式化し、データとパラメータのモダリティを統合した協調的最適化が、効率性、頑健性、プライバシーの各次元において、孤立したアプローチよりも優れている可能性を示します。