大規模言語モデルにおける分離型機能モジュールの発見

arXiv cs.LG / 2026/3/19

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、ULCMODフレームワークを提案する。これは教師なしのクロスレイヤー・モジュール発見手法で、LLMの全ニューロン集合を機能モジュールへ分離し、モジュールを入力サンプルのトピックと関連付ける。
この発見を行うための新しい目的関数と、IterD（Iterative Decoupling）アルゴリズムという効率的な手法を導入する。
広範な実験により、発見されたモジュールは分離され、意味論的に有意であり、モデル内において明確な空間的および階層的組織を伴う、解釈可能な特化を示す。
この研究は、機能的モジュール性を分析する新しいツールを提供することにより、LLMs の解釈性と信頼性の向上を目指している。

要約:
大型言語モデル（LLMs）の内部機能的組織を理解することは、その信頼性と性能を向上させるうえで極めて重要です。しかし、LLMsが異なる機能をモジュールに組織化する方法は、まだ十分には解明されていません。このギャップを埋めるべく、機能モジュール発見問題を定式化し、全体のLLMに含まれる大量のニューロンをモジュールへ同時に分離し、これらのモジュールに関連する入力サンプルのトピックを同時に発見する Unsupervised LLM Cross-layer MOdule Discovery (ULCMOD) フレームワークを提案します。本フレームワークは、新規の目的関数と効率的な Iterative Decoupling (IterD) アルゴリズムを導入します。大規模な実験により、我々の手法が高品質で分離されたモジュールを発見し、より意味のある意味情報を捉え、さまざまな下流タスクで優れた性能を発揮することを示しています。さらに、定性的分析により、発見されたモジュールは意味論的整合性を示し、解釈可能な特化に対応し、LLM内における明確な空間的・階層的な組織を有することが明らかになりました。我々の研究は、LLMの機能モジュールを解釈する新しいツールを提供し、LLMの解釈可能性研究における重要な空白を埋めます。