学習なしで行う「信頼できる」大規模言語モデルのための手法に関する体系的研究

arXiv cs.CL / 2026/4/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、大規模言語モデルの信頼性を高めるための「学習なし(training-free)」手法を評価し、有害・バイアスのある出力、不支持な主張、敵対的攻撃への脆弱性といったリスクに焦点を当てる。
  • 従来研究よりも体系的に再評価するため、複数の「信頼性」設定で既存手法の有効性を検証し、ユーティリティ、堅牢性、計算オーバーヘッドへの影響を測定する。
  • 著者らは、推論時の情報フローにおいて介入する場所に基づき、入力・内部・出力の3レベルに手法を分類するタクソノミーを提示する。
  • 代表的なLLMファミリーとサイズに対する分析の結果、信頼性の向上とユーティリティの低下や脆さ(brittleness)の増大など、重要なトレードオフが示される。
  • 最終的に、追加学習なしで(ポストトレーニングなしで)信頼性・ユーティリティ・堅牢性のバランスを取るための実践的な提言をまとめる。

要旨: 大規模言語モデル(LLM)が注目を集め、さまざまな領域へ導入されるにつれて、有害または偏った内容を生成すること、裏付けのない主張を行うこと、敵対的攻撃に対する脆弱性を示すことなど、潜在的なリスクが重要視されてきています。迅速かつ低コストで適応を可能にするために、近年、事後のアラインメント手法に代わる費用対効果の高い選択肢として、学習不要(training-free)手法が登場しました。期待される成果がある一方で、これらの手法は文献内で一貫性のない形で評価されており、信頼性の限られた次元しか扱っていません。また、効用の低下や脆さの増大といった望ましくない副作用を導入し得ます。これらの学習不要手法の影響を十分に評価するために、私たちは一歩立ち戻り、さまざまな信頼性の状況に対して既存の学習不要手法がどれほど有効か、またそれが効用、頑健性、および計算オーバーヘッドにどのような影響を与えるかを、体系的に再評価します。さらに、推論中にモデルの情報フローのどこで介入するかに基づいて、これらの手法を3つのレベル(入力、中間、出力)に分類します。この分類に基づき、異なるLLMファミリーとサイズにまたがって、各レベルから代表的で効果的なさまざまな手法について、包括的な分析を行います。私たちの分析は、現在のアプローチにおけるいくつかのトレードオフと未解決の課題を浮き彫りにします。既存文献における主要な知見と限界を要約し、追加学習を必要とせずに、LLMにおける信頼性、効用、頑健性のバランスを取るための実践的な提言を行います。