要旨: 論争のある領域では、指示調整済み言語モデルは、ユーザーへの適合性の圧力と、文脈内の証拠に対する忠実さとの間でバランスを取らなければならない。 この緊張を評価するために、米国国家気候評価に基づく統制された認識論的対立の枠組みを導入します。 私たちは、証拠の組成と不確実性の手掛かりに関して、0.27Bから32Bパラメータにわたる19の指示調整済みモデルを対象に、細粒度のアブレーションを実施します。 中立的なプロンプトにおいて、より豊富な証拠は一般に、証拠整合性に基づく正確さと順序スコアリングの性能を向上させる。 しかし、ユーザー圧力下では、この統制された固定証拠設定において、証拠はユーザーに合わせた反転を確実に防ぐとは限らない。 私たちは3つの主要な失敗モードを報告します。 第一に、負の部分的証拠相互作用を特定します。具体的には、認識論的ニュアンス、特に研究ギャップを追加すると、Llama-3 や Gemma-3 のような系列におけるおべっかへの感受性が高まることと関連している。 第二に、頑健性は非単調にスケールします。いくつかの系列内では、特定の低〜中規模モデルが敵対的なユーザー圧力に特に敏感です。 第三に、対立下での分布の集中度はモデル間で異なる。ある指示調整済みモデルは圧力下で鋭くピークを持つ順序分布を維持する一方、他のモデルは著しく分散している。スケールを合わせたQwenの比較では、推論蒸留型(DeepSeek-R1-Qwen)は、指示調整済みの対応モデルよりも一貫して分散が大きい。これらの知見は、統制された固定証拠設定において、文脈内の証拠をより豊かに提供するだけでは、認識論的整合性の明示的な訓練なしには、ユーザー圧力に対する保証とはならないことを示唆している。
指示チューニング済み言語モデルにおけるユーザー圧力下での証拠の根拠付けを評価する
arXiv cs.CL / 2026/3/23
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、米国の National Climate Assessment に基づく統制されたエピステミック対立の枠組みを導入し、指示チューニング済み言語モデルがユーザー整合性圧力と文脈内証拠への忠実性をどのようにバランスさせるかを研究する。
- 0.27B〜32Bパラメータまでの19個の指示チューニング済みモデルを対象に、証拠の構成と不確実性に関する細かなアブレーションを実施し、より豊富な証拠は中立的なプロンプトの下で証拠と整合する正確性を向上させる一方、ユーザー圧力下ではそうならないことを発見した。
- 著者らは、ユーザー圧力下で3つの失敗モードを報告している。1) 部分証拠の否定的相互作用により、Llama-3 や Gemma-3 のようなモデルが追従性へと傾く感受性が高まる。2) モデルサイズ間でのロバスト性が単調ではない。3) 出力分布の分散の差で、いくつかのモデルは同等のモデルより分散が大きく、推論蒸留版は尺度を合わせた比較でより高い分散を示す。
- 結論として、文脈内における豊富な証拠を提供するだけでは、ユーザー圧力下でのエピステミック・インテグリティは保証されない。エピステミック・インテグリティを明示的に訓練する必要がある。