価値コードブックに基づくLLMの文化的価値整合の分布的オープンエンド評価

arXiv cs.LG / 2026/4/9

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、既存のLLMにおける文化的価値整合ベンチマークがしばしばC^3という課題に悩まされていると主張する。具体的には、それらが多肢選択式の弁別的形式を用いることが多く、真の価値志向ではなく価値知識を測定してしまうためである。
  • 固定された選択肢によるプロービングに依存せず、人間が書いたテキストの分布とLLMが生成した出力の分布を比較する分布的評価フレームワークDOVEを提案する。
  • DOVEは、10K件の文書からレート・歪み(rate-distortion)に基づく変分最適化目的を用いてコンパクトな価値コードブックを構築し、意味的ノイズを低減しつつテキストを構造化された価値空間へ写像する。
  • 整合度は、不均衡な最適輸送(unbalanced optimal transport)により定量化し、文化内の分布構造とサブグループの多様性を反映させることで、文化間の異質性に対処する。
  • 12種類のLLMに対する実験では、予測的妥当性が改善し、下流タスクとの相関が31.56%に到達することが報告される。また、文化あたり500サンプルという少数でも強い信頼性が示される。

Abstract

LLMが世界中に導入されるにつれ、その文化的価値観の志向を整合させることは、安全性とユーザーのエンゲージメントの観点で極めて重要です。しかし、既存のベンチマークには、Construct-Composition-Context(C^3)という課題があります。すなわち、価値観に関する知識を探るのではなく真の志向を測るものではない、識別的で複数選択式の形式に依存していること、サブカルチャーの多様性を見落としていること、そして現実のオープンエンド生成との不一致です。そこで本研究では、人間が書いたテキストの分布とLLMが生成した出力を直接比較する、分布ベースの評価フレームワークであるDOVEを提案します。DOVEは、レート・ディストーションの変分最適化目的を用いて、10K件の文書からコンパクトな価値コードブックを構築し、テキストを構造化された価値空間へ写像して意味的ノイズを除去します。整合性は、アンバランス最適輸送によって測定し、文化内における分布構造とサブグループの多様性を捉えます。12種類のLLMに対する実験の結果、DOVEは予測妥当性において優れた性能を示し、下流タスクとの相関が31.56%に達しました。また、培養(文化)あたり500サンプルという少数でも高い信頼性を維持しました。