Abstract
LLMが世界中に導入されるにつれ、その文化的価値観の志向を整合させることは、安全性とユーザーのエンゲージメントの観点で極めて重要です。しかし、既存のベンチマークには、Construct-Composition-Context(C^3)という課題があります。すなわち、価値観に関する知識を探るのではなく真の志向を測るものではない、識別的で複数選択式の形式に依存していること、サブカルチャーの多様性を見落としていること、そして現実のオープンエンド生成との不一致です。そこで本研究では、人間が書いたテキストの分布とLLMが生成した出力を直接比較する、分布ベースの評価フレームワークであるDOVEを提案します。DOVEは、レート・ディストーションの変分最適化目的を用いて、10K件の文書からコンパクトな価値コードブックを構築し、テキストを構造化された価値空間へ写像して意味的ノイズを除去します。整合性は、アンバランス最適輸送によって測定し、文化内における分布構造とサブグループの多様性を捉えます。12種類のLLMに対する実験の結果、DOVEは予測妥当性において優れた性能を示し、下流タスクとの相関が31.56%に達しました。また、培養(文化)あたり500サンプルという少数でも高い信頼性を維持しました。