大規模言語モデルの心理的ステアリング

arXiv cs.CL / 2026/4/17

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、流暢さ（fluency）による制約を持たせつつ、意味的に較正された無制限の探索単位で残差ストリーム注入を行う「心理的ステアリング」の新しい枠組みを提案している。
心理的アーティファクトに基づいて残差ストリーム注入を導出・較正し、IPIP-NEO-120（OCEAN性格モデル）を用いて6種類の注入手法を評価している。
平均差（MD）注入は、OCEANステアリングの確立したベースラインである「パーソナリティ・プロンプティング（P²）」よりも、14モデル中11モデルでオープンエンド生成において優れており、改善幅は3.6%〜16.4%と報告されている。
P²とMDを組み合わせたハイブリッド手法はさらに良好で、14モデル中13モデルで両手法を上回り、P²に対して5.6%〜21.9%、MDに対して3.3%〜26.7%の増分が示されている。
MD注入は線形表現仮説（Linear Representation Hypothesis）と整合し、心理的ステアリングのための信頼できるおおむね線形な制御ノブになる一方、OCEAN特性の共変パターンは既存の人間心理モデルから外れるため、学習表現と人間心理の間にギャップがあることも示唆されている。

要旨: 大規模言語モデル（LLM）は、活性化レベルへの介入によって形作ることができる、一定の人間らしい振る舞いを模倣する。このパラダイムは、加法的な残差ストリームへの注入へ収束しつつあり、注入強度のスイープを用いて最適な介入設定を近似する。しかし既存手法は探索空間を制限し、校正されていない活性化空間の単位でスイープしているため、最適な介入条件を見落とす可能性がある。そこで本研究では、意味的に校正された単位で、上限なしの流暢性制約付きスイープを行う心理学的ステアリングの枠組みを導入する。我々の手法は心理的アーティファクトを用いて残差ストリーム注入を導出・校正し、OCEANパーソナリティモデルを測定するIPIP-NEO-120を用いて、6種類の注入手法を比較する。結果として、平均差（MD）注入は、OCEANステアリングの確立したベースラインであるパーソナリティ・プロンプティング（P $^2$ ）を、14のLLMのうち11での開放的な生成において上回り、その改善幅は3.6\%から16.4\%であり、プロンプトと位置表現工学を開放的な心理学的ステアリングの新たなフロンティアとする先行報告を覆す。さらに、P $^2$ とMD注入のハイブリッドは、14のLLMのうち13で両手法を上回り、P $^2$ に対する改善は5.6\%から21.9\%、MD注入に対する改善は3.3\%から26.7\%である。最後に、MD注入は線形表現仮説と整合し、心理学的ステアリングのための信頼できる、概ね線形な制御ノブを提供することを示す。それでもなお、MD注入はBig Twoモデルから逸脱したOCEANの特性共分散パターンも誘発し、学習された表現と人間の心理の間にギャップがあることを示唆する。