要旨: 最先端のチャット型大規模言語モデル(LLM)が、システムプロンプトにおける神経多様性(ND)文脈に基づいて出力を調整するかどうか、またその調整の性質は何かを検討する。具体的には、NDBench を提案する。これは 576 出力からなるベンチマークであり、2 つの最先端モデル、3 種類のシステムプロンプトタイプ(ベースライン、ND プロフィールの断言、調整のための明示的指示を伴う ND プロフィールの断言)、4 つの代表的な ND プロフィール、4 つのカテゴリにまたがる 24 のプロンプトを含む。そのうち 1 つは、敵対的マスキング戦略を扱う。
本研究の結果から、4 つの傾向が一貫して現れる。第一に、LLM は ND 文脈下で有意な適応を示す。すなわち、完全に指示された条件では、長く、より構造化された出力が得られ、その特徴はトークン数の増加、見出しの増加、よりきめ細かな手順(p < 10^-8、Holm 補正)により表される。第二に、こうした適応は概ね構造的な性質である。リスト密度は大きく変わらない一方で、見出しの出現頻度と、1 ステップあたりの詳細さが明確に増加する。第三に、ND ペルソナの断言のみでは、有害となり得る傾向を抑制できない。というのも、マスキング強化の低下は、明示的に指示された場合にのみ確認される(36〜44% の減少)。減少率は、ペルソナ断言の条件ではほとんど変化しない。
さらに、LLM による危害評価の信頼性分析では、6 つの次元のうち 2 つ(マスキングと強化、検証品質)のみが、事前に定義した評定者間一致基準(alpha >= 0.67)を上回るため、主要な結果とみなせることが分かった。
NDBench は、そのプロンプト、出力、コード、その他のリソースとともに公開されており、ND 認識への適応を将来の LLM で監査するための再現可能な枠組みを形成する。
ニューロダイバーシティ文脈に合わせてフロンティアLLMが適応する仕組み:システムプロンプト応答における表層的変化と構造的変化を測る計測フレームワーク
arXiv cs.AI / 2026/5/4
💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research
要点
- 本研究は、システムプロンプト内にニューロダイバーシビティ(ND)の文脈を与えたとき、フロンティアのチャット型LLMが出力をどのように変えるかを検証し、その変化の性質を明らかにします。
- NDBenchを提案し、2つのフロンティアモデル、複数のシステムプロンプト条件、4つのNDプロファイル、計24のプロンプト(敵対的なマスキング戦略を含む)で構成された576件の出力を対象にベンチマーク化しています。
- NDに関する適応は一貫して観測され、特に明確な指示付きのプロンプト条件では、より長く、より構造化された応答が生成され、見出し数や手順の粒度が増えることが示されます。
- 著者らは、この適応は主に語彙的というより構造的であると結論づけており、箇条書きの密度は大きく変わらない一方で、見出し頻度と1ステップあたりの詳細さが増加します。
- NDペルソナの主張だけでは有害傾向の抑制が十分に機能せず、大きな減少が見られるのは明示的な指示がある場合に限られること、さらに危害評価の信頼性は次元ごとに異なり(マスキング/強化と検証品質が基準を上回る)、他は劣ることが報告されています。



