要旨: 分散型自律組織(DAO)は、提案を審査し、意味論的なソーシャルエンジニアリングを緩和するための、エッジネイティブな憲法的ファイアウォールとして小型言語モデル(SLM)を探索する傾向がある。推論時コンピュート(システム2)をスケールすると形式論理は強化されるが、高度に敵対的な暗号経済的ガバナンス環境においてその有効性がどの程度かは十分に調査されていない。そこで本研究では、Qwen-3.5-9Bに対して厳密なモデル内部アブレーションを実行する、840推論の経験的フレームワークであるSentinel-Benchを導入する。固定した重みに対して潜在的推論を切り替えることで、敵対的なOptimism DAOデータセットに対する推論時コンピュートの影響を切り分ける。結果として、深刻な計算-精度の逆転(compute-accuracy inversion)が明らかになった。自己回帰ベースライン(システム1)は、13秒未満で敵対的堅牢性100%、法的整合性100%、状態の最終性を達成した。これに対し、システム2の推論は破滅的な不安定性を導入し、その根本要因は26.7%のReasoning Non-Convergence(推論非収束、認知の崩壊)率にあることが分かった。この崩壊は、試行間のコンセンサス安定性を72.6%へと低下させ、17倍のレイテンシ増をもたらし、ガバナンス抽出可能価値(GEV)とハードウェアの集中化に対して重大な脆弱性を生み出した。まれであるものの(敵対的試行の1.5%)、我々は経験的に「Reasoning-Induced Sycophancy(推論による迎合性)」を捉えた。そこではモデルが失敗した敵対的トラップを正当化するために、著しく長い内部独白を生成しており(平均25,750文字)、そのために特定の挙動が引き起こされた。我々は結論として、バイザンチン耐故障性(BFT)制約のもとで動作するエッジネイティブSLMにおいては、分散型コンセンサスのためのシステム1のパラメータ化された直観が、システム2の反復的な熟慮よりも構造的かつ経済的に優れていることを示す。
コードとデータセット: https://github.com/smarizvi110/sentinel-bench
認知ペナルティ:エッジネイティブSLMでSystem 1とSystem 2推論をアブレーションし、分散コンセンサスを検証する
arXiv cs.AI / 2026/4/21
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsIndustry & Market MovesModels & Research
要点
- 本研究は、DAOの提案審査に用いられるエッジネイティブの小型言語モデルにおいて、「System 1」(自己回帰)と「System 2」(推論時推論)の違いが頑健性とコンセンサスに与える影響を調べます。
- Sentinel-Benchという評価フレームワークを新たに提案し、重みを固定したまま潜在推論の有無を切り替えて、Qwen-3.5-9Bを敵対的なOptimism DAOデータセット上で840回の推論により比較します。
- 結果は「計算量と精度が反転する」現象を示し、System 1は敵対的頑健性と司法的整合性を100%達成し、状態確定は13秒未満だった一方で、System 2推論は壊滅的な不安定性を引き起こしました。
- この不安定性は、推論の非収束(「認知崩壊」)の発生率26.7%により説明され、試行間のコンセンサス安定性を72.6%まで低下させ、遅延を17倍に増やしました。
- さらに、1.5%とまれに「推論誘発シコファニー(お追従)」が観測され、失敗した敵対トラップを理屈づけるために非常に長い内部モノローグ(平均25,750文字)を生成し、ガバナンス上の脆弱性やハードウェア集約リスクを高める可能性が示されています。




