AI Navigate

Box Maze: 信頼性の高いLLM推論のためのプロセス制御アーキテクチャ

arXiv cs.AI / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • Box Maze フレームワークは、LLM推論を三つの明示的な層、記憶の根拠付け、構造化推論、境界の強制に分解し、推論の信頼性を向上させる。
  • このアプローチは、RLHFや出力フィルタリングといった行動的セーフガードを超えて、推論の整合性を強制するために、アーキテクチャレベルで動作する明示的な認知制御層を追加する。
  • DeepSeek-V3、Doubao、Qwen の3つを対象とした予備的なシミュレーションベースの評価は、敵対的なプロンプトに対する境界の失敗率をベースラインRLHFのおよそ40%から1%未満へ低減させることを示唆している。
  • 著者らは、現在の検証はシミュレーションベースであることを指摘しており、プロセスレベルの制御概念を、さらなる実世界での検証と実験が必要な有望な方向として捉えている。

要旨: 大規模言語モデル(LLMs)は高い生成能力を示す一方で、敵対的なプロンプティングの下で幻覚や推論の信頼性欠如に脆弱である。既存の安全性アプローチ――人間のフィードバックからの強化学習(RLHF)および出力フィルタリング――は主に行動レベルで機能し、推論プロセスの整合性を強制するための明示的なアーキテクチャ機構を欠く場合がある。
本論文は Box Maze フレームワークを提案する。これは、LLMの推論を三つの明示的な層に分解する概念的なプロセス制御アーキテクチャであり、記憶の根拠づけ、構造化推論、境界の遵守という層からなる。 
我々は、複数の異種LLMシステム(DeepSeek-V3、Doubao、Qwen)に跨る、段階的な境界侵食シナリオを含む予備的なシミュレーションベースの評価を導入する。
n=50 の敵対的シナリオからの結果は、明示的な認知的制御層が境界の維持の一貫性を向上させる可能性を示唆し、アーキテクチャ的制約により敵対的条件下で境界障害率を概ね40%(ベースライン RLHF)から1%未満へ低減できることを示唆する。
現在の検証はシミュレーションベースであるが、これらの予備的な結果は、プロセスレベルの制御が大規模言語モデルの推論の信頼性向上に向けた有望な方向性を示す可能性がある。