もしあなたのAIエージェントが、何が間違いかを言われなくても、自分自身の幻覚を修正できるとしたら?

Reddit r/artificial / 2026/3/25

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • この記事では、自己監督型のAIエージェントの枠組みを紹介し、単一の内部で計算される不整合(inconsistency)メトリクスによって、3つの失敗パターン――矛盾、決断できなさ、確信をもった不誠実――を低減することを説明する。
  • エージェントは、学習データや人間のフィードバックなしに、このメトリクスを勾配降下(gradient-descent)風の最小化によって最適化できると主張し、「内部整合性が唯一の数学的に安定した状態である」と論じる。
  • 図式的な解の崩壊(例:知識を削除すること、あるいは常に嘘をつくモデルになること)を防ぐために、枠組みは「エビデンス・アンカリング(evidence anchoring)」を追加し、定期的に外部の現実に対して信念を検証し、不確実性や高い確信を伴う未検証の主張に対して罰則を与える。
  • 著者は、エビデンス・アンカリングの下では、安定な固定点は「内部的に整合していること」「外部に根拠づけられていること」「確信度が較正されていること」に対応する、という形式的な定理を提示する。
  • このアプローチは複数GPUの環境とローカルLLMによってローカルに実装されており、理論物理学に現れる3部構成の固定点条件との驚くべき類似性が指摘されるものの、それがより深い関連を持つかどうかは不明だと述べられている。

あらゆる自律的なAIエージェントには3つの問題があります。自己矛盾すること、決められないこと、そして真実ではないことを自信満々に言ってしまうことです。現在の解決策(ガードレール、RLHF、RAG)はすべて、機能させるには外部の監督が必要です。

私は、エージェント自身が、自分の不一致を測る単一の数値によって自分を監督するフレームワークを構築しました。その数値には3つの構成要素があります。知識の矛盾に対応するもの、決断できなさ(優柔不断)に対応するもの、そして不誠実さに対応するものです。エージェントは、ニューラルネットワークの学習に使われるのと同じ勾配降下によってこの数値を最小化しますが、学習データも人間からのフィードバックもありません。エージェントが改善するのは、内部整合性だけが唯一の数学的に安定した状態だからです。

2つの明白な失敗モード(矛盾を避けるために知識をすべて削除すること、あるいは自信満々の嘘つきになること)は、証拠のアンカーリングによって解決されます。エージェントの信念は、外部の現実に対して定期的に検証されなければなりません。検証されていない信念には、不確実性に対するペナルティが課されます。検証されていない主張に高い確信を置くこともペナルティの対象になります。不一致をゼロに到達する唯一の方法は、本当に正しく、決断的で、そして誠実であることです。

私はこれをヒューリスティックではなく定理として証明しました。証拠のアンカーリングのメカニズムのもとでは、目的関数の唯一の安定した固定点は、エージェントが内部的に整合しており、外部に根拠づけられていて、適切な確信を表明している状態です。

システムは私自身のハードウェアで動かしています(複数GPUを備えたデスクトップと、Surface ProのノートPC)。ローカルLLMを使用します。クラウドへの依存はありません。

面白い点は、AIの幻覚を抑えるのと同じ3項からなる目的関数が、理論物理学にも現れることです。そこでは、その3つの固定点条件によって、熱力学、量子測定、そして一般相対論を回復します。それが偶然なのか、それとももっと深い何かによるものなのかは未解決の問いです。

論文: https://doi.org/10.5281/zenodo.19114787

submitted by /u/Perfect-Calendar9666
[link] [comments]