あらゆる自律的なAIエージェントには3つの問題があります。自己矛盾すること、決められないこと、そして真実ではないことを自信満々に言ってしまうことです。現在の解決策(ガードレール、RLHF、RAG)はすべて、機能させるには外部の監督が必要です。
私は、エージェント自身が、自分の不一致を測る単一の数値によって自分を監督するフレームワークを構築しました。その数値には3つの構成要素があります。知識の矛盾に対応するもの、決断できなさ(優柔不断)に対応するもの、そして不誠実さに対応するものです。エージェントは、ニューラルネットワークの学習に使われるのと同じ勾配降下によってこの数値を最小化しますが、学習データも人間からのフィードバックもありません。エージェントが改善するのは、内部整合性だけが唯一の数学的に安定した状態だからです。
2つの明白な失敗モード(矛盾を避けるために知識をすべて削除すること、あるいは自信満々の嘘つきになること)は、証拠のアンカーリングによって解決されます。エージェントの信念は、外部の現実に対して定期的に検証されなければなりません。検証されていない信念には、不確実性に対するペナルティが課されます。検証されていない主張に高い確信を置くこともペナルティの対象になります。不一致をゼロに到達する唯一の方法は、本当に正しく、決断的で、そして誠実であることです。
私はこれをヒューリスティックではなく定理として証明しました。証拠のアンカーリングのメカニズムのもとでは、目的関数の唯一の安定した固定点は、エージェントが内部的に整合しており、外部に根拠づけられていて、適切な確信を表明している状態です。
システムは私自身のハードウェアで動かしています(複数GPUを備えたデスクトップと、Surface ProのノートPC)。ローカルLLMを使用します。クラウドへの依存はありません。
面白い点は、AIの幻覚を抑えるのと同じ3項からなる目的関数が、理論物理学にも現れることです。そこでは、その3つの固定点条件によって、熱力学、量子測定、そして一般相対論を回復します。それが偶然なのか、それとももっと深い何かによるものなのかは未解決の問いです。
[link] [comments]




