AI/潜在的なAGIの会話の多くは、まだ当面の主要な前進の道筋が単純だと考えるところがあります。つまり、モデルの能力を高める、コンテキストを拡張する、記憶を改善する、ツールを追加する、自律性を拡張する、ということです。
これらはすべて重要です。
しかし、もう一つの層があり、その層が、下にあるシステムの力に比べて、依然として根本的に作り込みが足りないように感じます:
人間の意図を、実行可能な形(execution-legible)に変換する層です。
いま、先進的なモデルとのやり取りの多くは、驚くほど原始的なインターフェースにまだ依存しています。私たちは、曖昧さを含んだ自然言語で目的を渡し、欠落した文脈、明示されない制約、混在する優先順位、弱い成功基準、そしてほとんど形式的な検証の道筋がありません。そうしてから、システムがそれらのすべての周りをどれだけうまく即興で回避(improvise)できるかによって評価します。
それは実験には役立ちます。ですが、信頼性をもって大規模に動作することが想定される、知能システムのための真面目な長期的なアーキテクチャではありません。
私の見解では、今日「モデルの弱さ」と解釈されているもののかなりの部分は、実際には人間の意図と機械による実行の間にあるインターフェースの失敗です。
モデルがあらゆる点で、すでに十分だからではありません。十分ではありません。
しかし、システムに入ってくる意図が、しばしば構造的に不完全だからです。
実際には、先進的なシステムはしばしばまだ推測しなければなりません:
- 実際の目的が何なのか
- 制約が「厳格(hard)」なのか「柔軟(soft)」なのか
- どのトレードオフが許容されるのか
- 成功が本当に意味するものは何なのか
- 失敗とはどのように見えるのか
- 作業をどういう順序で進めるべきか
- 結果を検証するのに、どんな証拠が必要なのか
- どの形の出力が、本当に使えるのか
つまり、そのシステムは同時に二つの仕事をしています:
- タスクを解く
- 低解像度の人間の要求からタスクを再構築する
能力が上がるにつれて、その2つ目の負担は、むしろ増していきます。減りはしません。
強い知能の基盤ができてくるほど、それに壊れた、あるいは要件が十分に指定されていない意図を渡し続けるコストは、より高くつくからです。生の能力だけでは、忠実な実行は得られません。あなたが得るのは、より強力なシステムでありながら、それでもなお「あなたの意図」が何かを当てずっぽうで推測させられてしまうものです。
これは、プロンプトの領域をはるかに超えた影響を持ちます。
信頼性、アライメント、協調、検証、そして実際に投入された知能システムの現実的な上限(プラティカルな天井)に影響します。さらに、それはスタックそのものの考え方も変えます。
真面目な知能スタックには、おそらく次以上のものが必要です:
- モデルの能力
- 記憶と検索
- ツールの使用
- エージェント的な制御ループ
- 評価と修正
加えて、実行の前および実行の間ずっと、意図を「統治可能で、テスト可能で、実行可能な形式」に構造化する頑健な層も必要です。
その層がなければ、タスクの多くがまだ指定されずに推測され続けるため、現実世界での運用が不均一なまま、バースト的にますます知的に見えるシステムを作り続けてしまうかもしれません。
それは、いまの状況の多くを説明できるはずです:
- 実用上の信頼性がばらつく、印象的なベンチマーク
- 一発勝負で強い出力だが、一貫性が弱い
- 非常に高い能力があるように見えるが、曖昧さの下では崩壊してしまうシステム
- 目的そのものがきれいに形成されていなかったのに、モデルの限界について繰り返される議論
この観点からすると、意図のアーキテクチャはUXの付属品ではなく、プロンプトの洗練されたバージョンでもありません。
それは、人間の目的と機械による実行のあいだに欠けている「運用上の文法(operational grammar)」の一部です。
そして、それが正しいなら、AGIへの道は単にモデルをより賢くすることだけではありません。
また、先進的な知能がそれを忠実に実行し、適切に検証し、複雑なワークフローにわたってそれを維持し続けるために、人間の意図が十分に明瞭(legible)になるようにすることでもあります。つまり、人間が何を意図したのかを絶えず再構築し直すことなく維持できるようにするのです。
それは、いまのところ中心的なアーキテクチャ上のギャップの一つのように思えます。
ここでは他の人たちがどう見ているのか気になります:
より大きく欠けているのは、まだ主にモデル自身の中にあるのでしょうか?それとも、意図がこれほどまでに構造化されていない形でスタックに入ってくるせいで、どれほどの能力が失われているのかを、私たちは過小評価しているのでしょうか?
[link] [comments]




