制度設計としてのアライメント:行動の矯正からインテリジェントシステムにおける取引構造へ

arXiv cs.AI / 2026/4/16

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、RLHF のような従来のAIアライメント手法を「行動の矯正(behavioral correction)」として批判し、それらは財産権を欠く経済に似ているため、継続的な監視・取り締まりが必要になり、スケールしにくいと主張する。
  • 「アライメントを制度設計(alignment as institutional design)」へと転換し、インテリジェントシステムの内部の取引構造(例:モジュール境界、競争トポロジ、コストのフィードバック・ループ)を明示することで、整合した振る舞いが最も低コストの戦略になるようにすることを提案する。
  • 制度派経済学の概念を用いて、著者はアライメントを純粋な行動制御の問題ではなく、政治経済学的な問題として位置づける。さらに、制度は自己利益を取り除くことも、最適性を保証することもできないと強調する。
  • 本研究では、人間の介入が還元不能な3つのレベル—構造的(structural)、パラメトリック(parametric)、モニトリアル(monitorial)—に分けられることを特定し、結論として、監督のもとで動的に自己修正するプロセスによって実現される制度的ロバスト性を目的とすべきだとする。
  • 本論文は、その枠組みを「Wuxing(五行)」の資源競争メカニズムに関する関連研究と結びつけ、制度設計をそのアプローチの規範的(ノルマティブ)基盤として位置づける。

アブストラクト: 現在のAIアライメントのパラダイムは、行動の矯正に依存しています。すなわち、外部の監督者(例:RLHF)が出力を観察し、嗜好に照らして判断し、パラメータを調整します。本論文は、行動の矯正が、所有権のない経済に構造的に類似していることを論じます。そこでは秩序が必要であり、そのために絶え間ない監視が求められ、しかもスケールしません。制度派経済学(Coase、Alchian、Cheung)に依拠し、能力の相互排他性、競争的なコストの発見を取り入れて、私たちはアライメントを制度設計として提案します。すなわち、設計者が内部の取引構造(モジュール境界、競争のトポロジー、コストのフィードバックループ)を指定することで、整合した行動が各構成要素にとって最も低コストな戦略として現れるようにするのです。人間の介入には還元できない3つのレベル(構造的、パラメトリック、モニター的)があることを特定し、この枠組みによってアライメントが行動制御の問題から政治経済の問題へと変換されることを示します。どの制度も自己利益を排除したり、最適性を保証したりはしません。最良の設計は、ミアライメントをコストのかかるものにし、検出可能にし、かつ修正可能にします。結論として、適切な目標は制度の頑健性—人間の監督下における、動的で自己修正的なプロセス—であり、完璧ではないとします。本研究は、併載論文におけるウーシン(Wuxing)資源競争メカニズムのための規範的基盤を提供します。
キーワード: AIアライメント、制度設計、取引コスト、所有権、資源競争、行動の矯正、RLHF、コストの真実性、モジュール型アーキテクチャ、修正可能なアライメント