AI Navigate

AI安全性のための感情コスト関数:エージェントに不可逆的な結果の重みを感じさせる教育

arXiv cs.AI / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 著者らは、AIエージェントが不可逆的な結果を表す質的な苦痛状態を発展させ、その性格を再形成することを可能にする「感情コスト関数」を提案します。
  • 数値的ペナルティやルールベースの整合性だけでは意味を捉えきれないと主張し、質的な苦痛は何が失われたのか、そしてそれが将来の意思決定をどのように変えるかを符号化します。
  • 本フレームワークは「結果処理器(Consequence Processor)」「キャラクター状態(Character State)」「予見スキャン(Anticipatory Scan)」「ストーリー更新(Story Update)」の四要素アーキテクチャを特徴とし、行為は取り消せず、エージェントは自らの結果と共に生きなければならないという原理に支えられています。
  • 経験的および前経験的な不安は結果の予見を可能にし、人間の知恵が経験と文化を通じて蓄積される様子を映しており、この手法は金融取引、危機支援、コンテンツモデレーションの10件の実験で検証されました。
  • 結果は、質的苦痛が狙いを定めた知恵を生み、機会を適度に抑制することを示唆しており、全体のシステムはプローブごとに10個の根拠づけフレーズを生成します(素の LLM では0)。小規模なN=10の研究で再現性は80〜100%でした。

要旨:人間は、壊滅的な過ちから学ぶのは数値的な罰ではなく、定性的な苦悩を通じて自分自身を再形成する。現在のAI安全性アプローチはこれのいずれも再現していない。報酬設計は大きさを捉えるが、意味を捉えられていない。ルールベースの整合性は挙動を制約するが、それを変えることはない。
私たちは感情コスト関数を提案する。エージェントが定性的苦悩状態を発展させる枠組みであり、不可逆的な結果を豊かな物語的表現として表し、それが前方へ持続し、積極的に性格を再形成する。数値的ペナルティとは異なり、定性的な苦悩状態は、失われた意味、それが生み出す特定の空虚、およびそれが将来の類似した状況におけるエージェントの関係性をどのように変えるかを捉える。私たちの4つの構成要素からなるアーキテクチャ - Consequence Processor、Character State、Anticipatory Scan、Story Update - は、1つの原則に基づいている。行動は元に戻せず、エージェントは自分が引き起こしたことを受け入れて生きなければならない。予期不安は二つの経路で働く。経験的不安は、エージェント自身が実際に経験した結果から生じる。事前経験的不安は、直接的な経験なしに、訓練やエージェント間の伝達を通じて獲得される。これらは、経験と文化を通じて人間の知恵が蓄積されていく様子を映し出している。十件の実験は、金融取引、危機支援、コンテンツモデレーションの三分野にまたがるが、定性的な苦悩は一般化された麻痺ではなく、特定の知恵を生み出すことを示している。エージェントは適度な機会には90〜100%の割合で正しく関与する一方、数値ベースラインは90%で過度に拒否する。アーキテクチャのアブレーションは、この機構が不可欠であることを確認している。全体のシステムは、各プローブにつき十個の個人的な根拠づけフレーズを生成するのに対し、素の LLM には0個である。統計的検証(N=10)は、80〜100% の一貫性で再現性を確認している。

返却形式: {"translated": "翻訳されたHTML"}