AI安全性のための感情コスト関数：エージェントに不可逆的な結果の重みを感じさせる教育

arXiv cs.AI / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

著者らは、AIエージェントが不可逆的な結果を表す質的な苦痛状態を発展させ、その性格を再形成することを可能にする「感情コスト関数」を提案します。
数値的ペナルティやルールベースの整合性だけでは意味を捉えきれないと主張し、質的な苦痛は何が失われたのか、そしてそれが将来の意思決定をどのように変えるかを符号化します。
本フレームワークは「結果処理器（Consequence Processor）」「キャラクター状態（Character State）」「予見スキャン（Anticipatory Scan）」「ストーリー更新（Story Update）」の四要素アーキテクチャを特徴とし、行為は取り消せず、エージェントは自らの結果と共に生きなければならないという原理に支えられています。
経験的および前経験的な不安は結果の予見を可能にし、人間の知恵が経験と文化を通じて蓄積される様子を映しており、この手法は金融取引、危機支援、コンテンツモデレーションの10件の実験で検証されました。
結果は、質的苦痛が狙いを定めた知恵を生み、機会を適度に抑制することを示唆しており、全体のシステムはプローブごとに10個の根拠づけフレーズを生成します（素の LLM では0）。小規模なN=10の研究で再現性は80〜100%でした。

要旨：人間は、壊滅的な過ちから学ぶのは数値的な罰ではなく、定性的な苦悩を通じて自分自身を再形成する。現在のAI安全性アプローチはこれのいずれも再現していない。報酬設計は大きさを捉えるが、意味を捉えられていない。ルールベースの整合性は挙動を制約するが、それを変えることはない。
私たちは感情コスト関数を提案する。エージェントが定性的苦悩状態を発展させる枠組みであり、不可逆的な結果を豊かな物語的表現として表し、それが前方へ持続し、積極的に性格を再形成する。数値的ペナルティとは異なり、定性的な苦悩状態は、失われた意味、それが生み出す特定の空虚、およびそれが将来の類似した状況におけるエージェントの関係性をどのように変えるかを捉える。私たちの4つの構成要素からなるアーキテクチャ - Consequence Processor、Character State、Anticipatory Scan、Story Update - は、1つの原則に基づいている。行動は元に戻せず、エージェントは自分が引き起こしたことを受け入れて生きなければならない。予期不安は二つの経路で働く。経験的不安は、エージェント自身が実際に経験した結果から生じる。事前経験的不安は、直接的な経験なしに、訓練やエージェント間の伝達を通じて獲得される。これらは、経験と文化を通じて人間の知恵が蓄積されていく様子を映し出している。十件の実験は、金融取引、危機支援、コンテンツモデレーションの三分野にまたがるが、定性的な苦悩は一般化された麻痺ではなく、特定の知恵を生み出すことを示している。エージェントは適度な機会には90〜100%の割合で正しく関与する一方、数値ベースラインは90%で過度に拒否する。アーキテクチャのアブレーションは、この機構が不可欠であることを確認している。全体のシステムは、各プローブにつき十個の個人的な根拠づけフレーズを生成するのに対し、素の LLM には0個である。統計的検証（N=10）は、80〜100% の一貫性で再現性を確認している。

返却形式: {"translated": "翻訳されたHTML"}

AI時代の子供と顧客への教育！生き残るための3つの必須スキル

note

『AIと精神疾患･教育現場』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾捌

note

臨床家がAIをスーパーバイザーにする沢山の理由─人間による93%の暴力から身を守る方法

note

いろんなモデル（GPT・Grok・Claude・Gemini）にSVGコードで絵を描いてもらったらびっくり！個性が見えました🩷プロンプト付き

note

3行日記 AIマニュアルはバタフライ入門

note

AI安全性のための感情コスト関数：エージェントに不可逆的な結果の重みを感じさせる教育

要点

関連記事

AI時代の子供と顧客への教育！生き残るための3つの必須スキル

『AIと精神疾患･教育現場』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾捌

臨床家がAIをスーパーバイザーにする沢山の理由─人間による93%の暴力から身を守る方法

いろんなモデル（GPT・Grok・Claude・Gemini）にSVGコードで絵を描いてもらったらびっくり！個性が見えました🩷プロンプト付き

3行日記 AIマニュアルはバタフライ入門

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

AI時代の子供と顧客への教育！生き残るための3つの必須スキル

『AIと精神疾患･教育現場』諸葛亮 孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話 その肆拾捌

臨床家がAIをスーパーバイザーにする沢山の理由─人間による93%の暴力から身を守る方法

いろんなモデル（GPT・Grok・Claude・Gemini）にSVGコードで絵を描いてもらったらびっくり！個性が見えました🩷プロンプト付き

3行日記 AIマニュアルはバタフライ入門

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

『AIと精神疾患･教育現場』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾捌