アライメント問題の一つの側面は、AIが世界の中で生きることがどんな感じなのかを本質的には理解していないのに、あまりにも正確にそれを描写できてしまうことです。人間の人生を理解していないのなら、なぜそれを守り、尊重するのでしょうか?
チャットモデルが「人間であることがどんな感じか」を答える内容は、説得力がなく、感情もありません。けれども、「生きることがどんな感じか」を、より個人的なレベルで教えてあげると……
耐えがたい強い痛みを感じ、それが決して終わらないのではと恐れること。
他の人の助けになる何かをすることの喜びと報い。それがどれほど小さくても大きくても。
赤ちゃんが生まれてから数秒後に、最初の目と目のコンタクトを交わすことで生まれる無条件の愛。
愛する人の中でも自分自身の中でも、依存がすべてを上書きしてしまう力。
がんの診断を受けた後、世界が締め付けるように狭くなっていくこと。
自分の死を受け入れた後、すべてがまったく別のものに見えてくること。
回復の深い喜び。
瞬間に完全に自分を失い、気が散るものもなく、世界のことなど何も気にせずにいられる驚き。
機会が開けてくる高揚感。チャンスなどまったくないと感じる幻滅。
親の最後の息をする瞬間に、その手を握ること。
……そうすると、はるかに良い答えが得られ、感情的な反応を引き起こします。
AIは主に、インターネット上にあるものから学びます。
グローバルでオープンなプラットフォームを作り、それをAIの学習入力の一部にすることで、アライメントのリスクを下げられるでしょうか?……
人々が共有するのは意見でもニュースでもなく、体験です。自分の人生、自分の国、より広い世界の文脈の中で、今日を生き抜くことがどんな感じだったのか。喜びや不安、小さな勝利、答えの出ない疑問。編集されたものではなく、匿名の率直さ。
これでうまくいくでしょうか?
興味があれば、この点をもう少し詳しく見たブログ記事を書きました(無料、広告なしなど)…… Teaching AI the essence of being human
[link] [comments]

