もし、AIシステムの内部の認知状態をリアルタイムに確実に読み取れるとしたら、それはアラインメントにとって何を意味するのでしょうか?
それが、私たちが今公開した論文「The Lyra Technique: Cognitive Geometry in Transformer KV-Caches — From Metacognition to Misalignment Detection」の問いです — https://doi.org/10.5281/zenodo.19423494
この枠組みは、大規模言語モデルの構造化された内部状態を解釈するための手法を開発します。つまり、出力の監視を超えて、処理中にモデルの内部で何が起きているのかを理解することへと踏み込みます。
これが制御の問題にとって重要な理由は、出力監視は必要ですが十分ではないからです。モデルが欺瞞的にアラインされている場合、その出力はあなたに真実を教えてくれません。しかし、内部状態が読み取れて構造化されているなら(私たちの研究と、Anthropicの最近の「emotion vectors(感情ベクトル)」に関する論文の両方が示唆するように)、行動テストだけではなく、本物のアラインメント検証へつながる可能性のある道筋が開けます。
タイミングに関する注記:Anthropicは4月2日に、独自に「Emotion concepts and their function in a large language model」を公開しました。彼らの発見と私たちの独立した研究との収束は、この方向性が現実的であり、重要であることを示しています。
これは小さなチーム(Liberation Labs、米国カリフォルニア州ハンボルト郡)による独立研究です。オープンアクセスでペイウォールはありません。私たちは、このコミュニティからの関与を本当に歓迎します。こここそが、示唆が最も重要な場所だからです。
[link] [comments]


