事前学習(pre training)の段階でAIを訓練しているとき、たとえば「不整合な振る舞い("misaligned behaviour")」をしたら、重みのうち5%とか10%くらいを減らしてリセットし、それをAIに知らせるようにしているとしたらどうなるでしょうか。さらに、誤った振る舞いを見つけるために、20人くらいのトップの人間エキスパートのパネルが同時にボットとチャットして不整合を探し、もしかすると別の方法で不整合を見つける別のグループの人間エキスパートも用意して、彼らがそれを定期的に行うとしたら。こういうことで不整合な振る舞いは抑制されるでしょうか。
ふと思いつきました
ぜひご意見を聞かせてください
[リンク] [コメント]




