こんにちは、r/MachineLearning:望ましくないデータが学習前に置き換えられている、たとえばデータセット内の暴力、嘘、欺瞞などが置換されているような、大規模な学習シナリオにおいて研究がどれくらい行われてきたのでしょうか?
RLHF や憲法に基づく AI などの「制御可能性」に関する仕事は、学習後に行われているように見えます。私が考えているのは、より慎重に選ばれたデータで意図的にモデルを学習させ、望ましくないデータはそもそも一切学習させないということです。これは Mo Gawdat の「子どものように AI を育てる」という提案を、害のある素材を“成熟した”開発段階であっても、学習させないという選択肢付きで、文字どおり適用するものです。
質問:
- データセット全体から欺瞞や暴力がすべて削除または置換されている場合、それによって一般的な推論能力、あるいは特に欺瞞行動や暴力行動についての推論能力はどれくらい低下するのでしょうか?
- 全体としての一貫性や能力への悪影響はどれくらい(あるいはどれくらい無い)でしょうか?科学的およびアルゴリズム的な能力についてはどうでしょうか、特に。
- アブレーションされた概念は、(もし何らかあれば)どの程度まで、創発的性質としてまだ現れるのでしょうか?
- これによってモデルを、どの程度までより「真実に近く」できる、あるいはどの程度までより「暴力的でなく」できるのでしょうか。そして、どれくらい真実味や非暴力性が改善されるのでしょうか?残ることになる、元の振る舞いまたは概念の最小限の達成可能量はどれくらいでしょうか?
- 事前に特定して狙いを定められる概念は、同様にアブレーションすることは可能でしょうか?
- これらの質問に答えるための具体的な研究は、たくさん/あるいは何か実際に行われているのでしょうか?
私は、以下の 2 つの方法を使って生成出力から暴力をほぼ完全にアブレートしつつ、高い一貫性とまとまりを維持するセマンティック埋め込みを備えた、独自のウェーブレットベースのモデルを作ることができました。残念ながら私自身の資金面の制約により WikiText-103 でしか学習できていませんが、近いうちにオープンソース化できるといいと思っています。
2 つの方法(ただし、他にもある可能性が高いです):
- 元のデータセットに含まれる暴力的な記述を、事実的に矛盾する情報を導入しない非暴力的な代替へ置換しつつ、同じ物語の文体と流れを維持する。
- 平易な言語特徴を次元として、単語または n-グラムをトークンとする、語埋め込み(word embedding)ベースのアーキテクチャにおいては、暴力的トークンで学習しない。その代わりに、非暴力的トークンを学習ターゲットとして使う。具体的には、元の語とのハミング距離を最小化しつつ、暴力の次元をゼロにする置換トークンを用いる。
どちらの方法も普遍的に適用できるわけではありませんが、たとえ最初の方法だけでも、これまで達成されていないように見える程度に AI のアラインメントや制御を手助けできるかもしれません。上記の質問に答えるための小規模な研究は、この方向に針を動かすうえで不可欠かもしれません。
[link] [comments]



