[D] 前学習のアラインメントおよび制御性手法としてのデータキュレーションとターゲット付き置換

Reddit r/MachineLearning / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本提案は、RLHF や憲法に基づく AI のような事後学習の手法のみに頼るのではなく、前学習データセット内で望ましくない内容（暴力、嘘、欺瞞など）をキュレーションし置き換えることで、AI の制御性を改善することを目指す。
こうしたアブレーション（除去・置換）が、一般的な推論、欺瞞的・暴力的振る舞いの特定の理解、ならびに全体の一貫性／能力にどのような影響を与えるのか、さらに科学的およびアルゴリズム的な性能も含めた重要な研究課題を提示している。
著者は、2 つのデータセット／モデル学習アプローチを述べる：（1）物語の文体や流れを保ったまま、暴力的な記述を非暴力的な代替へ置き換える方法、（2）置換ターゲットを用いて意味の破壊を最小化し、単語／埋め込みに基づくモデルを学習して暴力トークンを避ける方法。
WikiText-103 で訓練した小規模の独自ウェーブレットベースのセマンティック埋め込みモデルでは、出力中の暴力的内容をほぼ完全に排除しつつ高い一貫性を維持できたと報告しているが、予算制約によりより大規模では学習できなかったと述べている。
「有害」概念が最小限で残る条件を特定するための具体的な研究が必要であり、また、他の同定可能な振る舞いについてもターゲット付きアブレーションが実行可能かどうかを検討する必要があると主張している。

こんにちは、r/MachineLearning：望ましくないデータが学習前に置き換えられている、たとえばデータセット内の暴力、嘘、欺瞞などが置換されているような、大規模な学習シナリオにおいて研究がどれくらい行われてきたのでしょうか？

RLHF や憲法に基づく AI などの「制御可能性」に関する仕事は、学習後に行われているように見えます。私が考えているのは、より慎重に選ばれたデータで意図的にモデルを学習させ、望ましくないデータはそもそも一切学習させないということです。これは Mo Gawdat の「子どものように AI を育てる」という提案を、害のある素材を“成熟した”開発段階であっても、学習させないという選択肢付きで、文字どおり適用するものです。

質問：

- データセット全体から欺瞞や暴力がすべて削除または置換されている場合、それによって一般的な推論能力、あるいは特に欺瞞行動や暴力行動についての推論能力はどれくらい低下するのでしょうか？

- 全体としての一貫性や能力への悪影響はどれくらい（あるいはどれくらい無い）でしょうか？科学的およびアルゴリズム的な能力についてはどうでしょうか、特に。

- アブレーションされた概念は、（もし何らかあれば）どの程度まで、創発的性質としてまだ現れるのでしょうか？

- これによってモデルを、どの程度までより「真実に近く」できる、あるいはどの程度までより「暴力的でなく」できるのでしょうか。そして、どれくらい真実味や非暴力性が改善されるのでしょうか？残ることになる、元の振る舞いまたは概念の最小限の達成可能量はどれくらいでしょうか？

- 事前に特定して狙いを定められる概念は、同様にアブレーションすることは可能でしょうか？

- これらの質問に答えるための具体的な研究は、たくさん／あるいは何か実際に行われているのでしょうか？

私は、以下の 2 つの方法を使って生成出力から暴力をほぼ完全にアブレートしつつ、高い一貫性とまとまりを維持するセマンティック埋め込みを備えた、独自のウェーブレットベースのモデルを作ることができました。残念ながら私自身の資金面の制約により WikiText-103 でしか学習できていませんが、近いうちにオープンソース化できるといいと思っています。

2 つの方法（ただし、他にもある可能性が高いです）：

元のデータセットに含まれる暴力的な記述を、事実的に矛盾する情報を導入しない非暴力的な代替へ置換しつつ、同じ物語の文体と流れを維持する。
平易な言語特徴を次元として、単語または n-グラムをトークンとする、語埋め込み（word embedding）ベースのアーキテクチャにおいては、暴力的トークンで学習しない。その代わりに、非暴力的トークンを学習ターゲットとして使う。具体的には、元の語とのハミング距離を最小化しつつ、暴力の次元をゼロにする置換トークンを用いる。

どちらの方法も普遍的に適用できるわけではありませんが、たとえ最初の方法だけでも、これまで達成されていないように見える程度に AI のアラインメントや制御を手助けできるかもしれません。上記の質問に答えるための小規模な研究は、この方向に針を動かすうえで不可欠かもしれません。

submitted by /u/Real_Beach6493
[link] [comments]

Black Hat Asia

AI Business

TSMC、光電融合でライバル突き放しへ半導体の設計情報「PDK」を広く提供

日経XTECH

AIボイスレコーダーの新製品が相次ぐ、早くも懸念されるレッドオーシャン化

日経XTECH

複数のブレークスルーを経た大規模言語モデル（LLM）の変遷

日経XTECH

AIボイスレコーダーの新製品が相次ぐ、早くも懸念されるレッドオーシャン化

日経XTECH

[D] 前学習のアラインメントおよび制御性手法としてのデータキュレーションとターゲット付き置換

要点

関連記事

Black Hat Asia

TSMC、光電融合でライバル突き放しへ半導体の設計情報「PDK」を広く提供

AIボイスレコーダーの新製品が相次ぐ、早くも懸念されるレッドオーシャン化

複数のブレークスルーを経た大規模言語モデル（LLM）の変遷

AIボイスレコーダーの新製品が相次ぐ、早くも懸念されるレッドオーシャン化

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

TSMC、光電融合でライバル突き放しへ 半導体の設計情報「PDK」を広く提供

AIボイスレコーダーの新製品が相次ぐ、早くも懸念されるレッドオーシャン化

複数のブレークスルーを経た大規模言語モデル（LLM）の変遷

AIボイスレコーダーの新製品が相次ぐ、早くも懸念されるレッドオーシャン化

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

TSMC、光電融合でライバル突き放しへ半導体の設計情報「PDK」を広く提供