| 前の投稿はたぶんオートモデレーション(自動処理)されたか、何かしらの理由で弾かれたのでしょう。そこで、TL;DRを先に示し、モデルカードは自分で探すように促します。正直、ボット投稿/AIが作った投稿が促される(プロンプトを与えられる)のに対し、人間が作ったものはBANされるのは悲しいですね。 私は4chanデータで8Bを学習させましたが、ベースモデルよりも性能が上回りました。70Bでも同じことをしたところ、それもベースモデルを上回りました。これはかなり珍しいことです。 リンク先のスレッドでそれについて読めます。(そして、モデルカード内にredditの投稿へのリンクがあります)。 [リンク] [コメント] |
4Chanのデータは、ほぼ確実にモデル能力を向上させられる
Reddit r/LocalLLaMA / 2026/4/7
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 投稿では、4chanデータで8Bおよび70Bモデルを学習したところ、ベースモデルより性能が向上したと主張している。
- 4chanのような公開データが追加学習に有効である可能性が示唆されており、同様の改善が起きるのは「かなり稀」と述べている。
- 具体的な検証方法や結果はリンク先のスレッド/モデルカードで確認できるとしている。
- 一方で、AIボット投稿が不利に扱われたり人間の投稿が禁止されるなど、データ収集・学習の運用面の問題にも触れている。




