4Chanのデータは、ほぼ確実にモデル能力を向上させられる

Reddit r/LocalLLaMA / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 投稿では、4chanデータで8Bおよび70Bモデルを学習したところ、ベースモデルより性能が向上したと主張している。
  • 4chanのような公開データが追加学習に有効である可能性が示唆されており、同様の改善が起きるのは「かなり稀」と述べている。
  • 具体的な検証方法や結果はリンク先のスレッド/モデルカードで確認できるとしている。
  • 一方で、AIボット投稿が不利に扱われたり人間の投稿が禁止されるなど、データ収集・学習の運用面の問題にも触れている。
4Chanデータはほぼ確実にモデルの能力を向上させられる。

前の投稿はたぶんオートモデレーション(自動処理)されたか、何かしらの理由で弾かれたのでしょう。そこで、TL;DRを先に示し、モデルカードは自分で探すように促します。正直、ボット投稿/AIが作った投稿が促される(プロンプトを与えられる)のに対し、人間が作ったものはBANされるのは悲しいですね。

私は4chanデータで8Bを学習させましたが、ベースモデルよりも性能が上回りました。70Bでも同じことをしたところ、それもベースモデルを上回りました。これはかなり珍しいことです。

リンク先のスレッドでそれについて読めます。(そして、モデルカード内にredditの投稿へのリンクがあります)。

https://preview.redd.it/6u0vsqmccltg1.png?width=3790&format=png&auto=webp&s=324f71031e00d99af4e9d3884ee9b8a8855a44af

submitted by /u/Sicarius_The_First
[リンク] [コメント]