失敗例から学んでサイクルごとに改善し、自分で学習データを構築するツールを作った

Reddit r/artificial / 2026/5/5

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • この投稿では、少数のシードプロンプトから命令—応答ペアを生成し、LLMで出力を採点したうえで、良い例は学習データに加え、悪い例は次の反復のためのシードとして再投入するワークフローが説明されています。
  • 「失敗したことを練習する」という反復的な考え方により、失敗ケースに焦点を当てて自己改善のカリキュラムを作る点が強調されています。
  • 採点(ジャッジ)部分は、外部APIにデータを送らないために、Ollamaで完全にローカル実行できると述べられています。
  • ファインチューニングは、無料のColab GPU上でUnslothを使って行うため、コストを抑えて一連の手順を実現できるとされています。
  • このプロジェクトは研究よりも実用寄りで、同様の取り組みをしている人へのフィードバックも求めています。
自分自身でトレーニングデータを構築し、間違えた内容から学習して各サイクルごとに改善するツールを作りました

APIにデータを送信したくない場合は、Ollamaで判定(ジャッジ)を完全にローカルで実行できます。

最後のファインチューニングでは、無料のColab GPUにUnslothを使うので、お金をかけずに全体を実現できます。

これは研究プロジェクトというより実用的なツールですが、「失敗ケースをカリキュラムとして使う」という発想は、私が本当に面白いと感じているものです。

同じようなことをやった人がいればぜひ聞いてみたいです。

Githubプロジェクトのリンクは下のコメントにあります

に投稿されました /u/gvij
[リンク] [コメント]