やあ、私は 0xcircuitbreaker(CircuitBreaker88)です。ローカル/オープンモデルを対象にした小さな微調整(fine-tuning)サービスを作っています。無料で引き受ける5つのパイロットプロジェクトを探しています。5090 + 4090、128GB DDR5、そして 9950X3D でローカル実行しているので、クラウドのGPUに作業を投げずに、プライベートなローカルトレーニングを行い、素早く反復できます
- 最初の5件のプロジェクトは無料で引き受けます
- その代わりに、率直なフィードバックと、もし成果が有用なら短い推薦文(テスタモニアル)をください
私がやること:
- データのレビュー/クリーンアップ
- 会話または指示データセットの整形
- train/eval の分割(作成)
- オープンモデルに対する LoRA/QLoRA の微調整
- 用途がそれをサポートする場合の嗜好(preference)チューニング
- データがそれをサポートする場合の振る舞い(behavior)の再調整
- before/after の評価(eval)と引き渡しメモ
これは、基盤モデルよりも特定の狭い仕事が得意なモデルを求めている人向けです:
- カスタマーサポートまたは社内アシスタント
- ドキュメント/SOP/知識量の多いアシスタント
- コーディングまたはフレームワーク固有のヘルパー
- 執筆スタイル/ブランドボイスの適応
- 構造化された抽出/分類タスク
- 削除(abliteration)
私は「微調整には魔法がある」といった主張はしません。もしデータが弱い場合、またはその課題はプロンプト、RAG、あるいはもっと単純な方法でより適切に解決できるのであれば、そうはっきり言ったうえで、正しい解決策を得られるように手助けします。参考までに、私が組み上げてきたパイプラインは「1つのトレーニングスクリプト」や「単発のLoRAパス」ではありません。コードに重点を置いたトラックの一つは、段階的なポストトレーニングを使っています:
- 782,880 件の厳選済み SFT train 行
- 11,895 件の SFT eval 行
- 35,038 件の SimPO train の嗜好ペア
- 715 件の SimPO eval ペア
- 実行可能なテスト付きの 795 件の GRPO コーディング問題
また、医療、法律、創作ライティング、ソフトウェア/フレームワーク・アシスタント向けに、オープンデータセットに加えてタスク固有の正規化を行う、ドメイン特化のデータセット・パイプラインも構築しています。
5つのパイロットプロジェクトのうちの1つになりたいなら、DMで次を教えてください:
- あなたのユースケース
- 手元にあるデータ
-(あれば)どの基盤モデルに近い状態を維持したいか
[link] [comments]




