私が取り組んだすべてのファインチューニングプロジェクトは、同じパターンに従っていました。1時間でモデルコードを完成させ、データ準備には2日かかる。列名を変更し、エンコーディングの問題を修正し、不要なサンプルを除外し、正しい形式へと変換する。難しい作業ではなく、ただ遅い作業です。
そこで、ここ数ヶ月を費やしてNeurvanceを構築しました — 学習のためにすでにクリーンアップされ、整形され、構造化されたデータセットを提供するプラットフォームです。手動で自由に閲覧・ダウンロードできます(すべてCC0ライセンスです)。
機能:
- データセットはクリーンアップされ、重複が排除され、一般的な訓練フレームワーク向けに整形されます
- 手動ダウンロードは無料で、サインアップは不要です
- APIは一括アクセスと、パイプラインに同期した段階的な取得を提供します
- すべてのデータはCC0です — 使い方は自由です
まだ初期段階で、ところどころ荒いです。ここにいる誰かがファインチューニング作業をしていて試してみたい場合、欠けている点や壊れている点について正直なフィードバックをいただけると本当にありがたいです。
データパイプライン、クレンジングの仕組み、または利用可能なデータセットについてのご質問には喜んでお答えします。
[リンク] [コメント]