ローカル推論モデルの微調整(fine-tuning)向けに、100,000サンプルのChain-of-Thought(CoT)データセットを公開しました。
各サンプルには、答えのみの監督ではなく、明示的な中間の推論トレースが含まれています。狙いは、特に小規模なローカルモデルにおいて、教師あり微調整中の推論の一貫性を改善することです。
ここで共有するのは、ローカルLLMの微調整や推論蒸留(reasoning distillation)に取り組んでいる方々からフィードバックを集めるためです。
特に、以下についてのご意見をいただけると嬉しいです:
- CoTの長さ
- 推論スタイルの一貫性
- 完全な推論トレースが、小規模なローカルモデルにとって役立つのか、それとも害になるのか
Hugging Face:
https://huggingface.co/datasets/Kamisori-daijin/email-datasets-v2-100k
[link] [comments]




