なるほど、ここへの投稿はこれが初めてです。しばらく潜っていました。いよいよ最初のファインチューニングのプロジェクトを始めようとしているのですが、間違った方向にコミットしたくないので、質問してみようと思いました。
まず私の背景:私はMLの出身ではありません。独学で、約1年ほどAPI経由でLLMを扱ってきました。やりたいことに対して、プロンプトエンジニアリングだけではもう足りなくて行き詰まり、そこで今度は実際に何かをファインチューニングする必要が出てきました。
課題はこうです。モデルに、次の3つの関連したことを学習させたいのです:
第一に、誰かの質問の下に実際に何が起きているかを読み取ること。たとえば誰かが「仕事を辞めるべきか」って聞いてきたとすると、実際の問いは仕事そのものというより、アイデンティティとか恐れとか、別の何かであることが多いです。その“さらに下の層”を見抜くようにモデルを訓練したい。
第二に、あまりにも早い段階で一つに潰れることなく、複数の視点を同時に保持すること。多くの質問には正当な別の角度があり、モデルが反射的に1つだけ選んでしまわないようにしたいです。
第三に、入力がぐちゃぐちゃで、複数の絡まった問題がある場合に、どのスレッドが実際に“支えになっている”のか(要点なのか)と、何がノイズなのかを見分けること。
この3つは自分の中では関連しているように感じますが、手続き(プロセス)的には別物です。同じ根本スキル(本当にそこにあるものを読む)を、3通りに適用する形です。
そこで本題の質問:この用途に3Bで十分でしょうか、それとも7Bが必要でしょうか。3BならPhi-4-mini、別の場合はQwen 2.5 7Bを考えていました。作れるトレーニング例は多分4万〜6万(大きめのモデルを教師として使い、哲学・心理のケーススタディ・戦略系の文献から出典して生成します)。
ハードウェアはM4 Macでメモリ24GBのユニファイド。3BならLoRAで無理なく収まります。7Bはきついですが可能です。必要ならGPUをレンタルしても構いません。
実際に気にしていること:
• 学習データの分布の外にある事柄に対して混乱することなく、3Bが3つの関連した推論モードを保持できるか • 「関連しているが同一ではない」ことが、完全に別タスクだった場合よりも学習を難しくするのか • まだ自分が分かっていないことで、後から致命傷になるようなポイントは何なのか 「両方試してみて」みたいな答えはあまり求めていません。もっと、同じ規模感で推論っぽいデータに対するマルチタスク学習を実際にやった人がいて、どこでうまくいかなくなったのかを教えてもらえると嬉しいです。
ヒントは何でもありがたいです。質問が曖昧なら読めそうな論文だけでも大丈夫です。
[link] [comments]
