心理療法データセットでDPOを行った後のローカルLLM評価に関する助言

Reddit r/LocalLLaMA / 2026/3/28

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

Redditのユーザーが、心理療法データセットを用いてDPOによりGemma 3 4Bをファインチューニングし、ローカルのコンパニオン型チャットボットを構築したことを説明している。なお、それは医療助言や治療行為ではないことを明確にしている。

実験の一環として、心理療法のデータセットでDPOを使ってGemma 3 4Bを微調整し、（はい、これは絶対に医療アドバイスやセラピストになることを意図したものではありません）仲間として振る舞えるローカルのチャットボットを作ろうとしました。

QLoRaとPeFTを発明した誰かに感謝しなければなりません。おかげで、私のRTX 3050Ti搭載のノートPCで微調整を実行できました。遅かったし、ノートPCは熱を持ちました――でも最終的にはうまくいきました :D

私の微調整済みモデルの、"ストック"のGemma 3モデルに対する改善（あるいは改善がないこと）を評価するために、RTX 3050Ti 4GBの環境でローカルにどんなテストベンチを実行できますか？

AI Business

Qiita

Reddit r/LocalLLaMA

Dev.to

Dev.to