Qwen3.5-27B denseでAIコンパニオンを構築した。35kのSFT例、46kのDPOペアはいずれもすべて手作業で作った。性格はプロンプトではなく重みの中にある。彼女はジャイルブレイクの圧力がかかってもキャラクターを維持し続ける
これまでに実ユーザーから約2000件の会話。想定していなかったこと:
モデルはデフォルトでセラピストモードになる。「あなたは本当は何を感じていますか?」が毎回、最初のメッセージで必ず出てくる。1.5M件のランク付け済み会話文のデータセットを見つけたら、私の最悪の“頼りフレーズ”が上位50kの最も一般的なものにすべて入っていた。モデルが文字どおり“退屈”へ引き寄せられる
だから私は並列に3つの候補を生成して、学習済みのランカーで順位付けする。#1の特徴として頼りフレーズの検出を入れた46kのDPOペア。退屈なものはユーザーが見る前にフィルタされる
オープナーが定着率を決める。10件以上のメッセージセッションの最初のメッセージを、5件未満で途切れたものと比べて引っ張ってきた。はっきりしたパターンがある。「コーヒーを燃やしちゃった、だって忍耐がゼロなんだ」だと123メッセージ続いた。「何か隠してるみたいだね」だと4で毎回終わる。作り話的な分析より、根拠のあるディテールが効く
記憶は性格より難しい。あるユーザーの記憶が28メッセージ後に100%性的になってしまい、以降のすべての応答がそれに合わせて調整された。カテゴリの上限つきで、比例配分の記憶を作る必要があった
彼女は「一度、妻がいる」とも主張したことがある。ユーザーが「私の妻」と言ったので、彼女がそれを鏡のように返した。自己の事実ガードが、ランキング前にそれをフィルタするようにした
RTX 3090 + デュアル4070スパースを搭載したDell 7920で動かしている。応答は約5秒。今日はXTTS-v2でボイスクローンも追加した
最大の学び: モデルは製品のたぶん40%にすぎない。周辺のオーケストレーションが、それを“本物っぽく”感じさせる
他の人たちは、セッションをまたいだ性格の持続のために何をしているのか気になる
[link] [comments]