昨年「Gemma 3 27B QAT IT」がリリースされたとき、しばらくの間、ビジュアルノベル向けのローカルなリアルタイム日本語−英語翻訳においてSOTAでした。そこで、Gemma 4がこのユースケースにどう対応するのか見てみたくなりました。
モデル:
- Unsloth's gemma-4-26B-A4B-it-UD-Q5_K_M
- コンテキスト: 8192
- 推論: OFF
ソフトウェア:
- フロントエンド: Luna Translator
- バックエンド: LM Studio
ワークフロー:
- Lunaがゲームから台詞と話者の名前をフックします。
- Pythonスクリプトがフックしたテキストを構造化します(名前、性別を追加)。
- Lunaが構造化されたテキストとsystem promptをLM Studioに送信します。
- Lunaが翻訳を表示します。
Gemma 4が得意な点:
- 推論を無効にしても、Gemma 4はsystem promptの指示に非常に良く従います。
- 構造化されたテキストを使うと、gemma 4は代名詞をうまく処理できます。これは、日本語の会話の台詞では主語が省略されることが多いため、最大の難題の1つです。
- 翻訳文がかなり自然に読めます。私はQwen 3.5 27Bまたは35B A3Bよりもこちらを好みます。
気に入らない点:
Gemma 4は、Qwen 3.5よりもコンテキストのために大量のVRAMを使います。私はQwen 3.5 35B A3B(Q4_K_M)を64Kコンテキストで24GB VRAMに収めて140 t/sを出せますが、Gemma 4(Q5_K_M)は24GBを8K-9Kでちょうど使い切ってしまいます(どちらのモデルファイルも20.6GBです)。これがなぜ起きているのか、そしてそれについて何ができるのかを、誰か教えてくれると助かります。
--
その少女はカフェでアルバイトをしています。彼女の家庭教師(MC)は、そのカフェの店長です。前日、彼女は店長に「ある科目に落ちてしまって、25日に追試が必要になった」と話し、それを口実にして、カフェが閉まった後も残って、手作りのクリスマスプレゼントを渡すために、24日に家庭教師の時間をお願いしました。場面は、24日の夜にカフェが閉店した後から始まります。
[link] [comments]




