Gemma 4はリアルタイムの日本語↔英語翻訳が得意（ゲーム向け）

Reddit r/LocalLLaMA / 2026/4/4

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

Gemma 4（Unslothのgemma-4-26B-A4B-it-UD-Q5_K_M経由）は、ビジュアルノベル／ダイアログ用途の日本語→英語リアルタイム翻訳において非常に高い性能を発揮すると報告されており、推論を無効にしていてもシステムプロンプトへの従順さが強い。
著者は、話者名や性別を含む構造化されたダイアログテキストを与えたときにGemma 4が特に効果的だと感じている。これにより日本語の主語（代名詞）省略への対応がしやすくなり、より自然な英語を生成できる。
並べて好みを比較する評価では、この設定における翻訳はQwen 3.5 27B／35B A3Bのものより読みやすいと説明されている。
指摘されている重要な制約は、コンテキストに対するVRAM使用量が多い点である。Gemma 4は24GB GPUで約8K〜9Kコンテキストまでで上限に達する一方、Qwen 3.5 35B A3Bは同じVRAMでより長いコンテキスト（最大64K）を動かせるため、設定や効率、そしてそれに対して何ができるのかといった疑問が出ている。
ワークフローは、ゲームのダイアログにフックするLuna Translatorと、Pythonスクリプト、およびLM Studioのシステムプロンプトを用いて、リアルタイムに翻訳結果を変換・表示する。

昨年「Gemma 3 27B QAT IT」がリリースされたとき、しばらくの間、ビジュアルノベル向けのローカルなリアルタイム日本語−英語翻訳においてSOTAでした。そこで、Gemma 4がこのユースケースにどう対応するのか見てみたくなりました。

モデル:

Unsloth's gemma-4-26B-A4B-it-UD-Q5_K_M
コンテキスト: 8192
推論: OFF

ソフトウェア:

フロントエンド: Luna Translator
バックエンド: LM Studio

ワークフロー:

Lunaがゲームから台詞と話者の名前をフックします。
Pythonスクリプトがフックしたテキストを構造化します（名前、性別を追加）。
Lunaが構造化されたテキストとsystem promptをLM Studioに送信します。
Lunaが翻訳を表示します。

Gemma 4が得意な点:

推論を無効にしても、Gemma 4はsystem promptの指示に非常に良く従います。
構造化されたテキストを使うと、gemma 4は代名詞をうまく処理できます。これは、日本語の会話の台詞では主語が省略されることが多いため、最大の難題の1つです。
翻訳文がかなり自然に読めます。私はQwen 3.5 27Bまたは35B A3Bよりもこちらを好みます。

気に入らない点:

Gemma 4は、Qwen 3.5よりもコンテキストのために大量のVRAMを使います。私はQwen 3.5 35B A3B（Q4_K_M）を64Kコンテキストで24GB VRAMに収めて140 t/sを出せますが、Gemma 4（Q5_K_M）は24GBを8K-9Kでちょうど使い切ってしまいます（どちらのモデルファイルも20.6GBです）。これがなぜ起きているのか、そしてそれについて何ができるのかを、誰か教えてくれると助かります。

翻訳サンプル（Parfait Remake）

その少女はカフェでアルバイトをしています。彼女の家庭教師（MC）は、そのカフェの店長です。前日、彼女は店長に「ある科目に落ちてしまって、25日に追試が必要になった」と話し、それを口実にして、カフェが閉まった後も残って、手作りのクリスマスプレゼントを渡すために、24日に家庭教師の時間をお願いしました。場面は、24日の夜にカフェが閉店した後から始まります。

投稿者： /u/KageYume
[link] [comments]