「使わなければ所有できない」の実例:Gemma 4がChatGPTとGemini Chatの両方を上回った

Reddit r/LocalLLaMA / 2026/4/22

💬 オピニオンSignals & Early TrendsTools & Practical UsageIndustry & Market MovesModels & Research

要点

  • 著者は、中国語小説を章ごとに翻訳・読ませるAI活用の中で、モデルの性能が時間とともに劣化し、NSFWではないのに失敗率の上昇や検閲フィルタが突然かかる事象まで起きたと述べています。
  • さらに、GPT 5.3 に伴うA/Bテストの結果として、ユーザー側には実質的に劣るバリアントが展開されたようで、その結果が Qwen 3 Max(旧水準)と同程度になったことを観察しています。
  • 同一の翻訳プロンプトで現在のローカル/オープン系モデルを再検証したところ、Gemma 4(31B)が大きく品質を改善し、GPT-4oの最良時に近いレベルの翻訳を安定して出したと報告しています。
  • 比較では、複数のクローズドモデルが「キャラクター名の混同」や「検閲による自動削除」で失敗し、Gemma 4は合格した一方、別のオープンモデルは自然さの欠如や人称・呼称の誤りで部分的にしか成功しなかったとされています。
  • 本稿は「使わなければ所有できない」という考え方の根拠として、セルフホストによる運用管理の強さ、安定性、そしてポリシー起因の中断を減らせる点を強調しています。

モデル劣化と検閲について、なかなか興味深い話です。

AIの用途の一つとして、見えているままの中国の小説を章ごとに翻訳し、読み取らせることがあります。

いくつかの登場人物が秘密の正体というプロット上の要素を持っていて、さらにAIが翻訳のためだけでなく整合性のためにも文脈の手がかりに従う必要があったので、AIにそれを探すよう促し、翻訳の際には正しい名前を選びました。

最初に始めたとき、利用可能な主なモデルはGPT OOS 120B(遅い)、Qwen 3 max、無料のChat GPT 4oでした。

最初はGPT OSS 120Bを試しましたが、失敗しました。名前を混ぜたり、時には一貫して新しい名前を作ったりしました。

次に、それにQwen 3 Maxを使いました。良くはなりましたが、依然として失敗率が20%あります。さらに(NSFWではないにもかかわらず)一貫して検閲フィルタに引っかかり始めました。

次に当時の無料版のChat GPT(4o)を試したのですが、ダントツで最良でした。名前は常に正しく、翻訳そのものの品質も非常に高い出来でした。

それからしばらく後、5.2のアップデートで、問い合わせの20%で失敗し始めました。するとA-Bテストが行われていて、あるバージョンが翻訳に対して一貫して失敗し、間違った名前を選んでいるのが見えました。

そして今、GPT 5.3ではA-Bテストは終わったようで、より悪いバージョンがユーザー向けに展開されてしまい、旧来のQwen 3 Maxと同等くらいのレベルになっています。

これで、翻訳用の最新ローカルモデルを改めて再テストしてみたくなりました。すると驚いたことに、Gemma 4 31Bがクローズドモデルを一掃するほどの結果になりました。品質は、ピーク時のGPT 4oと非常に似ています。

そこで、同じプロンプトと章をいくつかのオープン/クローズド両方のモデルで再テストしてみたくなりました。結果は私たちにとって良好です:

Model PASS/FAIL INFO
GPT OOS 120B FAIL 登場人物の名前をマージする
Qwen 3 Max FAIL (CENSORED) 書き方はOKだが、モデルが検閲されて自動削除された
Qwen 3.6 Plus FAIL (CENSORED) 書き方は良いが、モデルが検閲されて自動削除された
Chat GPT 5.3 FAIL 正しい登場人物の名前を台無しにする。翻訳が不自然に感じられる
Gemma 4 31B PASS 良い翻訳で自然、しかも速い
Qwen 3.5 27B PARTIAL PASS Gemma 4と似ているが、少し不自然な感じで、登場人物の代名詞をめちゃくちゃにする(レディをロードと呼ぶ)
Gemini Chat PARTIAL PASS 意外なことにGemma 4より悪い。少し不自然な感じで、登場人物の代名詞をめちゃくちゃにする(レディをロードと呼ぶ)

なんということだ、私はこの投稿を書き始めた“後”でテストをしました。いったいどうやって、Q4のGemma 4がGeminiとGPT 5.3の両方に勝つんでしょう? ジェミニは本当にGemmaより悪いのか、何なんだよ?!

submitted by /u/ThisGonBHard
[link] [comments]