字幕翻訳でTranslateGemma-12bを5つの最前線LLMとベンチマークしたところ、総合的に全勝—ただし大きな落とし穴が1つ

Reddit r/LocalLLaMA / 2026/4/14

📰 ニュース

要点

  • Alconostが、6つの字幕翻訳LLMを6つのEN→各言語の組み合わせでベンチマークし、結合TQIメトリクスを用いた結果、TranslateGemma-12bが総合1位となり、すべての言語で一貫して勝利を収めたことを確認した。
字幕翻訳で5つの最前線LLMとTranslateGemma-12bをベンチマークしました――総じて勝利しましたが、重大な注意点が1つあります

Alconostで進めている翻訳品質の調査の一環として、6つのモデルに対して字幕翻訳を6つの言語ペアで行い、評価しました。最初は数字がきれいな結果を示していました。ですが、人手によるQA(品質保証)が次の章を追加しました。

モデル:

  • TranslateGemma-12b
  • gemini-3.1-flash-lite-preview
  • deepseek-v3.2
  • claude-sonnet-4-6
  • gpt-5.4-mini
  • gpt-5.4-nano

言語: ENからスペイン語、日本語、韓国語、タイ語、中国語(簡体)、中国語(繁体)

結果(平均TQI - こちらの複合指標、値が高いほど良い)

順位 モデル 平均TQI
#1 TranslateGemma-12b 0.6335
#2 gemini-3.1-flash-lite-preview 0.5981
#3 deepseek-v3.2 0.5946
#4 claude-sonnet-4-6 0.5811
#5 gpt-5.4-mini 0.5785
#6 gpt-5.4-nano 0.5562

TQI = COMETKiwi × exp(−MetricX/10) - 詳細はレポートに記載。

この傾向は、個々のあらゆる言語で維持されました。結論は各自でどうぞ。ただし、この一貫性は見過ごしにくいです。12Bの用途特化モデルが、6つの言語ペアすべてで翻訳の忠実性において、あらゆる汎用の最前線モデルを上回りました。

次に注目すべき結果:gemini-3.1-flash-lite-preview(ライトモデル)は、常に2〜3位に入り、フルウェイトのClaude Sonnetと、GPT-5.4の両バリアントの両方を上回って終えました。

全モデルがCOMETKiwiで0.75〜0.79点を獲得(流暢性)。一方でMetricX-24の忠実性ではモデル間で大きな差があり、TranslateGemmaは平均2.18で、gpt-5.4-nanoは3.06でした。

落とし穴

TranslateGemmaは、全言語で1位でした。ところが、私たちの言語学者が繁体中国語の出力を確認しました。

このモデルは、zh-CNとzh-TWの言語コードの両方に対して簡体中国語を出力していました。コミュニティの報告では、繁体中国語の正しい明示タグはzh-Hantだと示唆されていたため、検証し直しました。それでも直りませんでした。76%が簡体、14%が繁体、10%があいまい(短すぎる、または表記が中立で分類できないセグメント)でした。MetricX-24とCOMETKiwiは終始上位スコアを出し、この問題の兆候は見られませんでした。

https://preview.redd.it/0f18kzv1p4vg1.jpg?width=773&format=pjpg&auto=webp&s=3ce537b8ad1a1a33461a478fe634a9f616682d1c

実は、これは訓練データのバイアスが原因で、確認されており公開ドキュメントにも載っている問題です。TranslateGemmaの追加学習(fine-tuning)用コーパスは、簡体中国語に強く偏っています。ロケールタグはエラーなく受け入れられるものの、モデルの重み(学習済みパラメータ)には反映されません。これにはモデルサイズの違いは関係ありません(4B、12B、27B)。より大きいモデルサイズへアップグレードしても解消できません。原因が「容量」ではなく「訓練データ構成」だからです。文書化された回避策は、OpenCCによるs2twpの後処理です。

パイプラインを作っている人にとって最も関係が深い点:QE(Quality Estimation)スコアは、ずっと見た目には問題なく良好に出ます。失敗は、自動化された指標からは完全に見えません。

言語ごとの内訳、セグメント単位の例、方法論(タブはクリック可能)を含む完全なレポート:https://files.alconost.com/r_DbyQKw3ZXKWUVvxpN5t

提出者 /u/ritis88
[link] [comments]