字幕翻訳でTranslateGemma-12bを5つの最前線LLMとベンチマークしたところ、総合的に全勝—ただし大きな落とし穴が1つ

字幕翻訳で5つの最前線LLMとTranslateGemma-12bをベンチマークしました――総じて勝利しましたが、重大な注意点が1つあります

Alconostで進めている翻訳品質の調査の一環として、6つのモデルに対して字幕翻訳を6つの言語ペアで行い、評価しました。最初は数字がきれいな結果を示していました。ですが、人手によるQA（品質保証）が次の章を追加しました。

モデル：

TranslateGemma-12b
gemini-3.1-flash-lite-preview
deepseek-v3.2
claude-sonnet-4-6
gpt-5.4-mini
gpt-5.4-nano

言語： ENからスペイン語、日本語、韓国語、タイ語、中国語（簡体）、中国語（繁体）

結果（平均TQI - こちらの複合指標、値が高いほど良い）

順位	モデル	平均TQI
#1	TranslateGemma-12b	0.6335
#2	gemini-3.1-flash-lite-preview	0.5981
#3	deepseek-v3.2	0.5946
#4	claude-sonnet-4-6	0.5811
#5	gpt-5.4-mini	0.5785
#6	gpt-5.4-nano	0.5562

TQI = COMETKiwi × exp(−MetricX/10) - 詳細はレポートに記載。

この傾向は、個々のあらゆる言語で維持されました。結論は各自でどうぞ。ただし、この一貫性は見過ごしにくいです。12Bの用途特化モデルが、6つの言語ペアすべてで翻訳の忠実性において、あらゆる汎用の最前線モデルを上回りました。

次に注目すべき結果：gemini-3.1-flash-lite-preview（ライトモデル）は、常に2〜3位に入り、フルウェイトのClaude Sonnetと、GPT-5.4の両バリアントの両方を上回って終えました。

全モデルがCOMETKiwiで0.75〜0.79点を獲得（流暢性）。一方でMetricX-24の忠実性ではモデル間で大きな差があり、TranslateGemmaは平均2.18で、gpt-5.4-nanoは3.06でした。

落とし穴

TranslateGemmaは、全言語で1位でした。ところが、私たちの言語学者が繁体中国語の出力を確認しました。

このモデルは、zh-CNとzh-TWの言語コードの両方に対して簡体中国語を出力していました。コミュニティの報告では、繁体中国語の正しい明示タグはzh-Hantだと示唆されていたため、検証し直しました。それでも直りませんでした。76%が簡体、14%が繁体、10%があいまい（短すぎる、または表記が中立で分類できないセグメント）でした。MetricX-24とCOMETKiwiは終始上位スコアを出し、この問題の兆候は見られませんでした。

https://preview.redd.it/0f18kzv1p4vg1.jpg?width=773&format=pjpg&auto=webp&s=3ce537b8ad1a1a33461a478fe634a9f616682d1c

実は、これは訓練データのバイアスが原因で、確認されており公開ドキュメントにも載っている問題です。TranslateGemmaの追加学習（fine-tuning）用コーパスは、簡体中国語に強く偏っています。ロケールタグはエラーなく受け入れられるものの、モデルの重み（学習済みパラメータ）には反映されません。これにはモデルサイズの違いは関係ありません（4B、12B、27B）。より大きいモデルサイズへアップグレードしても解消できません。原因が「容量」ではなく「訓練データ構成」だからです。文書化された回避策は、OpenCCによるs2twpの後処理です。

パイプラインを作っている人にとって最も関係が深い点：QE（Quality Estimation）スコアは、ずっと見た目には問題なく良好に出ます。失敗は、自動化された指標からは完全に見えません。

言語ごとの内訳、セグメント単位の例、方法論（タブはクリック可能）を含む完全なレポート：https://files.alconost.com/r_DbyQKw3ZXKWUVvxpN5t

提出者 /u/ritis88
[link] [comments]

字幕翻訳でTranslateGemma-12bを5つの最前線LLMとベンチマークしたところ、総合的に全勝—ただし大きな落とし穴が1つ

要点

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer