| Alconostで進めている翻訳品質の調査の一環として、6つのモデルに対して字幕翻訳を6つの言語ペアで行い、評価しました。最初は数字がきれいな結果を示していました。ですが、人手によるQA(品質保証)が次の章を追加しました。 モデル:
言語: ENからスペイン語、日本語、韓国語、タイ語、中国語(簡体)、中国語(繁体) 結果(平均TQI - こちらの複合指標、値が高いほど良い)
TQI = COMETKiwi × exp(−MetricX/10) - 詳細はレポートに記載。 この傾向は、個々のあらゆる言語で維持されました。結論は各自でどうぞ。ただし、この一貫性は見過ごしにくいです。12Bの用途特化モデルが、6つの言語ペアすべてで翻訳の忠実性において、あらゆる汎用の最前線モデルを上回りました。 次に注目すべき結果:gemini-3.1-flash-lite-preview(ライトモデル)は、常に2〜3位に入り、フルウェイトのClaude Sonnetと、GPT-5.4の両バリアントの両方を上回って終えました。 全モデルがCOMETKiwiで0.75〜0.79点を獲得(流暢性)。一方でMetricX-24の忠実性ではモデル間で大きな差があり、TranslateGemmaは平均2.18で、gpt-5.4-nanoは3.06でした。 落とし穴 TranslateGemmaは、全言語で1位でした。ところが、私たちの言語学者が繁体中国語の出力を確認しました。 このモデルは、zh-CNとzh-TWの言語コードの両方に対して簡体中国語を出力していました。コミュニティの報告では、繁体中国語の正しい明示タグはzh-Hantだと示唆されていたため、検証し直しました。それでも直りませんでした。76%が簡体、14%が繁体、10%があいまい(短すぎる、または表記が中立で分類できないセグメント)でした。MetricX-24とCOMETKiwiは終始上位スコアを出し、この問題の兆候は見られませんでした。 実は、これは訓練データのバイアスが原因で、確認されており公開ドキュメントにも載っている問題です。TranslateGemmaの追加学習(fine-tuning)用コーパスは、簡体中国語に強く偏っています。ロケールタグはエラーなく受け入れられるものの、モデルの重み(学習済みパラメータ)には反映されません。これにはモデルサイズの違いは関係ありません(4B、12B、27B)。より大きいモデルサイズへアップグレードしても解消できません。原因が「容量」ではなく「訓練データ構成」だからです。文書化された回避策は、OpenCCによるs2twpの後処理です。 パイプラインを作っている人にとって最も関係が深い点:QE(Quality Estimation)スコアは、ずっと見た目には問題なく良好に出ます。失敗は、自動化された指標からは完全に見えません。 言語ごとの内訳、セグメント単位の例、方法論(タブはクリック可能)を含む完全なレポート:https://files.alconost.com/r_DbyQKw3ZXKWUVvxpN5t [link] [comments] |
字幕翻訳でTranslateGemma-12bを5つの最前線LLMとベンチマークしたところ、総合的に全勝—ただし大きな落とし穴が1つ
Reddit r/LocalLLaMA / 2026/4/14
📰 ニュース
要点
- Alconostが、6つの字幕翻訳LLMを6つのEN→各言語の組み合わせでベンチマークし、結合TQIメトリクスを用いた結果、TranslateGemma-12bが総合1位となり、すべての言語で一貫して勝利を収めたことを確認した。