マンダリン中国語から英語への効果的な機械翻訳に関するLLMの自動評価

arXiv cs.AI / 2026/3/12

📰 ニュースModels & Research

共有:

要点

論文は、意味論的分析と感情分析を組み合わせた自動評価フレームワークを提案し、LLMsおよびGoogle翻訳によるマンダリン中国語から英語への翻訳を評価します。
現代文学から古典文学、ニュース記事を含む多様な中国語テキストに対して、GPT-4、GPT-4o、DeepSeek が生成した翻訳を比較し、新規の類似度指標と専門の人間検証を用いて評価します。
結果は、ニュース翻訳にはLLMsが高い性能を示す一方、文学テキストには乖離が見られ、GPT-4oとDeepSeek がより良い意味の保持を提供します。
改善にもかかわらず、文化的ニュアンス、古典的引用、比喩表現の保持は、すべてのモデルにとって依然として未解決の課題です。

本文: arXiv:2603.09998v1 公告タイプ: cross Abstract: 大規模言語モデル（LLMs）は機械翻訳において卓越した性能を示す一方で、翻訳品質の体系的な評価は限られている。課題は自動化フレームワークにあり、人間の専門家による評価は時間がかかるため、LLMsが急速に進化している現状と、多様なテキストセットを必要とする翻訳品質の公正な評価を確保するという要件の間で難しい。本論文では、意味論的分析と感情分析を特徴とする自動化された機械学習フレームワークを用いて、Google翻訳とLLMs（GPT-4、GPT-4o、DeepSeekを含む）を対象にマンダリン中国語から英語への翻訳を評価します。現代文学と古典文学を含む小説テキスト、およびニュース記事など、さまざまなクラスの高名な中国語テキストの原文と翻訳文を比較します。主な評価指標として新規の類似度指標を用いてLLMsが生成した翻訳の品質を比較し、さらに専門の人間翻訳者によって評価を行います。我々の結果は、ニュースメディア翻訳ではLLMsが良好な性能を示す一方で、文学テキストへの適用ではその性能に乖離が見られることを示唆します。複雑な状況における意味の保存では、GPT-4oとDeepSeekがより良いセマンティック保持を示したものの、DeepSeekは文化的微妙さと文法的表現の維持においてより高い性能を示しました。それでも、翻訳には微妙な課題が残っており、文化的な細部、古典的引用、比喩表現の保持は、すべてのモデルにとって未解決の問題です。

Mercorの競合Deccan AI、25Mドル調達、インドから専門家を確保

Dev.to

極端なデータ希薄シナリオにおける衛星異常対応業務のための自己教師あり時間的パターンマイニング

Dev.to

[D] 1ビットLLMアーキテクチャを用いた予測コーディング・アルゴリズムにおける確率的ニューロン活性化

Reddit r/MachineLearning

nvidia/gpt-oss-puzzle-88B · Hugging Face

Reddit r/LocalLLaMA

定型のコーディングタスクにおけるdeepseek-v3 vs Claude Sonnet — 私の実際の使用数値

Reddit r/LocalLLaMA

マンダリン中国語から英語への効果的な機械翻訳に関するLLMの自動評価

要点

関連記事

Mercorの競合Deccan AI、25Mドル調達、インドから専門家を確保

極端なデータ希薄シナリオにおける衛星異常対応業務のための自己教師あり時間的パターンマイニング

[D] 1ビットLLMアーキテクチャを用いた予測コーディング・アルゴリズムにおける確率的ニューロン活性化

nvidia/gpt-oss-puzzle-88B · Hugging Face

定型のコーディングタスクにおけるdeepseek-v3 vs Claude Sonnet — 私の実際の使用数値

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer