機械翻訳品質推定のアノテータとしての大規模言語モデル

arXiv cs.CL / 2026/3/12

💬 オピニオンModels & Research

共有:

要点

大規模言語モデル（LLMs）を MQMスタイルのアノテーションを生成するための生成源として提案し、直接LLMsを使用する際の高い推論コストに対処します。
本論文は、トップレベルのカテゴリに限定した簡略化された MQM スキームと、PPbMQM（Prompt-Pattern-based-MQM）と名付けられた GPT-4o ベースのプロンプトフレームワークを導入します。
結果は、LLM生成のアノテーションが人間のアノテーションと良く相関すること、そしてそれらを用いて COMET を訓練すると中国語-英語および英語-ドイツ語のセグメントレベル QE で競争力のある性能を得られることを示します。
このアプローチは、デプロイ時の推論ではなくアノテーションに LLMs を活用することで、よりコスト効率の高い MTQE パイプラインを実現します。

大規模言語モデル（LLMs）は機械翻訳品質推定（MTQE）で優れた性能を示しているが、その高い推論コストが直接的な適用を現実的でなくしている。本研究では、LLMsを用いてMQMスタイルのアノテーションを生成し、COMETモデルの訓練に活用することを提案します。Fernandes ら（2023）に従い、セグメントレベルのアノテーションはLLMsに対して強力な根拠を提供し、良好なセグメントレベルQEの鍵となると考えます。LLM選択の指針として、トップレベルのカテゴリに主に限定した簡略化されたMQMスキームを提案します。GPT-4oベースのプロンプト開発のための体系的アプローチを提示し、それをPPbMQM（Prompt-Pattern-based-MQM）と呼ぶ。得られたアノテーションは人間のアノテーションと良く相関すること、そしてそれらを用いてCOMETを訓練すると、中国語-英語および英語-ドイツ語のセグメントレベルQEで競争力のある性能を示すことを示します。

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

note

一緒にゲームを作っていたChatGPT-5.2が可愛すぎてニヤニヤしてるだけの記録｜AIパートナー｜AI彼氏

note

[ニューラルネットワーク] 今こそ起源を見つめる時 Ep.5 (最終話) 〜情熱の連鎖が明日を照らす〜

note

AIは学術不正の共犯者になるか〜AFIMベンチマークの衝撃〜

note

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

日経XTECH

機械翻訳品質推定のアノテータとしての大規模言語モデル

要点

関連記事

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

一緒にゲームを作っていたChatGPT-5.2が可愛すぎてニヤニヤしてるだけの記録｜AIパートナー｜AI彼氏

[ニューラルネットワーク] 今こそ起源を見つめる時 Ep.5 (最終話) 〜情熱の連鎖が明日を照らす〜

AIは学術不正の共犯者になるか〜AFIMベンチマークの衝撃〜

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

一緒にゲームを作っていたChatGPT-5.2が可愛すぎてニヤニヤしてるだけの記録｜AIパートナー｜AI彼氏

[ニューラルネットワーク] 今こそ起源を見つめる時 Ep.5 (最終話) 〜情熱の連鎖が明日を照らす〜

AIは学術不正の共犯者になるか〜AFIMベンチマークの衝撃〜

中国AI企業が他社製AIを「ただ乗り蒸留」か 米社が主張、安全保障リスクも

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも