要旨: 曖昧性解消は、マルチモーダル機械翻訳(MMT)における主要な課題であり、モデルは曖昧な表現を意図された意味に対応づけるために、視覚入力を本当に活用する必要があります。先行研究では、視覚の役割を裏づける証拠を提供する、曖昧性解消志向のベンチマークが提案されてきましたが、我々はデータ品質に重大な問題があること、また翻訳シナリオとの不一致があることを観察しています。さらに、既存の曖昧性志向の評価は、オープンエンドな翻訳におけるより広範な曖昧性タイプには適していません。これらの制約に対処するために、我々はVIDA(Visually-Dependent Ambiguity、視覚依存の曖昧性)を提示します。これは、注釈付きの曖昧なソース範囲を解消するのに視覚的証拠が必要となる、慎重にキュレーションされた2,500件のインスタンスからなるデータセットです。加えて、LLM-as-a-judge(LLMを裁定者として用いる)分類器を用いて、注釈付きの曖昧な表現が範囲レベルで正しく解消されているかどうかを検証する、Disambiguation-Centric Metrics(曖昧性解消中心の指標)を提案します。バニラ推論、教師ありファインチューニング(SFT)、および我々のチェーン・オブ・ソート付きSFT(CoT-SFT)の2つの最先端Large Vision Language Modelを用いた実験では、SFTが全体的な翻訳品質を向上させる一方で、CoT-SFTは特に分布外サブセットにおいて、曖昧性解消精度に関してより一貫した改善をもたらし、多様な曖昧性タイプを解消するためのより強い汎化が示されることが分かりました。
視覚に基づく曖昧性を扱うためのマルチモーダル・データセット(機械翻訳)
arXiv cs.CL / 2026/5/5
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文は、マルチモーダル機械翻訳(MMT)における曖昧性ベンチマークにはデータ品質の大きな問題があり、実際の翻訳シナリオとも整合していないと指摘しています。
- 視覚的な根拠がないと注釈された曖昧なソース句を正しく解決できない2,500件のキュレーション済みデータセットVIDA(Visually-Dependent Ambiguity)を提案しています。
- 曖昧表現の解決が正しいかを、LLM-as-a-judgeによる範囲レベル分類器で検証するDisambiguation-Centric Metricsを提案しています。
- 大規模ビジョン言語モデル2つを用いた実験では、バニラ推論・教師あり微調整(SFT)・chain-of-thought SFT(CoT-SFT)を比較し、CoT-SFTが特に分布外サブセットで曖昧性解決精度をより一貫して改善することを示しています。




