MMTIT-Bench:認知・知覚・推論に導かれるテキスト画像機械翻訳のための多言語・多シナリオ・ベンチマーク

arXiv cs.CV / 2026/3/26

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、1,400枚の画像に対して、14の非英語・非中国語言語で行うエンドツーエンドのテキスト画像機械翻訳のための、人手検証済みマルチリンガル/マルチシナリオ・ベンチマークであるMMTIT-Benchを提案する。
  • 視覚と言語モデルのロバスト性を評価するうえでのギャップ、特に多様な視覚シーン(例:文書、シーン、Web画像)や低資源言語に対する評価を対象としている。
  • 著者らは、言語のみ、またはカスケード型のワークフローに依存するのではなく、シーンの認知・テキストの知覚・翻訳推論を統一的に扱う、推論指向のデータパラダイムとしてCPR-Trans(Translation for Cognition-Perception-Reasoning)を提案する。
  • VLLM駆動のデータ生成パイプラインを用いて、知覚のシグナルと翻訳推論とを整合させる、構造化され解釈可能な教師データを作成する。
  • 3Bおよび7BのVLLMモデルに関する実験では、翻訳精度と解釈可能性の両方で一貫した改善が報告されており、著者らは受理後にベンチマークを公開する予定である。

Abstract

エンドツーエンドのテキスト・画像機械翻訳(TIMT)とは、画像内のテキスト内容を言語をまたいで直接翻訳するものであり、現実の多言語シーン理解にとって重要です。ビジョン・言語の大規模モデル(VLLM)の進歩にもかかわらず、多様な視覚シーンに対する頑健性や低資源言語への対応は、評価リソースが限られているため、十分に検討されていません。私たちは、1,400枚の画像からなる、人手によって検証された多言語かつ複数シナリオのベンチマーク「MMTIT-Bench」を提案します。これは、14の非英語・非中国語の言語にまたがり、ドキュメント、シーン、Web画像など多様な状況を含み、エンドツーエンドTIMTを厳密に評価できるようにします。ベンチマークに加えて、推論指向のデータ設計が翻訳にどのように寄与するかを検討します。近年のVLLMは長いChain-of-Thought(CoT)推論を取り入れ始めていますが、TIMTにおける効果的な思考パラダイムはいまだ未成熟です。既存の設計は、いずれも解析と翻訳を逐次的にカスケードするか、言語のみの推論に焦点を当てるため、VLLMの中核である視覚的認知を見落としてしまいます。そこで私たちは、翻訳のための「認知・知覚・推論(Cognition-Perception-Reasoning for Translation:CPR-Trans)」を提案します。これは、シーンの認知、テキストの知覚、翻訳推論を、統一された推論プロセスの中に統合するデータパラダイムです。VLLM主導のデータ生成パイプラインを用いることで、CPR-Transは、知覚と推論を整合させる、構造化された解釈可能な監督情報を提供します。3Bおよび7Bモデルでの実験では、精度と解釈可能性の両面で一貫した改善が示されました。採択後、MMTIT-Benchを公開し、多言語かつ複数シナリオのTIMT研究を促進します。