MMTIT-Bench:認知・知覚・推論に導かれるテキスト画像機械翻訳のための多言語・多シナリオ・ベンチマーク
arXiv cs.CV / 2026/3/26
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、1,400枚の画像に対して、14の非英語・非中国語言語で行うエンドツーエンドのテキスト画像機械翻訳のための、人手検証済みマルチリンガル/マルチシナリオ・ベンチマークであるMMTIT-Benchを提案する。
- 視覚と言語モデルのロバスト性を評価するうえでのギャップ、特に多様な視覚シーン(例:文書、シーン、Web画像)や低資源言語に対する評価を対象としている。
- 著者らは、言語のみ、またはカスケード型のワークフローに依存するのではなく、シーンの認知・テキストの知覚・翻訳推論を統一的に扱う、推論指向のデータパラダイムとしてCPR-Trans(Translation for Cognition-Perception-Reasoning)を提案する。
- VLLM駆動のデータ生成パイプラインを用いて、知覚のシグナルと翻訳推論とを整合させる、構造化され解釈可能な教師データを作成する。
- 3Bおよび7BのVLLMモデルに関する実験では、翻訳精度と解釈可能性の両方で一貫した改善が報告されており、著者らは受理後にベンチマークを公開する予定である。