MMTIT-Bench：認知・知覚・推論に導かれるテキスト画像機械翻訳のための多言語・多シナリオ・ベンチマーク

arXiv cs.CV / 2026/3/26

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、1,400枚の画像に対して、14の非英語・非中国語言語で行うエンドツーエンドのテキスト画像機械翻訳のための、人手検証済みマルチリンガル／マルチシナリオ・ベンチマークであるMMTIT-Benchを提案する。
視覚と言語モデルのロバスト性を評価するうえでのギャップ、特に多様な視覚シーン（例：文書、シーン、Web画像）や低資源言語に対する評価を対象としている。
著者らは、言語のみ、またはカスケード型のワークフローに依存するのではなく、シーンの認知・テキストの知覚・翻訳推論を統一的に扱う、推論指向のデータパラダイムとしてCPR-Trans（Translation for Cognition-Perception-Reasoning）を提案する。
VLLM駆動のデータ生成パイプラインを用いて、知覚のシグナルと翻訳推論とを整合させる、構造化され解釈可能な教師データを作成する。
3Bおよび7BのVLLMモデルに関する実験では、翻訳精度と解釈可能性の両方で一貫した改善が報告されており、著者らは受理後にベンチマークを公開する予定である。

Abstract

エンドツーエンドのテキスト・画像機械翻訳（TIMT）とは、画像内のテキスト内容を言語をまたいで直接翻訳するものであり、現実の多言語シーン理解にとって重要です。ビジョン・言語の大規模モデル（VLLM）の進歩にもかかわらず、多様な視覚シーンに対する頑健性や低資源言語への対応は、評価リソースが限られているため、十分に検討されていません。私たちは、1,400枚の画像からなる、人手によって検証された多言語かつ複数シナリオのベンチマーク「MMTIT-Bench」を提案します。これは、14の非英語・非中国語の言語にまたがり、ドキュメント、シーン、Web画像など多様な状況を含み、エンドツーエンドTIMTを厳密に評価できるようにします。ベンチマークに加えて、推論指向のデータ設計が翻訳にどのように寄与するかを検討します。近年のVLLMは長いChain-of-Thought（CoT）推論を取り入れ始めていますが、TIMTにおける効果的な思考パラダイムはいまだ未成熟です。既存の設計は、いずれも解析と翻訳を逐次的にカスケードするか、言語のみの推論に焦点を当てるため、VLLMの中核である視覚的認知を見落としてしまいます。そこで私たちは、翻訳のための「認知・知覚・推論（Cognition-Perception-Reasoning for Translation：CPR-Trans）」を提案します。これは、シーンの認知、テキストの知覚、翻訳推論を、統一された推論プロセスの中に統合するデータパラダイムです。VLLM主導のデータ生成パイプラインを用いることで、CPR-Transは、知覚と推論を整合させる、構造化された解釈可能な監督情報を提供します。3Bおよび7Bモデルでの実験では、精度と解釈可能性の両面で一貫した改善が示されました。採択後、MMTIT-Benchを公開し、多言語かつ複数シナリオのTIMT研究を促進します。

CopilotのExcelエージェントを使う、売上集計や分析用ブックを自動生成

日経XTECH

VoxtralResearchVoxtral TTSについて：高速で、即座に適応可能で、音声エージェント向けに臨場感のある発話を生成する最前線のオープンウェイト音声合成モデル

Mistral AI Blog

クラウドAIから専用AIボックスに切り替えた理由（そしてあなたもそうすべき理由）

Dev.to

2026年にMiMo V2 APIを無料で使う方法：完全ガイド

Dev.to

誰も解けないエージェントのメモリ問題：永続的なコンテキストのための実践的アーキテクチャ

Dev.to

MMTIT-Bench：認知・知覚・推論に導かれるテキスト画像機械翻訳のための多言語・多シナリオ・ベンチマーク

要点

Abstract

関連記事

CopilotのExcelエージェントを使う、売上集計や分析用ブックを自動生成

VoxtralResearchVoxtral TTSについて：高速で、即座に適応可能で、音声エージェント向けに臨場感のある発話を生成する最前線のオープンウェイト音声合成モデル

クラウドAIから専用AIボックスに切り替えた理由（そしてあなたもそうすべき理由）

2026年にMiMo V2 APIを無料で使う方法：完全ガイド

誰も解けないエージェントのメモリ問題：永続的なコンテキストのための実践的アーキテクチャ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer