要旨:エンドツーエンドの画像内機械翻訳(IIMT)は、画像内に埋め込まれたテキストをターゲット言語に変換し、元の視覚的文脈、レイアウト、レンダリングスタイルを維持することを目的とします。しかし、既存のIIMTベンチマークは主に人工的であり、現実世界の複雑さを反映できていません。一方、現在の評価プロトコルは単一モダリティの指標に焦点を当て、レンダリングされたテキストとモデル出力とのクロスモーダルな忠実性を見落としています。これらの問題を解決するため、私たちはIn-image Machine Translation Benchmark(IMTBench)を提示します。これは、実用的な4つのシナリオと9つの言語を対象とする2,500件の画像翻訳サンプルの新しいベンチマークです。IMTBench は、翻訳品質、背景の保持、全体的な画像品質、およびモデルが生成した翻訳テキストと翻訳後の画像にレンダリングされたテキストとの一貫性を測定するクロスモーダル整合スコアなど、複数の側面での評価をサポートします。私たちは強力な商用カスケードシステムと、クローズドおよびオープンソースの統合マルチモーダルモデルの両方をベンチマークし、シナリオと言語を横断して大きな性能差を観察しています。特に自然風景と資源制約言語において顕著で、エンドツーエンドの画像テキスト翻訳にはなお大きな潜在余地があることを示しています。IMTBench がこの新興タスクの進歩を加速する標準化されたベンチマークとなることを期待しています。
IMTBench: 画像内機械翻訳のためのマルチシナリオ横断的協調評価ベンチマーク
arXiv cs.CV / 2026/3/12
📰 ニュースModels & Research
要点
- IMTBench は、4つのシナリオと9つの言語にわたる2,500サンプルを対象としたエンドツーエンドの画像内機械翻訳の新しいベンチマークを導入します。
- 翻訳品質、背景の保持、全体的な画像品質、および翻訳されたテキストとレンダリングされた画像との整合性を測定するクロスモーダル整合スコアを評価します。
- 本研究は商用カスケードシステムとクローズドおよびオープンソースの統合マルチモーダルモデルの両方をベンチマークし、シナリオと言語を横断した大きな性能差を明らかにしています。特に自然風景と資源制約言語で顕著です。
- 著者はエンドツーエンドの画像テキスト翻訳の進歩を加速するためにベンチマークを標準化することを目指しています。