IMTBench: 画像内機械翻訳のためのマルチシナリオ横断的協調評価ベンチマーク

arXiv cs.CV / 2026/3/12

📰 ニュースModels & Research

共有:

要点

IMTBench は、4つのシナリオと9つの言語にわたる2,500サンプルを対象としたエンドツーエンドの画像内機械翻訳の新しいベンチマークを導入します。
翻訳品質、背景の保持、全体的な画像品質、および翻訳されたテキストとレンダリングされた画像との整合性を測定するクロスモーダル整合スコアを評価します。
本研究は商用カスケードシステムとクローズドおよびオープンソースの統合マルチモーダルモデルの両方をベンチマークし、シナリオと言語を横断した大きな性能差を明らかにしています。特に自然風景と資源制約言語で顕著です。
著者はエンドツーエンドの画像テキスト翻訳の進歩を加速するためにベンチマークを標準化することを目指しています。

要旨：エンドツーエンドの画像内機械翻訳（IIMT）は、画像内に埋め込まれたテキストをターゲット言語に変換し、元の視覚的文脈、レイアウト、レンダリングスタイルを維持することを目的とします。しかし、既存のIIMTベンチマークは主に人工的であり、現実世界の複雑さを反映できていません。一方、現在の評価プロトコルは単一モダリティの指標に焦点を当て、レンダリングされたテキストとモデル出力とのクロスモーダルな忠実性を見落としています。これらの問題を解決するため、私たちはIn-image Machine Translation Benchmark（IMTBench）を提示します。これは、実用的な4つのシナリオと9つの言語を対象とする2,500件の画像翻訳サンプルの新しいベンチマークです。IMTBench は、翻訳品質、背景の保持、全体的な画像品質、およびモデルが生成した翻訳テキストと翻訳後の画像にレンダリングされたテキストとの一貫性を測定するクロスモーダル整合スコアなど、複数の側面での評価をサポートします。私たちは強力な商用カスケードシステムと、クローズドおよびオープンソースの統合マルチモーダルモデルの両方をベンチマークし、シナリオと言語を横断して大きな性能差を観察しています。特に自然風景と資源制約言語において顕著で、エンドツーエンドの画像テキスト翻訳にはなお大きな潜在余地があることを示しています。IMTBench がこの新興タスクの進歩を加速する標準化されたベンチマークとなることを期待しています。

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

Dev.to

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

Dev.to

信頼度推定・自己評価・自動ウェブリサーチを備えた不確実性を考慮したLLMシステムを構築するためのコーディング実装

MarkTechPost

DNA Memory: AIエージェントを人間の脳のように学習・忘却・進化させる

Dev.to

Tinybox - オフラインAIデバイス、1200億パラメータ

Hacker News

IMTBench: 画像内機械翻訳のためのマルチシナリオ横断的協調評価ベンチマーク

要点

関連記事

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

信頼度推定・自己評価・自動ウェブリサーチを備えた不確実性を考慮したLLMシステムを構築するためのコーディング実装

DNA Memory: AIエージェントを人間の脳のように学習・忘却・進化させる

Tinybox - オフラインAIデバイス、1200億パラメータ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer