要旨: シーン文字(scene-text)画像キャプション生成では、3つの情報ストリーム――視覚的特徴、OCRにより検出されたテキスト、そして言語知識――を融合し、画像内に可視化されたテキストを忠実に統合した記述を生成することが必要です。既存の融合アプローチはテキストを言語非依存として扱いますが、これはベトナム語では失敗します。ベトナム語は調音(トーン)言語であり、ダイアクリティクス(発音区別符号)が単語の意味を変えるほか、OCRエラーが広範に発生し、語境界は曖昧です。私たちは、ベトナム語のシーン文字キャプション生成には extit{言語学的に情報付けされたマルチモーダル融合(linguistically informed multimodal fusion)} が必要であり、言語ごとの構造知識を融合メカニズムへ明示的に組み込む必要があると主張します。これらの洞察に動機づけられて、 extbf{HSTFG}(Heterogeneous Scene-Text Fusion Graph:異種シーン文字融合グラフ)を提案します。これは、学習された空間注意のバイアスを備えた汎用のグラフ融合フレームワークであり、トポロジー分析により、シーン文字融合においてクロスモーダルなグラフ辺(エッジ)が有害であることを示します。この発見を踏まえ、ベトナム語の言語学的推論のためにグラフレベルの融合に特化した extbf{PhonoSTFG}(Phonological Scene-Text Fusion Graph:音韻論的シーン文字融合グラフ)を設計します。評価を支援するために、 extbf{ViTextCaps} という最初の大規模なベトナム語のシーン文字キャプションデータセットを導入します( extbf{15{,}729} 枚の画像と extbf{74{,}970} 個のキャプション)。さらに、包括的な言語分析により、語彙の 52.8 extbackslash extit{} がダイアクリティクス衝突(diacritic collision)のリスクにさらされていることを示します。
ベトナム語のシーントテキスト画像キャプション生成のための言語的知見に基づくマルチモーダル融合:データセット、グラフ枠組み、音韻アテンション
arXiv cs.CL / 2026/5/1
💬 オピニオンDeveloper Stack & InfrastructureModels & Research
要点
- 本論文は、トーンやジアクリティクスが語の意味を変える一方でOCR誤りも多いことから、ベトナム語のシーントテキスト画像キャプション生成ではテキストを言語非依存として扱えないと主張している。
- 視覚特徴、OCR検出テキスト、言語知識を統合するためのグラフベースのマルチモーダル融合枠組みHSTFG(Heterogeneous Scene-Text Fusion Graph)を提案し、空間アテンションのバイアスを学習する。
- トポロジー解析により、クロスモーダルのグラフ辺がシーントテキスト融合を損なう可能性が示され、その知見を踏まえてベトナム語向けに特化したPhonoSTFG(Phonological Scene-Text Fusion Graph)を設計している。
- 評価のために初の大規模ベトナム語データセットViTextCaps(15,729枚の画像と74,970件のキャプション)を導入し、語彙の52.8%がジアクリティクスの衝突リスクにあると報告している。

