ベトナム語のシーントテキスト画像キャプション生成のための言語的知見に基づくマルチモーダル融合：データセット、グラフ枠組み、音韻アテンション

arXiv cs.CL / 2026/5/1

💬 オピニオンDeveloper Stack & InfrastructureModels & Research

共有:

要点

本論文は、トーンやジアクリティクスが語の意味を変える一方でOCR誤りも多いことから、ベトナム語のシーントテキスト画像キャプション生成ではテキストを言語非依存として扱えないと主張している。
視覚特徴、OCR検出テキスト、言語知識を統合するためのグラフベースのマルチモーダル融合枠組みHSTFG（Heterogeneous Scene-Text Fusion Graph）を提案し、空間アテンションのバイアスを学習する。
トポロジー解析により、クロスモーダルのグラフ辺がシーントテキスト融合を損なう可能性が示され、その知見を踏まえてベトナム語向けに特化したPhonoSTFG（Phonological Scene-Text Fusion Graph）を設計している。
評価のために初の大規模ベトナム語データセットViTextCaps（15,729枚の画像と74,970件のキャプション）を導入し、語彙の52.8%がジアクリティクスの衝突リスクにあると報告している。

要旨: シーン文字（scene-text）画像キャプション生成では、3つの情報ストリーム――視覚的特徴、OCRにより検出されたテキスト、そして言語知識――を融合し、画像内に可視化されたテキストを忠実に統合した記述を生成することが必要です。既存の融合アプローチはテキストを言語非依存として扱いますが、これはベトナム語では失敗します。ベトナム語は調音（トーン）言語であり、ダイアクリティクス（発音区別符号）が単語の意味を変えるほか、OCRエラーが広範に発生し、語境界は曖昧です。私たちは、ベトナム語のシーン文字キャプション生成には extit{言語学的に情報付けされたマルチモーダル融合（linguistically informed multimodal fusion）} が必要であり、言語ごとの構造知識を融合メカニズムへ明示的に組み込む必要があると主張します。これらの洞察に動機づけられて、 extbf{HSTFG}（Heterogeneous Scene-Text Fusion Graph：異種シーン文字融合グラフ）を提案します。これは、学習された空間注意のバイアスを備えた汎用のグラフ融合フレームワークであり、トポロジー分析により、シーン文字融合においてクロスモーダルなグラフ辺（エッジ）が有害であることを示します。この発見を踏まえ、ベトナム語の言語学的推論のためにグラフレベルの融合に特化した extbf{PhonoSTFG}（Phonological Scene-Text Fusion Graph：音韻論的シーン文字融合グラフ）を設計します。評価を支援するために、 extbf{ViTextCaps} という最初の大規模なベトナム語のシーン文字キャプションデータセットを導入します（ extbf{15{,}729} 枚の画像と extbf{74{,}970} 個のキャプション）。さらに、包括的な言語分析により、語彙の 52.8 extbackslash extit{} がダイアクリティクス衝突（diacritic collision）のリスクにさらされていることを示します。

AIエージェントがソフトウェア開発を行う仮想の会社「CHATDEV」を設立！？

AI-SCHOLAR

データセンター、新技術が育つ場へ日本の部材産業にチャンス

日経XTECH

Claude CodeでGit履歴に「OpenClaw」の文字列があるだけで利用制限や追加課金が発生するとの報告

GIGAZINE

Karpathy が語る vibe coding から agentic engineering への転換点

Zenn

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

Dev.to

ベトナム語のシーントテキスト画像キャプション生成のための言語的知見に基づくマルチモーダル融合：データセット、グラフ枠組み、音韻アテンション

要点

関連記事

AIエージェントがソフトウェア開発を行う仮想の会社「CHATDEV」を設立！？

データセンター、新技術が育つ場へ日本の部材産業にチャンス

Claude CodeでGit履歴に「OpenClaw」の文字列があるだけで利用制限や追加課金が発生するとの報告

Karpathy が語る vibe coding から agentic engineering への転換点

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

AIエージェントがソフトウェア開発を行う仮想の会社「CHATDEV」を設立！？

データセンター、新技術が育つ場へ 日本の部材産業にチャンス

Claude CodeでGit履歴に「OpenClaw」の文字列があるだけで利用制限や追加課金が発生するとの報告

Karpathy が語る vibe coding から agentic engineering への転換点

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

データセンター、新技術が育つ場へ日本の部材産業にチャンス