分離型スキップリンクとR-プローブ: MLLM OCRにおける特徴集約と勾配伝播のデカップリング

arXiv cs.CV / 2026/3/23

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、多層特徴融合におけるスキップ経路が、高レベルの目的から初期の視覚層へ直接的な逆伝播経路を生み出し、低レベル信号を上書きして、OCRタスク向けのマルチモーダルLLMの訓練を不安定化させることを指摘する。
  • 分離型スキップリンク(Detached Skip-Links)は、浅い特徴を前方伝搬で再利用しつつ、共同訓練中にスキップ分岐を介する勾配を停止する、学習可能なパラメータを追加せずに勾配干渉を低減する最小限の改変である。
  • R-Probe(R-プローブ)は、LLM層の最初の1/4から初期化された浅いデコーダを用いて、投影された視覚トークンのピクセルレベルの再構成可能性を測定し、細かな情報が保持されているかを評価する診断ツールである。
  • 複数の ViT バックボーンとベンチマークにおいて、最大700万の学習サンプルに及ぶ設定でも、本アプローチはOCR中心タスクを一貫して改善し、一般的なマルチモーダルタスクにも成果をもたらす。

要約:マルチモーダル大規模言語モデル(MLLMs)は高レベルの推論に優れる一方で、微細な視覚的特徴が損なわれるまたは整合が取れていないOCRタスクでは失敗します。私たちは多層特徴融合における見落とされがちな最適化問題を特定します。スキップ経路は高レベルの意味的目的から初期の視覚層へ直接の逆伝播パスを導入します。この機構は低レベルの信号を上書きし、訓練を不安定にします。勾配干渉を緩和するために、Detached Skip-Links(デタッチド・スキップリンク)を提案します。前方伝搬で浅い特徴を再利用する最小限の変更であり、共同訓練中はスキップ分岐を介した勾配を停止します。この非対称な設計は勾配干渉を低減し、学習可能なパラメータを追加せずに安定性と収束性を向上させます。細粒度の情報が保持され、LLMで利用可能かどうかを診断するために、R-Probeを導入します。これは、LLM層の最初の四分の一から初期化された浅いデコーダを用いて、投影された視覚トークンの画素レベルの再構築可能性を測定します。複数のViTバックボーンとマルチモーダルベンチマークを横断し、訓練サンプルが最大700万件に及ぶスケールでも、私たちのアプローチはOCR中心のベンチマークを一貫して改善し、一般的なマルチモーダルタスクで明確な利点をもたらします。)