Granite 4.0 3B Vision: 企業ドキュメント向けコンパクトなマルチモーダル・インテリジェンス
- 表の抽出:文書画像から、複数行・複数列などの複雑な表構造を正確に解析
- グラフの理解:グラフや図を、構造化された機械可読形式、要約、または実行可能なコードへ変換
- 意味論的キー・バリュー・ペア(KVP)の抽出:多様な文書レイアウトにまたがって意味的に有意なキー・バリューのフィールドペアを特定し、根拠づける
このモデルは、密な言語モデルである Granite 4.0 Micro の上にLoRAアダプタとして提供されます。これにより、テキストのみのフォールバックや、混在するパイプラインへのシームレスな統合のために、視覚と言語をモジュール化したまま維持できます。さらに、画像から詳細な自然言語による説明を生成する(例:「この画像を詳細に説明してください」)などのビジョン言語タスクにも対応し続けます。このモデルは単体で使用することも、深いビジュアル理解機能によって文書処理パイプラインを強化するために Docling と併用することもできます。
Granite 4.0 3B Vision はどのように作られたのか
Granite 4.0 3B Vision の性能は、3つの重要な投資の結果です。コード主導のデータ拡張アプローチにより構築された、専用のグラフ理解データセット、そして高精細なビジュアル特徴の注入を可能にする新しい DeepStackアーキテクチャ の派生版、さらに、モデルを企業での導入に現実的に保つモジュール設計です。
返却形式: {"translated": "翻訳されたHTML"}ChartNet: 図を本当に理解するための学習モデル
グラフは視覚と言語のモデル(VLM)にとって難題です。理解には、視覚パターン、数値データ、自然言語を同時に推論する必要がありますが、これは多くのVLMがうまく扱えない組み合わせであり、特に空間的な精度が重要な場合—たとえば折れ線グラフから正確な値を読み取るとき—にはなおさらです。このギャップを埋めるために、ChartNetを開発しました。Chartの解釈と推論のために専用設計された、100万規模のマルチモーダルデータセットです。詳細は、今後公開予定のCVPR 2026論文で説明します。
ChartNetは、コードに導かれた合成(synthesis)パイプラインを用いて、24種類のグラフ形式と6種類のプロットライブラリにまたがる多様な1,700,000件のグラフサンプルを生成します[図1を参照]。この取り組みの際立った点は、各サンプルが5つの対応した要素から構成されていることです—プロットコード、レンダリング画像、データテーブル、自然言語による要約、QAペア。これにより、モデルは「グラフがどう見えるか」だけでなく、「グラフが何を意味するか」を深くクロスモーダルな視点で捉えられます。さらにデータセットには、人手で注釈した部分と実世界由来の部分も含まれており、視覚的な忠実さ、意味の正確さ、多様性の観点でフィルタしています。
その結果、VLMを単にグラフを説明するだけでなく、そこにエンコードされた構造化情報を本当に理解する方向へと導く学習リソースが得られました。モデルのサイズ、アーキテクチャ、タスクのいずれにおいても一貫した改善が見られます。
DeepStack: より賢い視覚特徴量の注入
ほとんどのVLMは、言語モデルへの視覚情報の注入を1つのポイントで行います。そのため、モデルは高レベルの意味論と、細かな空間的詳細の両方を同時に扱う必要があります。Granite 4.0 3B Visionは、DeepStack Injectionという別アプローチを採用しています。抽象的な視覚特徴は意味理解のためにより早い層へルーティングし、一方で高解像度の空間的特徴は後の層へ与えて詳細を保持します。その結果、ドキュメント内に何があるかと、どこにあるかの両方を理解できるモデルが得られました。これは、レイアウトが内容と同じくらい重要になる表抽出、グラフ理解、KVP(キー・バリュー・ペア)パースのようなタスクにとって決定的です。完全な技術的な内訳は、モデルカードのModel Architectureセクションをご覧ください。
モジュール性: 1つのモデルで2つのモード
Granite 4.0 3B Visionは、単体モデルとしてではなく、Granite 4.0 Microの上にLoRAアダプタとしてパッケージされています。実際には、これにより同じデプロイでマルチモーダルとテキストのみのワークロードの両方に対応でき、視覚が不要な場合は自動的にベースモデルへフォールバックします。これにより、性能を犠牲にせずに、エンタープライズでの統合をシンプルに保てます。
How It Performs
Charts:LLM-as-a-judge(LLMを判定者として用いる)により、人手で検証されたChartNetベンチマークで評価したところ、Granite 4.0 3B Visionは、評価対象の全モデルの中で最も高いChart2Summary(86.4%)スコアを達成し、さらにかなり大きなモデルを含めても優位でした[図2参照]。またChart2CSV(62.1%)では、Qwen3.5-9B(63.4%)に次ぐ2位で、そのQwen3.5-9Bは本モデルより2倍以上大きいモデルです。
図2:LLM-as-a-judgeを用いて、同業のビジョン-言語モデルと比較したchart2csvおよびchart2summaryにおけるGranite 4.0 3B Visionの性能。
Tables:テーブル抽出を2つの設定で評価します。すなわち、切り出し済みテーブル(分離された領域)と、ページ全体のドキュメント(複雑なレイアウトに埋め込まれたテーブル)です[図3参照]。ベンチマークスイートには、TableVQA-extract(切り出し画像のテーブル)、OmniDocBench-tables(ページ全体のドキュメント)、およびPubTables-v2(両方の設定:切り出しとページ全体)を含みます。モデルはテーブルをHTML形式で抽出することが求められ、TEDSによりスコア付けされます。TEDSは、構造とコンテンツの両方の正確さを捉える指標です。Granite 4.0 3B Visionは、ベンチマーク全体で最も強い性能を示し、PubTablesV2では切り出し(92.1)とページ全体(79.3)いずれでもトップ、OmniDocBench(64.0)、TableVQA(88.1)でも評価対象の全モデルの中でリードしています。
図3:TEDSで測定した、切り出しおよびページ全体のベンチマーク(TableVQA-extract、PubTables-v2、OmniDocBench-tables)にわたるGranite 4.0 3B Visionのテーブル抽出性能。
Semantic KVP:VAREXは、小規模な抽出モデルを識別するために特化して設計されたベンチマークで、単純なフラットなレイアウトから、複雑な入れ子構造や表形式の構造までを含む、1,777件の米国政府フォームで構成されています。モデルは、厳格な指標である完全一致(EM)で評価されます。これは、モデルが抽出したキー・バリューペアが正解(ground truth)と一致している必要がある指標です。Granite 4.0 3B Visionは、ゼロショットで85.5%のEM精度を達成します。
How to Use It
Granite 4.0 3B Visionは、単体のビジュアル情報抽出エンジンとして動作させることも、Doclingと組み合わせて完全に自動化されたドキュメント処理パイプラインの一部として動作させることもできます。このモデルは、多様なドキュメントタイプやビジュアル形式にわたって、スケーラブルで正確な抽出をサポートするよう設計されています。
1. 単体の画像理解 Granite 4.0 3B Visionは個々の画像に直接実行できるため、上流システムを変更せずに、狙いを定めたビジュアル抽出を必要とするアプリケーションに適した選択肢になります。既存の自動化ワークフローへの容易な統合を提供し、軽量でタスク固有のツール(例:フォームパーサ、チャートアナライザなど)にも適しています。
2. Docling を用いた統合ドキュメント理解パイプライン Granite 4.0 3B Visionは、Doclingとシームレスに統合して、ドキュメント理解のエンドツーエンドを支援することも可能です。このモードでは、次のような利点が得られます。
- 複数ページのPDFを大規模に処理
- Doclingによる図・表・その他の視覚要素の自動検出、セグメンテーション、切り出しを行い、クリーンな切り出しをGranite Visionモデルへリダイレクトして、きめ細かな抽出を実現
- 全体の計算コストを抑えつつ効率的なワークフローを実現し、スループットも向上
- 精度の向上、より信頼性の高い抽出、大規模なドキュメントコレクションにおける効率の大幅な改善
利用例
- フォーム処理:KVP機能を使って請求書、フォーム、レシートから構造化フィールドを抽出するか、image2text機能を使って図の自然言語による説明を生成します(例:「この画像を詳細に説明してください」)。
- 財務レポート分析:Doclingでレポートを解析し、図を検出し、視覚要素を切り出します。チャートはGranite Visionのchart2csv、chart2codeで処理し、表はtables_jsonの機能で処理して、それらを構造化された機械可読データに変換します。これにより、実行可能なインサイトにつなげられます。
- 研究ドキュメント知能:Doclingを使って、密度の高い学術PDFに対するOCRとレイアウト解析を扱い、抽出した図をchart2summaryへ渡し、表の切り出しをtables_htmlへ渡すことで、単一のパイプライン内で自由形式のテキストと並べて視覚コンテンツを見つけやすくします。 返却形式: {"translated": "翻訳されたHTML"}
今日試す
Granite 4.0 3B Visionは現在HuggingFaceで入手可能で、Apache 2.0ライセンスのもとで公開されています。完全な技術詳細、学習手法、およびベンチマーク結果はモデルカードで確認できます。ぜひ、これを使って何を作ったか教えてください。コミュニティタブでフィードバックを共有してください。





