ibm-granite/granite-4.0-3b-vision · Hugging Face

Reddit r/LocalLLaMA / 2026/3/29

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

原文を読む →

共有:

要点

IBMのGranite-4.0-3B-Visionは、企業向けのドキュメント抽出のために設計された視覚言語モデルであり、ドキュメント画像からのチャート、表、セマンティックなキー・バリュー・ペア（KVP）の抽出を重視しています。
Hugging Faceでは、Granite 4.0 Microベースモデルの上に構築されたLoRAアダプタとして公開されています。これにより、アダプタを読み込むことでマルチモーダルなドキュメント理解を行い、アダプタを読み込まずにテキストのみのワークロードにも同じデプロイメントで対応できます。
このモデルは、チャート向けの構造化出力（例：Chart2CSV/Chart2Summary/Chart2Code）や、表の抽出をJSON、HTML、またはOTSLなどの形式に変換することをサポートします。
Granite-Vision-3.3 2Bの能力を維持しつつ拡張し、シームレスな導入を目指すとともに、画像からテキストへの変換などの一般的な視覚言語タスクにも対応しています。
このモデルは単体で利用でき、Doclingパイプラインと統合して、より深い視覚理解によってドキュメント処理を強化できます。

ibm-granite/granite-4.0-3b-vision · Hugging Face

モデル概要: Granite-4.0-3B-Vision は、企業向けの文書データ抽出のために設計された視覚言語モデル（VLM）です。超コンパクトなモデルではしばしば難しい、専門的で複雑な抽出タスクに焦点を当てています：

チャート抽出: チャートを構造化され機械可読な形式（Chart2CSV、Chart2Summary、Chart2Code）へ変換
表抽出: 文書画像から、複雑なレイアウトを伴う表を JSON、HTML、または OTSL へ正確に抽出
セマンティック・キー・バリュー・ペア（KVP）抽出: 多様な文書レイアウトにまたがって、キー名と説明に基づいて値を抽出

本モデルは Granite 4.0 Micro の上に LoRA アダプタとして提供されており、1つのデプロイで、マルチモーダルな文書理解とテキストのみのワークロードの両方をサポートできるようになっています。ベースモデルはアダプタを読み込まずにテキストのみのリクエストを処理します。詳細はモデルアーキテクチャを参照してください。

専門的な文書抽出タスクに重点を置いていますが、本モデルは現在の Granite-Vision-3.3 2B の機能を維持し、さらに拡張しています。これにより、既存の利用者がワークフローに変更を加えることなくシームレスに導入できるようになっています。画像から詳細な自然言語記述を生成する（画像-to-テキスト）などの、視覚言語タスクにも対応し続けます。本モデルは単体で利用でき、Docling とシームレスに統合することで、高度な視覚理解能力を活かした文書処理パイプラインを強化できます。

submitted by /u/jacek2023
[link] [comments]