| モデル概要: Granite-4.0-3B-Vision は、企業向けの文書データ抽出のために設計された視覚言語モデル(VLM)です。超コンパクトなモデルではしばしば難しい、専門的で複雑な抽出タスクに焦点を当てています:
本モデルは Granite 4.0 Micro の上に LoRA アダプタとして提供されており、1つのデプロイで、マルチモーダルな文書理解とテキストのみのワークロードの両方をサポートできるようになっています。ベースモデルはアダプタを読み込まずにテキストのみのリクエストを処理します。詳細は モデルアーキテクチャ を参照してください。 専門的な文書抽出タスクに重点を置いていますが、本モデルは現在の Granite-Vision-3.3 2B の機能を維持し、さらに拡張しています。これにより、既存の利用者がワークフローに変更を加えることなくシームレスに導入できるようになっています。画像から詳細な自然言語記述を生成する(画像-to-テキスト)などの、視覚言語タスクにも対応し続けます。本モデルは単体で利用でき、Docling とシームレスに統合することで、高度な視覚理解能力を活かした文書処理パイプラインを強化できます。 [link] [comments] |
ibm-granite/granite-4.0-3b-vision · Hugging Face
Reddit r/LocalLLaMA / 2026/3/29
📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research
要点
- IBMのGranite-4.0-3B-Visionは、企業向けのドキュメント抽出のために設計された視覚言語モデルであり、ドキュメント画像からのチャート、表、セマンティックなキー・バリュー・ペア(KVP)の抽出を重視しています。
- Hugging Faceでは、Granite 4.0 Microベースモデルの上に構築されたLoRAアダプタとして公開されています。これにより、アダプタを読み込むことでマルチモーダルなドキュメント理解を行い、アダプタを読み込まずにテキストのみのワークロードにも同じデプロイメントで対応できます。
- このモデルは、チャート向けの構造化出力(例:Chart2CSV/Chart2Summary/Chart2Code)や、表の抽出をJSON、HTML、またはOTSLなどの形式に変換することをサポートします。
- Granite-Vision-3.3 2Bの能力を維持しつつ拡張し、シームレスな導入を目指すとともに、画像からテキストへの変換などの一般的な視覚言語タスクにも対応しています。
- このモデルは単体で利用でき、Doclingパイプラインと統合して、より深い視覚理解によってドキュメント処理を強化できます。



