図形が複雑に重なっている図面の正確な解釈は、人間でも慣れないと難しい。この図面や図表などから情報を的確に読み取るAI(人工知能)の開発をリコーが進めている。同社は、このほど開発したマルチモーダルAIの大規模言語(LLM)モデル「Qwen3-VL-Ricoh-32B-20260227」(以下、リコーLLM-32B)の適用例として、図形が複雑に重なる図面の解釈例を示した。
用紙の右上に普通公差(一般公差、個別に指示がない場合に適用する公差)の表の記載がある図面について「中央にある大径穴の直径と公差を示せ」との指示に対し、開発モデルが的確に回答した。リコーは「公差表が図面の別のページに記載されていた場合でも、同様の回答ができる」と明らかにした。
同モデルは、表やグラフ、チャート類などを直接扱うマルチモーダル性と、多段推論(リーズニング)機能を持つように開発したもの。複数ページにまたがる図表を関連付けて理解できる。ベンチマークでは「Google Gemini 2.5-Pro」などの大型商用モデルと同等の性能を示したとしている。
開発モデルはAIプラットフォームやハードウエアに組み込んだシステムとして提供する見込み。開発モデルを軽量化したモデル「Qwen3-VL-Ricoh-8B-20260227」は2026年3月30日から無償公開を始めた。経済産業省と新エネルギー・産業技術総合開発機構(NEDO)による生成AI開発力強化のプロジェクト「GENIAC(Generative AI Accelerator Challenge)」第3期に参画して開発した。
次のページ
「日本の文書は複雑な図表を含む」この記事は有料会員限定です





