手書きから構造化データへ：手書きフォームのAIデジタイズをベンチマークする

arXiv cs.CV / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本研究は、日付・印字テキスト・手書きの自由記述が混在し、変動も大きい難度の高い実在の医療用手書きフォームを対象に、17の主要なマルチモーダル大規模言語モデル（先端モデルとオープンソースモデル）をベンチマークした。
小型または旧世代のモデルは概して性能が低くなる一方で、GoogleとOpenAIの最新モデルは、応答が非常に難しいにもかかわらず、精度約85%・重み付きF1がおよそ90%に到達した。
モデルごとの強みとして、GPT 5.4はノイズの多い日付抽出と幻覚率の低さ（6%）で最良の結果を示し、Claude Sonnet 4.6は日付や数値などのフォーマット済みフィールドで最高の平均性能を示し、Gemini 3.1は総合で最良の結果（WER 0.50、CER 0.31）と離散分類指標での強さが確認された。
プロンプト最適化はマクロの適合率・再現率・F1を60%以上大きく改善する一方、重み付き指標への影響は2〜5%程度にとどまり、重み付け方式がプロンプト変更の影響を受けにくいことを示唆した。
マルチモーダルLLMの急速な進歩は、複雑な手書き業務フローの完全自動デジタイズにつながる有望な道筋を示しており、手作業のデジタイズコストが高い低・中所得国で特に意義が大きい可能性がある。