汎用人工教師に向けて：手続き的幾何データ生成と視覚言語モデルによる視覚的グラウンディング

arXiv cs.CV / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、幾何教育における視覚的説明タスクを、参照画像セグメンテーション（RIS）として再定義する。すなわち、モデルが図中の記述された幾何要素に対してピクセルレベルのマスクを生成する必要がある。
著者らは、実写真から質感のない抽象的な図表への大きなドメインシフトにより、既存のRISモデルが幾何のスケマティクスでは破綻すると主張する。
学習データの限界を克服するため、著者らは完全自動の手続き的データ生成エンジンを構築し、ピクセル完全なマスクと多様な自然言語の参照表現を伴う20万枚超の合成幾何図表を生成する。
視覚言語モデルに対する領域特化のファインチューニングを提案し、その結果、ファインチューニング済みのFlorence-2はゼロショット評価で1%未満であるのに対し、49%のIoUおよび85%のBuffered IoUを達成したと報告する。
本研究は、薄い構造のローカライズを標準的なIoUより適切に評価するために設計された、幾何を考慮した指標であるBuffered IoUを導入し、これらの結果を、視覚的に根拠づけられた段階的な指導を提供できる汎用人工教師（Artificial General Teacher）への基礎として位置づける。

概要: 幾何教育における視覚的説明を、参照画像セグメンテーション（Referring Image Segmentation; RIS）問題として研究します。すなわち、図（ダイアグラム）と自然言語による記述が与えられたとき、参照された幾何要素に対するピクセルレベルのマスクを生成することが課題です。しかし、RefCOCO のような自然画像ベンチマークで学習された既存の RIS モデルは、写真のシーンと抽象的で質感のない図式（スケマティクス）の間に存在する根本的なドメインシフトのため、幾何図に対して致命的に失敗します。適切な学習データが存在しないことに対処するため、私たちは、200,000 件を超える合成の幾何図を、ピクセル完全なセグメンテーションマスクと、言語的に多様な参照表現（referring expressions）とともに生成する、完全に自動化された手続き型データエンジンを提示します。これにより、手作業によるアノテーションはゼロで済みます。さらに、視覚と言語のモデル（VLM）に対する領域固有のファインチューニングを提案し、ファインチューニングした Florence-2 が、ゼロショット設定における <1% IoU と比較して 49% IoU および 85% Buffered IoU（BIoU）を達成することを示します。薄い構造の位置特定を考慮した、幾何に配慮した評価指標である Buffered IoU を導入し、標準の IoU よりも真のセグメンテーション品質をよりよく反映することを示します。これらの結果は、幾何問題に対して視覚的に裏付けられた、段階的な説明を提供できる Artificial General Teachers（AGTs）を構築するための基盤を確立します。