GeoTikzBridge: 幾何学的認識と推論のためのマルチモーダル・コード生成を前進させる
arXiv cs.CV / 2026/3/25
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、TikZベースのコードを生成することで、マルチモーダルLLMの微細な幾何学的認識と視覚推論を改善するフレームワーク「GeoTikzBridge」を提案する。
- 2つのモデルを提示する。反復的な拡張によって構築した2.5MペアのGeoTikz-Baseデータセットで学習した「GeoTikzBridge-Base」、および視覚推論のための初めての種類となる、指示拡張付きのGeoTikz-Instructデータセットで微調整した「GeoTikzBridge-Instruct」。
- 実験では、幾何学関連タスクにおいて、オープンソースのマルチモーダルLLMの中で最先端の性能を報告し、特に詳細な幾何学的構造を捉えることに関する限界に対処する。
- 著者らは、GeoTikzBridgeモデルを他のMLLMに対する「プラグアンドプレイ」の推論モジュールとして用いることで、幾何学的問題解決の性能を向上できると主張している。
- 対応するデータセットとコードはGitHubを通じて公開されており、外部での再現や下流(ダウンストリーム)への統合が可能になる。
