GeoTikzBridge: 幾何学的認識と推論のためのマルチモーダル・コード生成を前進させる

arXiv cs.CV / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、TikZベースのコードを生成することで、マルチモーダルLLMの微細な幾何学的認識と視覚推論を改善するフレームワーク「GeoTikzBridge」を提案する。
2つのモデルを提示する。反復的な拡張によって構築した2.5MペアのGeoTikz-Baseデータセットで学習した「GeoTikzBridge-Base」、および視覚推論のための初めての種類となる、指示拡張付きのGeoTikz-Instructデータセットで微調整した「GeoTikzBridge-Instruct」。
実験では、幾何学関連タスクにおいて、オープンソースのマルチモーダルLLMの中で最先端の性能を報告し、特に詳細な幾何学的構造を捉えることに関する限界に対処する。
著者らは、GeoTikzBridgeモデルを他のMLLMに対する「プラグアンドプレイ」の推論モジュールとして用いることで、幾何学的問題解決の性能を向上できると主張している。
対応するデータセットとコードはGitHubを通じて公開されており、外部での再現や下流（ダウンストリーム）への統合が可能になる。

日経XTECH

日経XTECH

日経XTECH

Dev.to

Dev.to