GeoTikzBridge: 幾何学的認識と推論のためのマルチモーダル・コード生成を前進させる

arXiv cs.CV / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、TikZベースのコードを生成することで、マルチモーダルLLMの微細な幾何学的認識と視覚推論を改善するフレームワーク「GeoTikzBridge」を提案する。
  • 2つのモデルを提示する。反復的な拡張によって構築した2.5MペアのGeoTikz-Baseデータセットで学習した「GeoTikzBridge-Base」、および視覚推論のための初めての種類となる、指示拡張付きのGeoTikz-Instructデータセットで微調整した「GeoTikzBridge-Instruct」。
  • 実験では、幾何学関連タスクにおいて、オープンソースのマルチモーダルLLMの中で最先端の性能を報告し、特に詳細な幾何学的構造を捉えることに関する限界に対処する。
  • 著者らは、GeoTikzBridgeモデルを他のMLLMに対する「プラグアンドプレイ」の推論モジュールとして用いることで、幾何学的問題解決の性能を向上できると主張している。
  • 対応するデータセットとコードはGitHubを通じて公開されており、外部での再現や下流(ダウンストリーム)への統合が可能になる。

GeoTikzBridge: 幾何学的認識と推論のためのマルチモーダル・コード生成を前進させる | AI Navigate