要旨: Omni-I2C を紹介します。これは、複雑で構造化されたデジタルグラフィックスを実行可能なコードに変換する能力を評価するために設計された包括的なベンチマークです。私たちはこのタスクが現在の世代の Large Multimodal Models(LMMs)にとって非自明な挑戦であると主張します。高忠実度の視覚知覚――複雑な空間階層と記号的ディテールを読み解く能力――と、正確な生成表現――構文的に正しく論理的一貫性のあるコードを合成する能力――の前例のないシナジーを要求します。従来の記述タスクとは異なり、Omni-I2C には全体的な理解が必要で、わずかな知覚的幻覚やコーディングエラーでも視覚再構成の完全な失敗につながります。Omni-I2C は、被験者、画像モダリティ、プログラミング言語の幅広さによって定義された、1080 件の綿密にキュレーションされたサンプルを特徴としています。実在のユーザー提供ケースを取り入れることにより、ベンチマークは科学的可視化から複雑な記号表記に至る広範なデジタルコンテンツを網羅し、それぞれに実行可能な参照コードが対になっています。この多様性を補完するために、我々の評価フレームワークは必要な深さを提供します。性能を知覚忠実度と記号的正確さに分離することにより、表面的な正確さを超えて、現在の LMM の粒度の高い構造的欠陥と推論のボトルネックを露呈します。我々の評価は、主要なマルチモーダルモデルの間に顕著な性能格差があることを示しています。最先端のモデルでさえ、複雑な状況で構造的整合性を維持するのに苦労しており、マルチモーダルコード生成が依然として手強い課題であることを強調しています。データとコードは https://github.com/MiliLab/Omni-I2C で入手可能です。
Omni-I2C: 高忠実度の画像からコード生成のための総合的ベンチマーク
arXiv cs.CV / 2026/3/19
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- Omni-I2Cは、新しく包括的なベンチマークで、Large Multimodal Models(大規模多模態モデル)が複雑で構造化されたデジタルグラフィックスを実行可能なコードへ変換する能力を評価することを目的として設計されており、深い知覚理解と正確なコード生成を必要とします。
- 1080件の厳選サンプルが、多様な主題、画像モダリティ、プログラミング言語にまたがって構成されており、それぞれが実行可能な参照コードと共に、実在のユーザーケースから出典されています。
- 評価フレームワークは知覚忠実度と記号的精度を分離し、現在のモデルにおける粒度の細かな構造的欠陥や推論のボトルネックを暴露します。
- 結果として、先端的な大規模多模態モデル間で顕著な性能差が示され、マルチモーダルなコード生成が依然として難問であることを浮き彫りにしています。データとコードは、提供されたGitHubリンクから入手できます。

