要旨: 大規模なマルチモーダル言語モデルをスケールして展開する際には、トークンベースの推論コストによって制約されますが、視覚プロンプト戦略のコストパフォーマンス挙動は十分に特徴づけられていません。私たちは、テキストトークンのオーバーヘッドを削減するために構造化されたテキストを画像内に直接埋め込むプロンプトパラダイムであるImage Prompt Packaging (IPPg) を導入し、5つのデータセット、3つの最前線モデル(GPT-4.1、GPT-4o、Claude 3.5 Sonnet)、および2つのタスクファミリ(VQA とコード生成)にわたってベンチマークします。私たちは、トークン種別ごとに節約を分解するコスト定式化を導出し、IPPgが 35.8--91.0\% の推論コスト削減を達成することを示します。最大96\%のトークン圧縮にもかかわらず、多くの設定で精度は競争力を維持しますが、結果は非常にモデルとタスクに依存します。GPT-4.1はCoSQLで同時に精度とコストの向上を達成する一方で、Claude 3.5は複数のVQAベンチマークでコストの増加を招きます。体系的な誤り分析により、失敗モードの分類法(タクソノミー)を得ます。すなわち、空間推論、非英語入力、文字に敏感な操作が最も脆弱であり、一方でスキーマに構造化されたタスクが最も恩恵を受けます。125構成のレンダリングによるアブレーションは、精度の変化が10--30パーセンテージポイントであることを明らかにし、マルチモーダルシステム設計において視覚エンコーディングの選択を第一級の変数として位置づけます。
画像プロンプト・パッケージングによるトークン効率の高いマルチモーダル推論
arXiv cs.AI / 2026/4/6
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- この論文は、テキスト・トークンのオーバーヘッドに起因するマルチモーダル推論コストを削減するために、構造化テキストを画像に埋め込むプロンプト手法であるImage Prompt Packaging(IPPg)を提案する。
- 5つのデータセット、3つの最先端マルチモーダルモデル(GPT-4.1、GPT-4o、Claude 3.5 Sonnet)、および2つのタスク系統(VQAとコード生成)にわたって、IPPgは報告されている推論コストを35.8%〜91.0%削減し、最大96%のトークン圧縮を達成する。
- 正確性への影響は、特定のモデルとタスクに強く依存する。GPT-4.1はCoSQLで同時に精度とコストの向上を示す一方、Claude 3.5は複数のVQAベンチマークでコストを増加させる。
- 著者らはトークン種別ごとのコスト分解と失敗モードの分類法を導出し、脆弱性が高いのは空間的推論、非英語入力、文字に敏感な操作であることを見出す。一方で、スキーマが構造化されたタスクは最も恩恵が大きい。
- 大規模なレンダリングのアブレーション(125構成)により、視覚エンコーディングの選択が結果に実質的な影響を与えることが示され、精度の変化は10%〜30%に及ぶ。これにより、視覚エンコーディングがマルチモーダルシステムの重要な設計変数であることが示唆される。




