QCalEval:量子キャリブレーションプロット理解に向けたビジョン・ランゲージモデルのベンチマーク

arXiv cs.CV / 2026/4/29

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、量子キャリブレーションプロットをビジョン・ランゲージモデル(VLM)がどれだけ理解できるかを評価する初のベンチマーク「QCalEval」を提案し、243サンプル・87のシナリオタイプ・22の実験ファミリーを含めています。
  • 対象は超伝導量子ビットと中性原子で、6種類の質問タイプについて、ゼロショットとインコンテキスト学習の両設定で検証します。
  • 結果として、最良の汎用ゼロショットモデルは平均スコア72.3を達成し、多くのオープンウェイトモデルはマルチ画像のインコンテキスト学習で性能が低下します。
  • 一方で、フロンティアのクローズドモデルはマルチ画像インコンテキスト学習で大きく改善し、オープンウェイト系との能力差が示唆されます。
  • 9B規模での教師あり微調整(SFT)はゼロショット性能を向上させるものの、マルチモーダルなインコンテキスト学習ギャップは十分に埋められず、さらに参照用のオープンウェイトモデル「NVIDIA Ising Calibration 1」も公開し、ゼロショット平均74.7を報告しています。

Abstract

量子コンピューティングのキャリブレーションは、実験データの解釈に依存しており、この作業に対してキャリブレーションプロットは最も普遍的で人が読める表現を提供します。しかし、ビジョン言語モデル(VLM)がそれらをどの程度うまく解釈できるかについて、体系的な評価は存在しません。私たちは量子キャリブレーションプロットのための最初のVLMベンチマークであるQCalEvalを導入します。これは、22の実験ファミリーにまたがり、超伝導量子ビットと中性原子の両方を含む87のシナリオタイプに対して、6種類の質問タイプをゼロショットおよびインコンテキスト学習の両設定で評価した、243サンプルから構成されます。最も汎用的なゼロショットモデルは平均スコア72.3に到達し、多くのオープンウェイトモデルはマルチ画像のインコンテキスト学習では低下する一方で、最前線のクローズドモデルは大幅に改善します。9ビリオンパラメータ規模での教師あり微調整アブレーションでは、SFTがゼロショット性能を向上させるものの、マルチモーダルなインコンテキスト学習のギャップを埋めることはできないことが示されます。参照となる事例研究として、Qwen3.5-35B-A3Bを基にしたオープンウェイトモデルであるNVIDIA Ising Calibration 1を公開します。これはゼロショット平均スコア74.7を達成しています。