QCalEval:量子キャリブレーションプロット理解に向けたビジョン・ランゲージモデルのベンチマーク
arXiv cs.CV / 2026/4/29
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、量子キャリブレーションプロットをビジョン・ランゲージモデル(VLM)がどれだけ理解できるかを評価する初のベンチマーク「QCalEval」を提案し、243サンプル・87のシナリオタイプ・22の実験ファミリーを含めています。
- 対象は超伝導量子ビットと中性原子で、6種類の質問タイプについて、ゼロショットとインコンテキスト学習の両設定で検証します。
- 結果として、最良の汎用ゼロショットモデルは平均スコア72.3を達成し、多くのオープンウェイトモデルはマルチ画像のインコンテキスト学習で性能が低下します。
- 一方で、フロンティアのクローズドモデルはマルチ画像インコンテキスト学習で大きく改善し、オープンウェイト系との能力差が示唆されます。
- 9B規模での教師あり微調整(SFT)はゼロショット性能を向上させるものの、マルチモーダルなインコンテキスト学習ギャップは十分に埋められず、さらに参照用のオープンウェイトモデル「NVIDIA Ising Calibration 1」も公開し、ゼロショット平均74.7を報告しています。



