QCalEval：量子キャリブレーションプロット理解に向けたビジョン・ランゲージモデルのベンチマーク

arXiv cs.CV / 2026/4/29

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、量子キャリブレーションプロットをビジョン・ランゲージモデル（VLM）がどれだけ理解できるかを評価する初のベンチマーク「QCalEval」を提案し、243サンプル・87のシナリオタイプ・22の実験ファミリーを含めています。
対象は超伝導量子ビットと中性原子で、6種類の質問タイプについて、ゼロショットとインコンテキスト学習の両設定で検証します。
結果として、最良の汎用ゼロショットモデルは平均スコア72.3を達成し、多くのオープンウェイトモデルはマルチ画像のインコンテキスト学習で性能が低下します。
一方で、フロンティアのクローズドモデルはマルチ画像インコンテキスト学習で大きく改善し、オープンウェイト系との能力差が示唆されます。
9B規模での教師あり微調整（SFT）はゼロショット性能を向上させるものの、マルチモーダルなインコンテキスト学習ギャップは十分に埋められず、さらに参照用のオープンウェイトモデル「NVIDIA Ising Calibration 1」も公開し、ゼロショット平均74.7を報告しています。

Abstract

量子コンピューティングのキャリブレーションは、実験データの解釈に依存しており、この作業に対してキャリブレーションプロットは最も普遍的で人が読める表現を提供します。しかし、ビジョン言語モデル（VLM）がそれらをどの程度うまく解釈できるかについて、体系的な評価は存在しません。私たちは量子キャリブレーションプロットのための最初のVLMベンチマークであるQCalEvalを導入します。これは、22の実験ファミリーにまたがり、超伝導量子ビットと中性原子の両方を含む87のシナリオタイプに対して、6種類の質問タイプをゼロショットおよびインコンテキスト学習の両設定で評価した、243サンプルから構成されます。最も汎用的なゼロショットモデルは平均スコア72.3に到達し、多くのオープンウェイトモデルはマルチ画像のインコンテキスト学習では低下する一方で、最前線のクローズドモデルは大幅に改善します。9ビリオンパラメータ規模での教師あり微調整アブレーションでは、SFTがゼロショット性能を向上させるものの、マルチモーダルなインコンテキスト学習のギャップを埋めることはできないことが示されます。参照となる事例研究として、Qwen3.5-35B-A3Bを基にしたオープンウェイトモデルであるNVIDIA Ising Calibration 1を公開します。これはゼロショット平均スコア74.7を達成しています。

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

日経XTECH

LLMはコモディティになる

Reddit r/artificial

インドの開発者：資金ゼロで2026年にAI副業収入を作る方法

Dev.to

ローカルでQwen 3.6やGemma 4を動かすときの感覚

Reddit r/LocalLLaMA

Dex、AIによる人材マッチング事業の成長に向けて530万ドル調達

Tech.eu

QCalEval：量子キャリブレーションプロット理解に向けたビジョン・ランゲージモデルのベンチマーク

要点

Abstract

関連記事

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

LLMはコモディティになる

インドの開発者：資金ゼロで2026年にAI副業収入を作る方法

ローカルでQwen 3.6やGemma 4を動かすときの感覚

Dex、AIによる人材マッチング事業の成長に向けて530万ドル調達

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ 部品種削減にも注力

LLMはコモディティになる

インドの開発者：資金ゼロで2026年にAI副業収入を作る方法

ローカルでQwen 3.6やGemma 4を動かすときの感覚

Dex、AIによる人材マッチング事業の成長に向けて530万ドル調達

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力