QuanBench+: LLMベースの量子コード生成のための統一型マルチフレームワーク・ベンチマーク

arXiv cs.AI / 2026/4/13

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、Qiskit、PennyLane、Cirqの間でタスクを整合させることで、フレームワーク固有の知識による混乱を抑える、LLMベースの量子コード生成のための統一ベンチマーク「QuanBench+」を提案する。
  • 量子アルゴリズム、ゲート分解、状態準備を含む42の整合タスクを収録し、モデル評価は、実行可能な関数テストに加えて、確率的出力に対するPass@1/Pass@5やKLダイバージェンスに基づく受理(acceptance)といった指標で行う。
  • 本研究は、1回の推論(ワンショット)性能だけでなく、「フィードバックに基づく修復」も測定する。すなわち、実行時エラーや誤答の後にモデルがコードを修正することで、3つのフレームワークすべてにおける最高スコアが大幅に向上する。
  • 報告されている最良のワンショットPass@1結果は、Qiskitで59.5%、Cirqで54.8%、PennyLaneで42.9%であり、フィードバックに基づく修復ではそれぞれ83.3%、76.2%、66.7%に引き上がる。
  • 全体として、得られた結果は有意義な進展を示す一方で、信頼できるマルチフレームワーク量子コード生成は依然としてほぼ未解決であり、フレームワーク固有の知識への依存が強いことが示唆される。

Abstract

大規模言語モデル(LLM)はコード生成にますます使われるようになっていますが、量子コード生成は依然として主に単一のフレームワーク内で評価されており、量子推論とフレームワークへの慣れを切り分けることが難しいのが現状です。そこで、Qiskit、PennyLane、Cirq にまたがる統一ベンチマークである QuanBench+ を導入します。量子アルゴリズム、ゲート分解、状態準備を扱う 42 の整合タスクを収録しています。 我々は実行可能な関数テストでモデルを評価し、Pass@1 と Pass@5 を報告します。また、確率的出力に対しては KL ダイバージェンスに基づく受理(採択)を用います。さらに、フィードバックに基づく修復後の Pass@1 についても検討します。ここでは、実行時エラーや誤答を受けて、モデルがコードを修正できる場合があります。フレームワーク横断で最も強いワンショットのスコアは、Qiskit で 59.5%、Cirq で 54.8%、PennyLane で 42.9% に到達しています。一方、フィードバックに基づく修復では、ベストスコアはそれぞれ 83.3%、76.2%、66.7% へと上昇します。これらの結果は明確な進歩を示す一方で、信頼できるマルチフレームワークの量子コード生成はいまだ未解決であり、依然としてフレームワーク固有の知識に強く依存していることも示しています。