QuanBench+: LLMベースの量子コード生成のための統一型マルチフレームワーク・ベンチマーク
arXiv cs.AI / 2026/4/13
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、Qiskit、PennyLane、Cirqの間でタスクを整合させることで、フレームワーク固有の知識による混乱を抑える、LLMベースの量子コード生成のための統一ベンチマーク「QuanBench+」を提案する。
- 量子アルゴリズム、ゲート分解、状態準備を含む42の整合タスクを収録し、モデル評価は、実行可能な関数テストに加えて、確率的出力に対するPass@1/Pass@5やKLダイバージェンスに基づく受理(acceptance)といった指標で行う。
- 本研究は、1回の推論(ワンショット)性能だけでなく、「フィードバックに基づく修復」も測定する。すなわち、実行時エラーや誤答の後にモデルがコードを修正することで、3つのフレームワークすべてにおける最高スコアが大幅に向上する。
- 報告されている最良のワンショットPass@1結果は、Qiskitで59.5%、Cirqで54.8%、PennyLaneで42.9%であり、フィードバックに基づく修復ではそれぞれ83.3%、76.2%、66.7%に引き上がる。
- 全体として、得られた結果は有意義な進展を示す一方で、信頼できるマルチフレームワーク量子コード生成は依然としてほぼ未解決であり、フレームワーク固有の知識への依存が強いことが示唆される。



