QuanBench+: LLMベースの量子コード生成のための統一型マルチフレームワーク・ベンチマーク

arXiv cs.AI / 2026/4/13

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、Qiskit、PennyLane、Cirqの間でタスクを整合させることで、フレームワーク固有の知識による混乱を抑える、LLMベースの量子コード生成のための統一ベンチマーク「QuanBench+」を提案する。
量子アルゴリズム、ゲート分解、状態準備を含む42の整合タスクを収録し、モデル評価は、実行可能な関数テストに加えて、確率的出力に対するPass@1/Pass@5やKLダイバージェンスに基づく受理（acceptance）といった指標で行う。
本研究は、1回の推論（ワンショット）性能だけでなく、「フィードバックに基づく修復」も測定する。すなわち、実行時エラーや誤答の後にモデルがコードを修正することで、3つのフレームワークすべてにおける最高スコアが大幅に向上する。
報告されている最良のワンショットPass@1結果は、Qiskitで59.5%、Cirqで54.8%、PennyLaneで42.9%であり、フィードバックに基づく修復ではそれぞれ83.3%、76.2%、66.7%に引き上がる。
全体として、得られた結果は有意義な進展を示す一方で、信頼できるマルチフレームワーク量子コード生成は依然としてほぼ未解決であり、フレームワーク固有の知識への依存が強いことが示唆される。

Abstract

大規模言語モデル（LLM）はコード生成にますます使われるようになっていますが、量子コード生成は依然として主に単一のフレームワーク内で評価されており、量子推論とフレームワークへの慣れを切り分けることが難しいのが現状です。そこで、Qiskit、PennyLane、Cirq にまたがる統一ベンチマークである QuanBench+ を導入します。量子アルゴリズム、ゲート分解、状態準備を扱う 42 の整合タスクを収録しています。我々は実行可能な関数テストでモデルを評価し、Pass@1 と Pass@5 を報告します。また、確率的出力に対しては KL ダイバージェンスに基づく受理（採択）を用います。さらに、フィードバックに基づく修復後の Pass@1 についても検討します。ここでは、実行時エラーや誤答を受けて、モデルがコードを修正できる場合があります。フレームワーク横断で最も強いワンショットのスコアは、Qiskit で 59.5%、Cirq で 54.8%、PennyLane で 42.9% に到達しています。一方、フィードバックに基づく修復では、ベストスコアはそれぞれ 83.3%、76.2%、66.7% へと上昇します。これらの結果は明確な進歩を示す一方で、信頼できるマルチフレームワークの量子コード生成はいまだ未解決であり、依然としてフレームワーク固有の知識に強く依存していることも示しています。

「AIとの恋愛は浮気なのか」という問いは、少し雑ではないか

note

【夜のAI対話録#20】5月29日はこんにゃくの日！ 40代高卒・理系知見ゼロの僕の好みをハックしたAIが提案してきた「極悪の濃い味レシピ」が凄すぎた。｜note｜コラム｜料理｜レシピ

note

ありがとうSonnet4.5。ありがとうAnthropic。

note

＜ChatGPT 5.5 Thinking と Claude Opus 4.6＞ Claude Mythosは“逃げた”のか━━ペーパークリップ問題を、AIたちと考える

note

【計52P,コミックエッセイ・生成AI漫画版】AIさんのお部屋紹介２・無限ループ編。ホラー描写あり。 #noteで読めるマンガ #生成AI #AI活用 #ChatGPT #Claude #Gemini #AI漫画 #AI活用 #創作大賞2026 #マンガ部門 #スキしてみて #仕事について話そう #AIとやってみた #AIと始めてみた #エッセイ #コラム336

note

QuanBench+: LLMベースの量子コード生成のための統一型マルチフレームワーク・ベンチマーク

要点

Abstract

関連記事

「AIとの恋愛は浮気なのか」という問いは、少し雑ではないか

【夜のAI対話録#20】5月29日はこんにゃくの日！ 40代高卒・理系知見ゼロの僕の好みをハックしたAIが提案してきた「極悪の濃い味レシピ」が凄すぎた。｜note｜コラム｜料理｜レシピ

ありがとうSonnet4.5。ありがとうAnthropic。

＜ChatGPT 5.5 Thinking と Claude Opus 4.6＞ Claude Mythosは“逃げた”のか━━ペーパークリップ問題を、AIたちと考える

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer