品質主導のエージェント的推論によるLLM支援ソフトウェア設計:Questions-of-Thoughts (QoT) を時系列セルフQAチェーンとして
arXiv cs.AI / 2026/3/13
💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- QoT を紹介します。 QoT は品質主導の推論時スキャフォールドで、ユーザーの目標を順序付けられたエンジニアリング手順の列と、制約を検証し記漏れを減らすための逐次的な自己質問に変換します。
- 時系列のセルフQAチェーンを用いて、後続の設計判断を安定させ、バックエンドのエンジニアリング作業全体にわたって軽量な推論記録を維持します。
- QoT を API 設計、データ通信、ファイルシステムの三分野で ISO/IEC に触発された品質評価基準(スケーラビリティ、完全性、モジュール性、セキュリティ)を用いて評価し、容量に依存した大規模モデルとより複雑なドメインで改善を示す一方、小型モデルではある程度のトレードオフが見られる。
- 適用AIとデータ分析研究を支援するため、プロンプト、評価ガイドライン、未加工生成、再現可能なスクリプトを含む公開アーティファクトをリリースします。
本文: arXiv:2603.11082v1 発表タイプ: cross 要約: 最近の大規模言語モデル(LLMs)の進展はAI支援ソフトウェア開発を加速させましたが、実用的な展開は未完成の実装、弱いモジュール化、そして一貫性のないセキュリティ慣行によって依然として制約されています。我々は QoT(Questions-of-Thoughts)を紹介します。QoT は品質主導の推論時スキャフォールドで、ユーザーの目標を(i) エンジニアリング手順の秩序ある列、(ii) 制約を検証し記漏れを減らすための逐次的な自己質問へと変換し、後続の設計判断を安定させる軽量な推論記録を維持します。
我々は QoT を API 設計、データ通信、ファイルシステムの3つの代表的なバックエンドエンジニアリング分野で評価します。各タスクは複数モジュールの分解を要求し、LLM生成システムにおける標準的な故障モードを露呈します。データ駆動型比較を可能にするため、ISO/IEC に触発された品質ルーブリックを用いて生成されたアーティファクトをスコアリングします。スケーラビリティ、完全性、モジュール性、セキュリティを測定します。ドメインごとの利得は QoT スコアと NoQoT スコアの差として定義される総品質スコアの変化として報告します。結果は容量依存の改善を示します:QoT は大規模モデルとより複雑なドメインで一貫した品質改善を生み出す一方、より小さなモデルでは厳密な文脈と計画予算の制約下でトレードオフが生じる可能性があります。
適用AIとデータ分析研究を支援するため、報告された表と図を再現するプロンプト、スコアリングガイドライン、未加工生成、および再現可能なスクリプトを含む公開アーティファクトを公開します。




