アブストラクト: 多くの要求工学(RE)成果物は、そのテキスト的で反復的な性質ゆえに、大規模言語モデル(LLM)がそれらの生成および処理を自動化するのに有用であることが示されています。本論文では、3つのフェーズ――アクター同定、高レベルおよび低レベルの目標抽出――を通じてソフトウェア文書から機能目標を抽出することで、目標指向要求工学(GORE)プロセスを自動化するための可能なアプローチを議論します。これらの機能を実装するために、設計されたプロンプトを入力として与えるLLMの連鎖を提案します。私たちは、インコンテキスト学習のさまざまな変種を試し、入力データとインコンテキスト例との類似度を測定することで、その影響をより深く調べました。もう一つの重要な要素は、2つのLLMを用いたフィードバックループとして実装した生成-批評(generation-critic)メカニズムです。パイプラインは低レベル目標の同定において61%の精度を達成しましたが、これらの結果は、本アプローチが完全な代替ではなく、手作業による抽出を加速するためのツールとして最も適していることを示唆しています。フィードバックループ機構はZero-shotによって、単独のFew-shotを上回りました。アブレーション研究では、フィードバックサイクルがないと性能がわずかに低下することが示唆されました。ただし、フィードバックメカニズムとFew-shotの組み合わせは何の利点ももたらさないことを私たちは報告しました。これは、主たる性能の上限が「critic」LLMに適用したプロンプト戦略にある可能性を示しています。さらに、Shot例の量と質の両方を洗練させることに加えて、今後の研究では、精度を向上させるためにRetrieval-Augmented Generation(RAG)およびChain-of-Thought(CoT)プロンプトを統合する予定です。
要求工学におけるLLMベースの目標抽出の評価:プロンプト戦略とその限界
arXiv cs.AI / 2026/4/27
💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本論文は、ソフトウェア文書から機能的なゴールを抽出して、ゴール指向要求工学(GORE)の一部を自動化するためのマルチフェーズLLMパイプライン(アクター特定、さらに高・低レベルのゴール抽出)を提案している。
- 入力とインコンテキスト例(ショット)間の類似度測定や、インコンテキスト学習のさまざまな変種の評価を通じて、文脈が抽出品質に与える影響を検証している。
- 2つのLLMを用いる生成–批評(generation–critic)のフィードバックループを導入し、スタンドアロンのfew-shotよりもzero-shotのcritic設定の方が優れていることを示している。
- パイプラインは低レベルのゴール識別で61%の精度に達する一方で、人手による抽出を加速する用途が主であり、完全な代替には向きにくいという示唆を得ている。
- フィードバック機構とfew-shotの組み合わせでは利点が見られず、将来はRAGとチェーン・オブ・ソート(CoT)プロンプトで精度向上を図る計画である。




