レビューから要件へ：LLMは人間らしいユーザーストーリーを生成できるか？

arXiv cs.CL / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本研究は、大規模言語モデルが、雑多なアプリストアのレビューをバックログ作成に適した、人間らしいユーザーストーリーへ変換できるかどうかを検証する。
Mini-BARデータセット（ヘルスアプリのレビュー1,000件超）を用い、GPT-3.5 Turbo、Gemini 2.0 Flash、Mistral 7B Instructなどのモデルに対して、ゼロショット、ワンショット、ツーショットといった複数のプロンプト戦略を評価した。
評価は、RUSTフレームワークによる人手評価と、機械学習ベースの手法を組み合わせて行った。具体的には、UStAIでファインチューニングしたRoBERTa分類器で生成したユーザーストーリーの品質をスコア化した。
結果は、LLMが流暢で適切にフォーマットされたユーザーストーリーを生成でき、特に少数ショットのプロンプトでは、人手による記述に匹敵、または上回る可能性が示された。
しかし、フォーマットや流暢さが優れていても、LLMは本当に独立しておりかつ独自性の高いユーザーストーリーを生成するのが難しく、その結果、多様なアジャイルバックログの構築をどれほど支援できるかが制限される。

要旨: アプリストアのレビューは、ソフトウェア要件の改善に役立つ、実際の利用者からのフィードバックが絶えず流れ込んでくることを意味します。しかし、これらのレビューはしばしば散らかっており、非公式で、かつ大規模に分析する際に手作業では扱いにくいものです。自動化手法が存在するものの、多くはそれを再現するとうまく機能せず、アジャイルプロジェクト向けに、きれいでバックログにすぐ投入できるユーザーストーリーを生成できないことがよくあります。
本研究では、GPT-3.5 Turbo、Gemini 2.0 Flash、Mistral 7B Instruct のような大規模言語モデル（LLM）が、生のアプリレビューから直接、実用的なユーザーストーリーを生成できる性能を評価します。1,000件超のヘルスアプリレビューからなる Mini-BAR データセットを用いて、ゼロショット、ワンショット、ツーショットのプロンプト手法をテストしました。
生成されたユーザーストーリーは、人間の判断（RUST フレームワークによる）と、全体的な品質を評価するために UStAI 上で微調整した RoBERTa 分類器の両方を用いて評価しました。その結果、LLM は、特に少数ショットのプロンプトを用いる場合、流暢で適切にフォーマットされたユーザーストーリーを書く点で、人間に匹敵する、あるいはそれを上回ることが示されました。しかし、強力なアジャイルバックログを構築するために不可欠である、独立していてかつ独自性のあるユーザーストーリーを生み出すことについては、依然として苦手です。
総合すると、本研究の知見は、LLM が、非構造化のアプリレビューを確実に実行可能なソフトウェア要件へと変換できることを示しており、開発者がユーザーフィードバックを意味のある改善へとつなげるための明確な指針を提供します。