要約: 自然言語プロンプトはしばしば意図伝達の喪失に悩まされます:ユーザーが実際に必要とするものと、AIシステムに伝える内容との間のギャップです。私たちは、PPS(Prompt Protocol Specification)、人間とAIの相互作用における構造化された意図表現のための5W3Hベースのフレームワークを評価します。3条件の管理下研究を、ビジネス、技術、旅行の3分野の計60タスク、3つの大規模言語モデル(DeepSeek-V3、Qwen-Max、Kimi)、そして3つのプロンプト条件(A)シンプルなプロンプト、(B)生の PPS JSON、(C)自然言語でレンダリングされた PPS)を用いて実施し、LLM評価者によって評価された540のAI生成出力を収集しました。goal_alignment(ユーザー意図整合性)を導入し、レンダリングされたPPSがこの指標で、単純なプロンプトおよび生JSONの双方を上回ることを発見しました。PPSの利得はタスクに依存します:曖昧さが高いビジネス分析タスクでは利得が大きい一方、曖昧さが低い旅行計画では逆の傾向を示します。標準的なLLM評価における測定の非対称性も特定しました。制約のないプロンプトは制約遵守スコアを膨らませ、構造化されたプロンプトの実用価値を覆い隠す可能性があります。予備的な回顧調査(N = 20)では、フォローアップのプロンプトが必要な回数が3.33回から1.13回へ、66.1%削減されることを示唆しています。これらの知見は、構造化された意図表現が、特にユーザーの意図が本質的に曖昧なタスクにおいて、人間とAIの相互作用の整合性と使いやすさを改善し得ることを示唆しています。)
人間とAIの相互作用における意図整合性のための5W3H構造化プロンプトの評価
arXiv cs.AI / 2026/3/20
💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本論文は、5W3Hに基づく構造化されたユーザー意図の表現フレームワークであるPPSを提案し、人間とAIの相互作用における意図伝達の喪失を低減する。
- ビジネス、技術、旅行の3分野にまたがる60タスクを対象とした制御実験で、3つのLLM(DeepSeek-V3、Qwen-Max、Kimi)を、シンプルなプロンプト、未加工のPPS JSON、自然言語で表現されたPPSという3つのプロンプト条件で評価した。
- 自然言語で表現されたPPSは、シンプルなプロンプトおよび未加工のPPS JSONのいずれよりも、目標整合性指標で優れており、タスクの曖昧さの程度に応じて効果が異なる(高い曖昧さを持つビジネスタスクでは効果が大きく、低い曖昧さの旅行計画タスクでは小さい)。
- 標準的なLLM評価における測定の非対称性を報告し、20名の参加者を対象とした予備調査から、フォローアッププロンプトの回数が66.1%削減された(3.33回から1.13回へ)、構造化された意図表現が整合性と使いやすさを改善することを裏付ける。
