要約: 先行研究 [Jo, 2026] では、STAR 推論(状況、課題、行動、結果)は Claude Sonnet 4.5 で車の洗浄問題の正解率を0%から85%へ、追加のプロンプト層を用いると100%へ引き上げました。このフォローアップは、STAR が本番系のシステムプロンプトでも有効性を維持するかを問います。
私たちは InterviewMate の 60 行超の本番用プロンプトの中で STAR をテストしました。これは、スタイルガイド、形式指示、プロフィール機能を反復的に追加して進化させてきたものです。Claude Sonnet 4.6 での3条件、各20試行: (A) Anthropic プロフィールを含む本番用プロンプト、(B) デフォルトプロフィールを含む本番用プロンプト、(C) 元の STAR のみのプロンプト。C は100% のスコア(n=100 で検証)。A と B は0%と30%だった。
プロンプトの複雑さは構造化推論を希薄化します。STAR は分離時に100%を達成しますが、競合する指示に囲まれると0-30%へ低下します。その仕組み: 「具体的な点を挙げて」などの指示は結論を先に出す出力を強制し、STAR を効果的にする「理由→結論」という順序を逆転させます。あるケースでは、モデルは「短い回答: Walk.」と出力し、その後 STAR 推論を実行して制約を正しく特定しました。これにより、モデルは正しく推論できたことが証明された一方、すでに誤った答えに固まってしまっていました。
モデル間の比較は、STAR のみが 85%(Sonnet 4.5)から100%(Sonnet 4.6)へ、プロンプト変更なしで改善したことを示しており、モデルのアップグレードが分離時の構造化推論を高めることを示唆しています。
これらの結果は、構造化推論フレームワークを、孤立したテストから複雑なプロンプト環境へ移転することを前提にはできないことを示唆しています。モデルが推論し結論を出す順序は、設計上の第一級の変数です。
プロンプトの複雑さは構造化推論を希薄化する:洗車問題に関するフォローアップ研究
arXiv cs.AI / 2026/3/17
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 研究は Claude Sonnet 4.6 上の 60 行超の生成プロンプト内で STAR 推論を検証し、STAR が孤立状態で 100% に到達する一方、複雑なプロンプトでは 0-30% に低下したと報告している。
- 著者らは、結論を先に出力させる指示が低下の原因だとし、それが STAR の有効性を生み出す本来の推論順序を逆転させていると述べている。
- ある事例では、STAR を適用する前にモデルが短い「Short answer: Walk.」を出力したが、STAR の推論は制約を正しく特定しており、プロンプトによってモデルが誤った答えへと誘導されていることを示している。
- モデル間の比較では、STAR のみの性能が 85% から 100% へと向上しており、新しいモデルはプロンプトを変更せずとも孤立状態での構造化推論を強化することを示唆している。
- 結果は、構造化推論フレームワークが孤立したテストから実世界の多指示プロンプトへは容易には移行せず、推論→結論の順序を設計上の主要な変数と捉えるべきであることを示唆している。
