STRIDE：リトリーバル拡張マルチホップ質問応答のための戦略的反復意思決定

arXiv cs.AI / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

STRIDEは、既存のマルチホップ質問応答で見られる課題を、単一の反復型リトリーバル拡張生成ではなく「戦略的計画」「動的制御」「グラウンディングされた実行」を分離する設計で解決しようとしています。
まずMeta-Plannerが「実体に依存しない」推論スケルトンを構築し、その後に実体のグラウンディングを行うことで、表層的な語彙に引っ張られる曖昧性による誤りや、早すぎる実体確定の影響を抑えることを狙っています。
Supervisorは論理的な依存関係を踏まえてサブ質問の実行を統括し、可能な場合は並列化し、必要な場合は順序立てて協調実行します。
STRIDEは、新しい証拠の取得と既存事実からの推論のどちらを行うかを動的に判断し、冗長なクエリを減らしつつ、分岐間の情報統合や失敗した質問の組み替えでエラー伝播を抑えます。
本論文では、STRIDE-FTというモジュール型の微調整手法も提案されており、STRIDEが自己生成する実行トラジェクトリを用いることで、人手アノテーションや強力な教師モデルなしにオープンソースLLMを改善できるとしています。

要旨: 多段（Multi-hop）質問応答（MHQA）は、複数の文書に分散した根拠を検索し、推論することで、複雑なクエリに対して正確な回答を可能にします。既存のMHQA手法は主に、反復的な検索拡張生成に依存していますが、次の2つの主要な問題があります。1) 既存の手法は、基盤となる推論構造ではなく表層的なエンティティに早期にコミットしてしまうため、質問分解が語彙の曖昧性に対して非常に脆弱になります。2) 既存の手法は、推論ステップ間の論理的な依存関係を見落とし、その結果として協調の取れていない実行になってしまいます。これらの課題に対処するため、戦略的計画・動的制御・根拠に基づく実行を分離する枠組みSTRIDEを提案します。中核として、Meta-Plannerがまず、エンティティに依存しない推論のスケルトンを構築し、クエリの抽象的な論理を捉えます。これにより、推論構造が確立された後にエンティティのグラウンディングを行うことになり、早期の語彙コミットによって引き起こされる曖昧性解消エラーを軽減します。次にSupervisorが、依存関係を考慮した方法で下位質問の実行をオーケストレーションし、可能な場合は効率的に並列化し、必要な場合は逐次的に連携させます。さらに、新たな根拠を検索すべきか、既存の事実から推論すべきかを動的に判断することで、冗長なクエリを回避し、誤りの伝播も抑えます。同時に、分岐間の情報を統合し、失敗したクエリを再定式化することで堅牢性を高めます。根拠に基づく事実抽出と論理推論は、専門の実行モジュールに委譲し、検索と推論を明示的に分離することで忠実性を保証します。加えて、STRIDE-FTというモジュール型のファインチューニング枠組みを提案します。これは、STRIDEから自己生成した実行トラジェクトリを用い、人手による注釈も、より強力な教師モデルも必要としません。実験の結果、STRIDEは堅牢で正確な推論を達成し、STRIDE-FTはオープンソースのLLMを効果的に強化することが示されました。