AI Navigate

$PA^3$: チェーン・オブ・思考を通じたポリシー認識エージェントのアライメント

arXiv cs.CL / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、推論時のチェーン・オブ・思考過程において適切な業務ポリシーを思い出して適用するようLLMsを訓練する、複数段階のアライメント手法を提案します。ポリシー全体を文脈内に含めずに実現します。
  • Jaccardスコアに基づくPolicyRecall報酬と、ポリシー根拠の推論を改善するGRPOトレーニングのための幻覚ペナルティを導入します。
  • このアプローチは、長いプロンプトを避けつつビジネスルールを遵守し、遅延とコンテキスト長の問題を軽減することを目指します。
  • 実証結果では、最良モデルがベースラインを16ポイント上回り、類似モデルのベースラインを3ポイント上回り、語数を40%削減しています。

要約: 巨大言語モデル(LLMs)によって動作する対話型アシスタントは、ツール利用タスクに長けていますが、複雑で事業固有のルールを遵守するのに苦労します。文脈内に提供されたビジネスルールをモデルが推論できる一方で、すべてのクエリに対してすべてのポリシーを含めることは高い遅延を引き起こし、計算資源を浪費します。さらに、これらの長いプロンプトは長いコンテキストを招き、「needle-in-the-haystack」問題のせいで全体的な性能を低下させます。これらの課題に対処するため、推論時の思考過程の連鎖中に関連するビジネスポリシーを思い出して適用するようモデルを訓練する、複数段階の整合化手法を提案します。文脈内に全てのビジネスポリシーを含めることなく。さらに、Jaccardスコアに基づく新しいPolicyRecall報酬と、GRPOトレーニングのための幻覚ペナルティを導入します。総じて、私たちの最良のモデルはベースラインを16ポイント上回り、同様のモデルサイズのインコンテキストベースラインを3ポイント上回りつつ、語数を40%削減しています。

返却形式: {"translated": "翻訳されたHTML"}