要約: 巨大言語モデル(LLMs)によって動作する対話型アシスタントは、ツール利用タスクに長けていますが、複雑で事業固有のルールを遵守するのに苦労します。文脈内に提供されたビジネスルールをモデルが推論できる一方で、すべてのクエリに対してすべてのポリシーを含めることは高い遅延を引き起こし、計算資源を浪費します。さらに、これらの長いプロンプトは長いコンテキストを招き、「needle-in-the-haystack」問題のせいで全体的な性能を低下させます。これらの課題に対処するため、推論時の思考過程の連鎖中に関連するビジネスポリシーを思い出して適用するようモデルを訓練する、複数段階の整合化手法を提案します。文脈内に全てのビジネスポリシーを含めることなく。さらに、Jaccardスコアに基づく新しいPolicyRecall報酬と、GRPOトレーニングのための幻覚ペナルティを導入します。総じて、私たちの最良のモデルはベースラインを16ポイント上回り、同様のモデルサイズのインコンテキストベースラインを3ポイント上回りつつ、語数を40%削減しています。
返却形式: {"translated": "翻訳されたHTML"}


