$PA^3$: チェーン・オブ・思考を通じたポリシー認識エージェントのアライメント

arXiv cs.CL / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、推論時のチェーン・オブ・思考過程において適切な業務ポリシーを思い出して適用するようLLMsを訓練する、複数段階のアライメント手法を提案します。ポリシー全体を文脈内に含めずに実現します。
Jaccardスコアに基づくPolicyRecall報酬と、ポリシー根拠の推論を改善するGRPOトレーニングのための幻覚ペナルティを導入します。
このアプローチは、長いプロンプトを避けつつビジネスルールを遵守し、遅延とコンテキスト長の問題を軽減することを目指します。
実証結果では、最良モデルがベースラインを16ポイント上回り、類似モデルのベースラインを3ポイント上回り、語数を40%削減しています。

要約: 巨大言語モデル（LLMs）によって動作する対話型アシスタントは、ツール利用タスクに長けていますが、複雑で事業固有のルールを遵守するのに苦労します。文脈内に提供されたビジネスルールをモデルが推論できる一方で、すべてのクエリに対してすべてのポリシーを含めることは高い遅延を引き起こし、計算資源を浪費します。さらに、これらの長いプロンプトは長いコンテキストを招き、「needle-in-the-haystack」問題のせいで全体的な性能を低下させます。これらの課題に対処するため、推論時の思考過程の連鎖中に関連するビジネスポリシーを思い出して適用するようモデルを訓練する、複数段階の整合化手法を提案します。文脈内に全てのビジネスポリシーを含めることなく。さらに、Jaccardスコアに基づく新しいPolicyRecall報酬と、GRPOトレーニングのための幻覚ペナルティを導入します。総じて、私たちの最良のモデルはベースラインを16ポイント上回り、同様のモデルサイズのインコンテキストベースラインを3ポイント上回りつつ、語数を40%削減しています。

返却形式: {"translated": "翻訳されたHTML"}

AIはバブルになりつつあり、ドットコム崩壊のような結末を迎えるのか？

Reddit r/artificial

状態の外部化

Dev.to

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

Dev.to

私のAIには時計がない

Dev.to

コーディング向けの LLM をどう選ぶべきか？注目すべきパラメータは何か？

Reddit r/LocalLLaMA

$PA^3$: チェーン・オブ・思考を通じたポリシー認識エージェントのアライメント

要点

関連記事

AIはバブルになりつつあり、ドットコム崩壊のような結末を迎えるのか？

状態の外部化

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

私のAIには時計がない

コーディング向けの LLM をどう選ぶべきか？注目すべきパラメータは何か？

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

AIはバブルになりつつあり、ドットコム崩壊のような結末を迎えるのか？

状態の外部化

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

私のAIには時計がない

コーディング向けの LLM をどう選ぶべきか？ 注目すべきパラメータは何か？

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

コーディング向けの LLM をどう選ぶべきか？注目すべきパラメータは何か？