デジタルツインMDPに基づくエンタープライズAIエージェント改善のためのコンテキストエンジニアリング・フレームワーク

arXiv cs.AI / 2026/3/24

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、現実のデータやフィードバックが限られる状況において、オフライン強化学習を用いてLLMベースのエンタープライズAIエージェントを改善するための、軽量でモデル非依存のフレームワークDT-MDP-CEを提案する。
エージェントの推論行動を有限のMDPとして抽象化するために、デジタルツイン・マルコフ決定過程（DT-MDP）を導入し、環境との直接的な相互作用を必要とせずに報酬学習を可能にする。
信頼性の高い報酬関数を、品質が混在するオフライントラジェクトリから推定するための頑健な対照的逆強化学習（contrastive inverse RL）コンポーネントを、DT-MDPと組み合わせて用い、その後ポリシーを導出する。
本フレームワークは、学習済みポリシーを活用して、時間の経過とともにエージェントの意思決定行動を洗練していく、RLに導かれたコンテキストエンジニアリングを追加する。
エンタープライズIT自動化のケーススタディにおいて、実験結果は、複数の評価設定にわたってベースラインのエージェントに対して一貫して有意な改善を示し、本アプローチが同様のエンタープライズ・エージェントに一般化できる可能性を示唆する。

note

note

note

note

note