AI Navigate

インサイトインサイト最新記事最新記事一覧 AI大全AI大全カオスマップAIカオスマップ

広告

CODA：オンポリシー・ディフュージョンによる協調（マルチエージェント・オフライン強化学習）

arXiv cs.LG / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

本論文は、オフラインのマルチエージェント強化学習（MARL）における協調失敗（静的なオフポリシーデータにより、最適でない共同行動へ収束しやすい問題）を抑えるための拡散ベースの手法CODAを提案する。
CODAは、訓練中の「現在の共同ポリシー」に条件付けて合成経験（軌跡）を生成し、静的なデータ拡張ではなくオンポリシー的な共同適応をより近く再現する。
この手法はアルゴリズムに依存せず、モデルフリー／モデルベースのオフラインRLパイプラインのいずれにもデータ拡張モジュールとして組み込める。
実験では、連続多項式ゲームにおける典型的な協調病理を解消するだけでなく、より複雑なMaMuJoCo連続制御ベンチマークでも強い結果を示す。
著者らは、従来の拡散によるデータ拡張がMARL協調に不十分なのは、訓練中に変化する共同ポリシーと歩調を合わせてデータが更新されないためだと指摘している。

関連記事

大手テック企業がAI投資と統合を加速、規制当局と企業は安全性と責任ある導入を重視

大手テック企業がAI投資と統合を加速、規制当局と企業は安全性と責任ある導入を重視

Dev.to

同じエージェントでもリスクは別：Microsoft 365 Copilotのグラウンディングがセキュリティモデルをどう変えるか｜Rahsi Framework™

同じエージェントでもリスクは別：Microsoft 365 Copilotのグラウンディングがセキュリティモデルをどう変えるか｜Rahsi Framework™

Dev.to

低コストAI推論のためのClaude Haiku活用：競馬予測システムから見えるパターン

低コストAI推論のためのClaude Haiku活用：競馬予測システムから見えるパターン

Dev.to

環境型AIによる臨床記録（ドキュメント）パイプラインをどう構築したか（医師の週8時間以上を削減）

環境型AIによる臨床記録（ドキュメント）パイプラインをどう構築したか（医師の週8時間以上を削減）

Dev.to

PicoClaw ディープダイブ：Goで超軽量AIエージェントを作るためのフィールドガイド

PicoClaw ディープダイブ：Goで超軽量AIエージェントを作るためのフィールドガイド

Dev.to

関連おすすめサービス

※当サイトはアフィリエイト広告を利用しています

Notta搭載AI議事録イヤホン ZENCHORD1

AI時代の仕事術。Notta搭載で会議の議事録を自動生成するスマートイヤホン。

AI搭載ボイスレコーダー Plaud

世界100万人が愛用。AIで文字起こし・要約を自動化するボイスレコーダー。

画像高画質化AIツール Aiarty Image Enhancer

AIで画像を高画質化。写真・イラストを簡単にアップスケール。

広告