AI Navigate

社会的バンディット学習における非専門家および多様なエージェントの専門知識を活用する:自由エネルギーアプローチ

arXiv cs.LG / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • パーソナライズされたAIベースのサービスには、個々の強化学習エージェントの集団が関与する。
  • 他者の専門知識を推定し、それらの情報をエージェント自身の経験と組み合わせるポリシー空間上の自由エネルギーベース手法を導入する。
  • 著者らは、アルゴリズムが最適なポリシーへ理論的に収束することを証明し、対数的な後悔を維持することを示している。
  • 実証的評価は、専門家と非専門家の両方を効果的に活用し、関連するピアを識別することで、他の代替手法よりも優れていることを示している。
  • 結果は、多様なエージェント間で堅牢な社会的学習を実現することで、パーソナライズされたAIサービスにとって顕著な利益を示唆している。
本文: arXiv:2603.11757v1 アナウンス種別: new アブストラクト: パーソナライズされたAIベースのサービスには、個々の強化学習エージェントの集団が関与する。しかし、多くの強化学習アルゴリズムは個々の学習を活用することに重点を置き、人間や動物に広く見られる社会的学習能力を活用できていない。社会的学習は、個々の経験と他者の行動を観察することを統合し、学習成果の改善機会を提供する。本研究では、社会的エージェントが他のエージェントの行動を観察するが、それらの報酬を知ることができないという社会的バンディット学習の状況に焦点を当てる。エージェントは互いに教え合う明示的な動機づけなしに、それぞれ独立して自身のポリシーを追求する。我々は、ポリシー空間上の自由エネルギーベースの社会的バンディット学習アルゴリズムを提案する。ここで社会エージェントは、いかなるオラクルや社会的規範にも頼らず、他者の専門性レベルを評価する。それに応じて、社会エージェントは環境での自身の直接的な経験と他者の推定ポリシーを統合する。本アルゴリズムが最適なポリシーへ収束するという理論的な収束性が証明されている。実証的評価は、さまざまな状況で、他のアプローチよりも我々の社会学習手法の優位性を検証している。我々のアルゴリズムは、ランダムまたはサブ最適なエージェントが存在する場合でも、関連するエージェントを戦略的に特定し、それらの行動情報を巧みに活用する。専門家エージェントを含む社会に加え、関連はあるが非専門のエージェントが存在する場合には、我々のアルゴリズムは個々の学習性能を著しく高め、関連手法の多くがこの状況で失敗する。さらに、対数的後悔を維持する点も重要である。