正則化された潜在ダイナミクス予測は、行動基盤モデルの強力なベースラインとなる

arXiv cs.AI / 2026/3/18

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

正則化された潜在ダイナミクス予測（RLDP）は、潜在状態特徴に直交性正則化を追加し、多様性を維持し、崩壊を防ぐ。
このアプローチは、ゼロショット強化学習における複雑な表現学習の目的と同等、またはそれを上回ることができる、単純で競争力のあるベースラインを目指している。
既存の手法が苦戦する低カバレッジデータの状況で高い性能を示すなど、堅牢性を示す。
本研究は RLDP を行動基盤モデル（Behavioral Foundation Models、BFMs）にとって強力なベースラインとして位置づけ、BFMs のための広範な表現学習の必要性を低減する可能性がある。

要旨: Behavioral Foundation Models (BFMs) は、未知の報酬やタスクに適応する能力を持つエージェントを生み出します。これらの方法は、しかし、既存の状態特徴のスパンにある報酬関数に対してのみほぼ最適な方策を生み出すことができるため、状態特徴の選択がBFMの表現力にとって極めて重要となります。結果として、BFMsはさまざまな複雑な目的を用いて訓練され、タスクに有用なスパン特徴を学習するには十分なデータセットのカバレッジを必要とします。本研究では、ゼロショットRLに対してこれらの複雑な表現学習の目的が本当に必要なのかという問いを検討します。具体的には、状態特徴学習のための潜在空間における自己教師付き次状態予測の目的を再検討しますが、そのような目的だけでは状態特徴の類似性を高め、結果としてスパンを縮小させる傾向があることを観察します。我々は、特徴の多様性を維持するための単純な直交正則化を追加するRegularized Latent Dynamics Prediction (RLDP) というアプローチを提案します。これにより、ゼロショットRLにおいて最先端の複雑な表現学習手法に匹敵するか、またはそれを上回ることができます。さらに、従来のアプローチは低カバレッジの状況で性能が低いことを経験的に示しており、RLDPはそれでも成功します。

AIが普及した今こそ、個人の実体験をnoteで売るべき理由

note

AI時代の子供と顧客への教育！生き残るための3つの必須スキル

note

『AIと精神疾患･教育現場』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾捌

note

臨床家がAIをスーパーバイザーにする沢山の理由─人間による93%の暴力から身を守る方法

note

いろんなモデル（GPT・Grok・Claude・Gemini）にSVGコードで絵を描いてもらったらびっくり！個性が見えました🩷プロンプト付き

note

正則化された潜在ダイナミクス予測は、行動基盤モデルの強力なベースラインとなる

要点

関連記事

AIが普及した今こそ、個人の実体験をnoteで売るべき理由

AI時代の子供と顧客への教育！生き残るための3つの必須スキル

『AIと精神疾患･教育現場』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾捌

臨床家がAIをスーパーバイザーにする沢山の理由─人間による93%の暴力から身を守る方法

いろんなモデル（GPT・Grok・Claude・Gemini）にSVGコードで絵を描いてもらったらびっくり！個性が見えました🩷プロンプト付き

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

AIが普及した今こそ、個人の実体験をnoteで売るべき理由

AI時代の子供と顧客への教育！生き残るための3つの必須スキル

『AIと精神疾患･教育現場』諸葛亮 孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話 その肆拾捌

臨床家がAIをスーパーバイザーにする沢山の理由─人間による93%の暴力から身を守る方法

いろんなモデル（GPT・Grok・Claude・Gemini）にSVGコードで絵を描いてもらったらびっくり！個性が見えました🩷プロンプト付き

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

『AIと精神疾患･教育現場』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾捌