強化学習による動的トークン化（Reinforcement Patching）: エンドツーエンド学習とゼロショット転移

arXiv cs.AI / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、長いホライズンの系列データ（特に連続時間の時系列）に対して、データ適応的な可変サイズのパッチ境界をエンドツーエンドで学習する枠組み「Reinforcement Patching（ReinPatch）」を提案する。
ReinPatchでは、パッチ配置を離散的な意思決定過程として定式化し、Group Relative Policy Gradient（GRPG）による強化学習で最適化することで、ソフトな離散化、連続緩和、そしてヒューリスティックな境界ルールを回避する。
本手法は、目標の圧縮率を厳密に制御しつつ、下流のバックボーンを効率的にスケールさせることができ、さらに多段階の階層モデリングもサポートする。
時系列予測データセットでの実験により、ReinPatchが最先端のデータ駆動型パッチング戦略を上回ることが示される。
パッチングモジュールをスタンドアロンの基盤パッチャーとして切り離せるため、著者らは、性能駆動型モデルが系列をどのようにセグメント化するかについて、解釈可能な視覚的および経験的な洞察が得られると主張している。

要旨: 空間的または時間的なホライズンを効率的に集約してコンパクトな表現を獲得することは、現代の深層学習モデルにおける統一的な原理となってきました。しかし、長いホライズンをもつ系列データ、特に時系列のような連続的な系列に対してデータ適応的な表現を学習することは、依然として未解決の課題です。固定サイズのパッチ化はスケーラビリティと性能を改善してきましたが、可変サイズでデータに駆動されたパッチをエンドツーエンドで発見しようとすると、しばしばソフトな離散化、特定のバックボーン、またはヒューリスティックなルールにモデルが依存せざるを得なくなります。本研究では、強化学習を用いて系列のパッチ化方策と、その下流の系列バックボーンモデルを共同で最適化する最初の枠組みである Reinforcement Patching（ReinPatch）を提案します。パッチ境界の配置を、Group Relative Policy Gradient（GRPG）により最適化される離散的な意思決定プロセスとして定式化することで、ReinPatchは連続緩和の必要性を回避し、自然な形で動的パッチ化方策の最適化を実行します。さらに本手法は、所望の圧縮率を厳密に制約して強制できるため、下流のバックボーンが効率的にスケールすることを可能にし、自然にマルチレベルの階層モデリングにも対応します。ReinPatchを時系列予測データセットで評価したところ、最先端のデータ駆動型パッチ化戦略と比較して説得力のある性能が示されました。加えて、本手法の切り離し可能な設計により、パッチ化モジュールをスタンドアロンの基盤パッチャとして抽出でき、純粋に性能駆動なニューラル・パッチ化戦略が好むセグメンテーション挙動について、コミュニティに視覚的および実証的な洞察を提供します。