StackFeat RL：安定したバイオマーカー探索のための反復デュアル基準フィーチャー選択における強化学習

arXiv cs.LG / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、REINFORCEの方策勾配を用いて反復型のデュアル基準フィーチャー選択アルゴリズムのハイパーパラメータを最適化するメタ学習フレームワーク「StackFeat-RL」を提案している。
デュアル基準は、係数の一貫性と選択頻度を組み合わせることで、単一基準手法では見落とされがちな失敗モードに対処しつつ、選択の安定性を高める。
反復の蓄積により大数の法則を通じた収束保証を与え、データの揺らぎに対してより信頼性の高いフィーチャー選択を目指している。
COVID-19のmiRNAデータおよび複数のアルツハイマー分類タスクで、StackFeat-RLはElasticNet、Boruta、mRMR、stability selectionなどのベースラインに対して最良の予測精度を示した。
さらに、選択する特徴量数を3〜4倍少なくしながら競争力のある性能を達成しており、よりコンパクトで解釈しやすいバイオマーカー探索に寄与しうる。

概要: 高次元のゲノムデータ（ $d gg n$ ）における特徴選択には、同時に高精度で、疎であり、かつ安定な手法が求められます。既存のアプローチは、手動による閾値指定を要するもの（mRMR、安定性選択）、データ摂動下で不安定な選択を生成するもの（Lasso、Boruta）、あるいは生物学的構造をまったく無視するもの、のいずれかです。本研究では、REINFORCEの方策勾配により、反復的な二重基準の特徴選択アルゴリズムのハイパーパラメータを最適化するメタ学習フレームワークStackFeat-RLを提案します。係数の一貫性と選択頻度の両方を必要とする二重基準は、単一基準の手法では見逃される2つの失敗モードを防ぎます。また、反復的な蓄積は、大数の法則により収束保証を与えます。
COVID-19のmiRNAデータ（GSE240888、332特徴量）および3つのアルツハイマー病分類タスク（GSE84422、13237遺伝子；Normal vs.\ Possible、Probable、そしてDefinite AD）において、StackFeat-RLは、ElasticNet、Boruta、mRMR、安定性選択を含む評価対象の全手法の中で最も高い予測精度を達成しつつ、必要な特徴量を3--4 $\times$ 少なくします。
キーワード: 特徴選択、強化学習、REINFORCE、エラスティックネット、バイオマーカー探索、アルツハイマー病、二重基準による選択、タンパク質相互作用ネットワーク