相対的重要度ランキングによる変数選択

arXiv stat.ML / 2026/4/14

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文では、従来は事後的なモデル説明に用いられてきた相対的重要度(RI)分析を、事前のワークフローとして特徴量/変数のランキングおよびフィルタベースの選択に転用する。
  • 著者らは、RI指標が周辺相関(marginal correlation)よりも優れた性能を発揮すべきだと主張しており、その根拠として、直接効果と結合(組み合わせ)効果の両方を捉えることで、変数間の依存関係を考慮できる点を挙げる。
  • 著者らは新しいRIメトリクスCRl.Zを導入し、従来のRI指標に比べて計算効率が向上することを示す。
  • 大規模なシミュレーションにより、RIに基づくランキングは特に抑制された予測子や弱い予測子の状況で周辺相関よりも正確であること、またRIで選択した変数を用いて学習したモデルがlasso/relaxed lassoに対して非常に競争力が高いことが示される。
  • 本手法は、相関の高い予測子がクラスタを形成するような難しい条件でも良好に機能し、2つの高次元遺伝子発現データセットで検証されている。併せてオープンソースのコードも提供されている。

要旨: 概念的には関連しているものの、変数選択と相対的重要度(RI)分析は、文献においてかなり異なる形で扱われてきました。RIは通常事後的なモデル説明に用いられますが、本論文では、モデル作成の前に、変数や特徴のランキング、ならびにフィルタベースの選択に対するその可能性を探ります。具体的には、RI指標は予測因子の直接効果と結合効果の両方を取り込むため、強い性能が得られると見込んでいます。これは、予測因子間の依存関係を無視してしまう周辺相関の重要な限界に対処するものです。私たちは、新たに提案するRI指標であるCR I.Zを含む、RIに基づく変数ランキングおよび選択手法を実装し、評価します。さらに、従来のRI指標に比べて計算効率が向上しています。
大規模なシミュレーションを通じて、まず、RI指標が周辺相関よりも、変数をより正確に順位付けできることを示します。特に、抑制された(suppressされた)変数や弱い予測因子がある場合に顕著です。次に、これらのランキングに基づいて構築された予測モデルが非常に競争力の高い性能を示し、しばしば、lasso や緩和 lasso といった最先端の線形モデル手法を上回ることを示します。提案するRIベースの手法は、とりわけ、強い相関を持つ予測因子のクラスターが関与する困難なケースにおいて効果的です。この設定は、多くのベンチマーク手法の失敗要因として知られています。RIベースの手法の実用的な有用性と効率は、さらに、高次元の遺伝子発現データセット2つを用いて実証します。lasso手法が変数選択に関する近年の文献を主導してきた一方で、本研究は、RIベースの手法が強力で競争力のある代替手段であることを明らかにします。私たちは、こうした十分に活用されてこなかったツールが、統計学および機械学習コミュニティでより大きな注目を集めるべきだと考えています。コードは以下で公開されています: https://github.com/tien-endotchang/RI-variable-selection.