PLS-DAのハイパーパラメータ調整（R）に関する質問

Reddit r/MachineLearning / 2026/5/6

💬 オピニオンIdeas & Deep AnalysisTools & Practical Usage

共有:

要点

著者は、RでのスパースPLS-DAにおいて、centroids.distを使って2つの潜在成分でチューニングした結果、成分数を増やせば誤り率が下がるはずという期待に反して性能（誤差指標）が悪化している理由を疑問に思っています。
まず非スパースの「グローバル」PLS-DAモデルを作ってデータの傾向を把握し、2成分を選ぶなどの初期方針を立てた上で、スパース性を適用して最終モデルを実行したと説明しています。
しかし、スパースな最終モデルの評価結果が直感と一致せず、コンポーネント数と特徴量選択、分類誤差の関係が理解しづらいと述べています。
著者は「2条件を最もよく区別する特徴だけを選んでいるはずなので、誤差が減るはず」と考えているため、何が原因になり得るかについて助言を求めています。
全体として、バイオインフォマティクス用途でのスパースPLS-DAのハイパーパラメータ調整や性能評価の解釈・デバッグに関する質問です。

みなさんこんにちは！私はバイオインフォマティシャンで、疾患／バイオマーカー関連のためにいくつかのMLツールを学んでいます。現在、スパースPLS-DAを扱っています。実際にモデルをチューニングする前に、（スパースなしで）全体のグローバルモデルを一度実行して、データがどんなものかを把握し、出発点を作るようにしています。こちらが、そのグローバルモデルが最終的にどう見えるかというものです：

グローバルモデル

これを見ると、モデルのチューニングでは潜在成分を2つ含めるべきだと判断し、centroids.dist を使うことにしました。そこで、2つのコンポーネントでモデルをチューニングすると、各コンポーネントで保持する特徴量の数が得られ、その後で最終モデルを実行します。ですが、最終モデルでパフォーマンス評価をすると、結果はこうなります：

最終モデル（スパース）

混乱しています。オンラインで読んだ内容や、自分のデータからすると、コンポーネントを追加すればエラー率は下がるはずです。さらに、私がやるべきこととして、2つの状態を最もよく区別する特徴量だけを選んでいるはずなので、やはりエラー率が下がって見えるべきだと思っています。

どなたか、ここで私が見ているものの意味と、考えられる原因について理解を助けてもらえませんか？私はまだこれらがどのように動くのか学習中なので、何らかのガイダンスがありがたいです。ありがとうございます！

submitted by /u/dacherrr
[リンク] [コメント]