| みなさんこんにちは!私はバイオインフォマティシャンで、疾患/バイオマーカー関連のためにいくつかのMLツールを学んでいます。現在、スパースPLS-DAを扱っています。実際にモデルをチューニングする前に、(スパースなしで)全体のグローバルモデルを一度実行して、データがどんなものかを把握し、出発点を作るようにしています。こちらが、そのグローバルモデルが最終的にどう見えるかというものです: これを見ると、モデルのチューニングでは潜在成分を2つ含めるべきだと判断し、centroids.dist を使うことにしました。そこで、2つのコンポーネントでモデルをチューニングすると、各コンポーネントで保持する特徴量の数が得られ、その後で最終モデルを実行します。ですが、最終モデルでパフォーマンス評価をすると、結果はこうなります: 混乱しています。オンラインで読んだ内容や、自分のデータからすると、コンポーネントを追加すればエラー率は下がるはずです。さらに、私がやるべきこととして、2つの状態を最もよく区別する特徴量だけを選んでいるはずなので、やはりエラー率が下がって見えるべきだと思っています。 どなたか、ここで私が見ているものの意味と、考えられる原因について理解を助けてもらえませんか?私はまだこれらがどのように動くのか学習中なので、何らかのガイダンスがありがたいです。ありがとうございます! [リンク] [コメント] |
PLS-DAのハイパーパラメータ調整(R)に関する質問
Reddit r/MachineLearning / 2026/5/6
💬 オピニオンIdeas & Deep AnalysisTools & Practical Usage
要点
- 著者は、RでのスパースPLS-DAにおいて、centroids.distを使って2つの潜在成分でチューニングした結果、成分数を増やせば誤り率が下がるはずという期待に反して性能(誤差指標)が悪化している理由を疑問に思っています。
- まず非スパースの「グローバル」PLS-DAモデルを作ってデータの傾向を把握し、2成分を選ぶなどの初期方針を立てた上で、スパース性を適用して最終モデルを実行したと説明しています。
- しかし、スパースな最終モデルの評価結果が直感と一致せず、コンポーネント数と特徴量選択、分類誤差の関係が理解しづらいと述べています。
- 著者は「2条件を最もよく区別する特徴だけを選んでいるはずなので、誤差が減るはず」と考えているため、何が原因になり得るかについて助言を求めています。
- 全体として、バイオインフォマティクス用途でのスパースPLS-DAのハイパーパラメータ調整や性能評価の解釈・デバッグに関する質問です。




