UFC予測のためのML:ロジスティック回帰 vs ランダムフォレスト?

Reddit r/MachineLearning / 2026/5/13

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 投稿者は、Python(pandas + scikit-learn)でUFCの試合予測プロジェクトを作っており、二値の勝敗(Aが勝つ/ Bが勝つ)にロジスティック回帰を使っている。
  • ストライキング精度、テイクダウンの平均、リーチ、身長、年齢といった過去データ由来の特徴から勝率(確率)を予測し、パーレイにも活用しようとしている。
  • しかしモデルが「予測確率が最も高い選手を積み上げる」傾向が見られ、純粋な確率と賭けの期待値(EV)の関係が問題になりそうだと感じている。
  • MMAデータが非線形で、年齢はある閾値を超えて初めて効きやすいことや、テイクダウン指標は相手のスタイル次第で重要度が変わるなど、特徴同士の相互作用が大きい点を踏まえ、ツリーベースのモデルが向いているのではと考えている。
  • そのため、ロジスティック回帰からランダムフォレスト(または別の木ベース手法)へ切り替えることで相互作用をより捉えられるか、まだ理解しきれていない部分も含めてアドバイスを求めている。

みなさんこんにちは。ML関連のことにはかなり新参なので、気長に見守ってください。

私は現在、Pythonでpandas + scikit-learnを使ってUFCの試合予測プロジェクトに取り組んでいます。いまは出力が二値(ファイターAが勝つか、ファイターBが勝つか)なので、ロジスティック回帰を使っています。いまは過去のUFCデータから、打撃の命中率、テイクダウンの平均、リーチ、身長、年齢といった特徴量を使い、試合やパー レー(複数試合の連結)に対する予測確率を算出しています。このプロジェクトをラウンドロビン賭博の支援にまで発展させたいと考えています。

気づいたことの一つとして、モデルは単純に確率が最も高いファイターを積み上げる(選ぶ)ことを好む傾向があるようで、そこから「生の確率」と「実際のベッティング価値/EV(期待値)」の違いについて考え始めました。さらに、MMAの統計は非常に非線形であることもすでに知っていました。たとえば、年齢はある一定の閾値まではほとんど影響しないかもしれませんし、テイクダウンの統計は対戦相手のスタイル次第で、はるかに重要になる可能性があります。そして、特定の特性の組み合わせのほうが、個々の統計単体よりも重要に見える場合があります。

そのため、そうした相互作用(インタラクション)を捉えるのに、ロジスティック回帰よりもランダムフォレスト(あるいは別の木ベースのモデル)のほうが適しているのではないかと考えています。とはいえ、私はまだランダムフォレストがどのように動くのかを完全に理解できていないので、これは当てはまらないかもしれません? いずれにせよ、このプロジェクトを楽しむために取り組んでいるだけなので、誰かからの意見が本当にありがたいです。

投稿者 /u/xoVinny-
[link] [comments]