みなさんこんにちは。ML関連のことにはかなり新参なので、気長に見守ってください。
私は現在、Pythonでpandas + scikit-learnを使ってUFCの試合予測プロジェクトに取り組んでいます。いまは出力が二値(ファイターAが勝つか、ファイターBが勝つか)なので、ロジスティック回帰を使っています。いまは過去のUFCデータから、打撃の命中率、テイクダウンの平均、リーチ、身長、年齢といった特徴量を使い、試合やパー レー(複数試合の連結)に対する予測確率を算出しています。このプロジェクトをラウンドロビン賭博の支援にまで発展させたいと考えています。
気づいたことの一つとして、モデルは単純に確率が最も高いファイターを積み上げる(選ぶ)ことを好む傾向があるようで、そこから「生の確率」と「実際のベッティング価値/EV(期待値)」の違いについて考え始めました。さらに、MMAの統計は非常に非線形であることもすでに知っていました。たとえば、年齢はある一定の閾値まではほとんど影響しないかもしれませんし、テイクダウンの統計は対戦相手のスタイル次第で、はるかに重要になる可能性があります。そして、特定の特性の組み合わせのほうが、個々の統計単体よりも重要に見える場合があります。
そのため、そうした相互作用(インタラクション)を捉えるのに、ロジスティック回帰よりもランダムフォレスト(あるいは別の木ベースのモデル)のほうが適しているのではないかと考えています。とはいえ、私はまだランダムフォレストがどのように動くのかを完全に理解できていないので、これは当てはまらないかもしれません? いずれにせよ、このプロジェクトを楽しむために取り組んでいるだけなので、誰かからの意見が本当にありがたいです。
[link] [comments]


