「これ本当に助けてください」— 学習用・評価用データだけでコンペ提出を再現できるか？（時系列分類）

Reddit r/MachineLearning / 2026/4/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

ある学生は、時系列の分類課題で最初に公開スコア0.85を出し、さらにコンペで使われたデータセットを外部から見つけて用いた結果、満点の1.00を達成したと述べています。
彼らは、外部で見つけたデータセットに頼らず、提供されたtrain/testデータだけで同じ提出結果（ID→ラベルの対応）を再現できるのかを質問しています。
「提出を逆算する」といったことが正しい用語かは分からないものの、元のファイルから厳密に同等の出力を得る方法を、機械学習の手法として理解したいと考えています。
成功した提出では、IDやラベルだけでなく他の特徴量（フルの特徴量セット）にもアクセスできていたことを補足しています。
要するに、この提出結果を与えられた分割データだけから作れるかどうか、再現性やデータリークの可能性、手法面の検討を求める相談です。

私の先生が、機械学習の時系列分類問題を課してくれました。

最初は普通に解いてみて、公開スコアが0.85でした。ところが、その後コンペで使われていたデータセットを調べて見つけることができました。すると、そのデータセットを使って、スコアが1.00になる提出ファイルを生成できました。

そこで質問です：

見つけた外部データセットに頼らず、提供されている学習(train)データとテスト(test)データだけを使って、提出ファイルを再現することは可能でしょうか？

言い換えると、元のtrain/testファイルだけを使って、同じ提出結果（ID → ラベルの対応）を生成する方法を学習したり逆算したりするやり方があるのかを理解したいです。提出を「逆エンジニアリング」するのが正しい用語かは自信がありませんが、外部データではなく機械学習によって、適切に同じ結果を得る方法を見つけたいです。

また、私が作った提出については、私がアクセスできていたのはIDとラベルだけではなく、特徴量の全セットだったことを明確にしておきたいです。つまり、サブファイルの他の特徴も含まれていました

どなたか助けや指針をいただけると、本当にありがたいです。必要であれば、1.00スコアを達成したtrain/testファイルや提出ファイルを共有できます。

よろしくお願いします！

投稿者 /u/Djistino
[link] [comments]