私の先生が、機械学習の時系列分類問題を課してくれました。
最初は普通に解いてみて、公開スコアが0.85でした。ところが、その後コンペで使われていたデータセットを調べて見つけることができました。すると、そのデータセットを使って、スコアが1.00になる提出ファイルを生成できました。
そこで質問です:
見つけた外部データセットに頼らず、提供されている学習(train)データとテスト(test)データだけを使って、提出ファイルを再現することは可能でしょうか?
言い換えると、元のtrain/testファイルだけを使って、同じ提出結果(ID → ラベルの対応)を生成する方法を学習したり逆算したりするやり方があるのかを理解したいです。提出を「逆エンジニアリング」するのが正しい用語かは自信がありませんが、外部データではなく機械学習によって、適切に同じ結果を得る方法を見つけたいです。
また、私が作った提出については、私がアクセスできていたのはIDとラベルだけではなく、特徴量の全セットだったことを明確にしておきたいです。つまり、サブファイルの他の特徴も含まれていました
どなたか助けや指針をいただけると、本当にありがたいです。必要であれば、1.00スコアを達成したtrain/testファイルや提出ファイルを共有できます。
よろしくお願いします!
[link] [comments]




