要旨: 起業家のキャリアデータからスタートアップの成功を予測するのは難しい。信号は弱く、ラベルは稀で(9%)、成功するほとんどの創業者は失敗する創業者とほぼ同じに見える。私たちは、raw JSON のフィールド -- jobs、education、exits -- から直接 28 の構造化特徴量を設計し、それらを決定論的ルール層と XGBoost による boosted stumps(強化された弱学習木)と組み合わせる。提案モデルは Val F0.5 = 0.3030、Precision = 0.3333、Recall = 0.2222 を達成し、ゼロショット LLM ベースラインに対して +17.7pp の改善となる。次に、制御された実験を行う。Claude Haiku を用いて prose フィールドから 9 つの特徴量を抽出し、データセット被覆率を 67% と 100% に設定する。LLM の特徴量はモデル重要度の 26.4% を捉えるが、CV の信号はゼロである(delta = -0.05pp)。理由は構造的なものだ。anonymised_prose は、私たちが直接パースするのと同じ JSON フィールドから生成されるためであり、より豊かな情報源ではなく、損失のある再符号化(lossy re-encoding)に過ぎない。上限(CV ~= 0.25、Val ~= 0.30)は、モデル化の限界ではなく、このデータセットが含む情報量を反映している。信号がどこで尽き、なぜ尽きるのかを特徴づけることで、本研究はベンチマーク診断として機能し、より豊かなデータセットに含めるべき要素を直接示す。
キャリアデータが尽きるとき:共同創業者の成功予測のための構造化特徴量エンジニアリングとシグナル限界
arXiv cs.LG / 2026/4/2
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、限られ弱いキャリアデータのシグナルを用いた共同創業者(ファウダー)成功予測を研究し、ラベルが希少(9%)であり、成功したファウダーと失敗したファウダーが非常に見分けにくい場合がある点を指摘している。
- 28個の構造化されたJSON由来特徴量(例:職歴、学歴、エグジット)を構築し、決定論的なルール層とXGBoostでブーストしたスタンプを組み合わせることで、ゼロショットのLLMベースライン(Val F0.5 = 0.3030)を上回る性能を示す。
- 制御された実験では、散文フィールドからLLM(Claude Haiku)により抽出した特徴量を、データセット被覆率67%と100%の条件で比較し、これらのLLM特徴量がモデルの重要性をある程度は捉える一方、クロスバリデーション上のシグナルは追加しないことを明らかにしている(delta = -0.05pp)。
- 著者らは、効果が得られない理由を構造情報の損失にあるとし、匿名化された散文は同じJSONフィールドのロッシー(可逆でない)な再符号化であるため、本質的に新しいシグナルを導入しない、と説明している。
- 観測された性能の頭打ち(CV ≈ 0.25、Val ≈ 0.30)は、モデルの不適切さではなくデータセットの情報量を反映していると結論づけ、今後のより豊富なデータセットが満たすべき要件を診断するベンチマークとして位置づけている。



