CrossTrace：仮説生成のための根拠付き科学的推論トレースを収録した領域横断データセット

arXiv cs.CL / 2026/4/1

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

CrossTraceは、仮説生成のための根拠付き科学的推論トレース1,389件を含む、領域横断データセットとして紹介される。対象領域は生物医学研究、AI/ML、および領域横断の取り組みを含む。
各推論トレースは、Input/Trace/Outputのスキーマに従い、HypoGenで用いられているBit-Flip-Sparkフレームワークを拡張して、出典論文テキストに対するステップ単位の根拠付けを行う。
データセットは8つの発見パターンを定義し、複数領域にまたがるカバレッジを含むことで、領域を越えた仮説生成モデルの評価および訓練を支援する。
QLoRAを用いてCrossTrace上でQwen2.5-7B-Instructを微調整すると、未調整のベースラインに比べて、判断スコア、構造的遵守性、および類似度指標で大きな改善が得られる。さらに、バランスのとれた領域横断訓練により追加の向上も確認される。
150件をサンプリングした記録に対する人手による検証では、ステップ単位の根拠付け精度が99.7%、捏造率が0.0%と報告されており、データセットが掲げる領域一般的な学習価値の主張を裏付ける。

Abstract

科学的仮説生成は研究を加速するうえで重要なボトルネックですが、仮説生成モデルの学習・評価に用いられる既存データセットは単一ドメインに限定されているうえ、既存の知識から新たな貢献へとつながる明示的な推論トレースが欠けています。私は、バイオメディカル研究（518）、AI/ML（605）、および領域横断の取り組み（266）にまたがる、1,389件の根拠付き科学的推論トレースからなるデータセットCrossTraceを導入します。各トレースは、確立された知識から中間の論理ステップを経て新しい仮説へ至る、構造化された推論の連鎖を捉えており、すべてのステップが元論文本文の記述に基づいています。私は、仮説生成のためのHypoGenにおけるBit-Flip-Sparkフレームワークを拡張し、ステップレベルの検証、8つの発見パターンの分類法、多ドメイン対応を含むInput/Trace/Outputスキーマを定義します。QLoRAを用いてCrossTrace上でQwen2.5-7B-Instructを微調整すると、未微調整のベースラインに比べて大幅な改善が得られます。IAScoreは0.828から0.968へ（GPT-4o判定）、また0.716から0.888へ（Claude Opus 4.5）上昇し、構造適合性は0%から100%へ改善し、sparkのコサイン類似度は0.221から0.620へ増加します。バランスの取れたクロスドメイン学習（バイオメディカル + AI/ML + CS）は、単一ドメイン学習を上回り、科学的推論パターンが分野を越えて転移することの証拠を示します。層化した150件の記録に対する人手による検証により、ステップレベルの根拠付け精度は99.7%、捏造率は0.0%であることが確認されました。私の知る限り、CrossTraceは仮説生成のためのステップレベルで根拠付けされた推論トレースを備えた、初の大規模なクロスドメイン・データセットです。さらに、私の結果は、このようなトレースが効果的な学習信号であり、その利点が少なくとも一部はドメイン汎用的であることを示しています。