予測モデル研究におけるコード共有:スコーピングレビュー

arXiv cs.AI / 2026/4/10

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • PubMed Centralのオープンアクセス予測モデル論文を対象としたスコーピングレビューの結果、コード共有に関する記載を含んでいたのはわずか12.2%であったが、2025年には15.8%へと増加していた。
  • コード共有は、TRIPOD単独を引用している研究よりも、TRIPOD+AIを引用している研究の方でより多く見られ、ジャーナルや国ごとのばらつきも大きかった。
  • 本研究では、LLM支援のパイプラインを用いてコード利用可能性に関する記載を抽出しリポジトリを評価したところ、再現性に関連する特徴には大きな異質性があることが明らかになった。
  • ほとんどのリポジトリにREADMEが含まれていた(80.5%)一方で、依存関係を明示していたのは37.6%、バージョンを制約していたのは21.6%、モジュール構造を用いていたのは42.4%にとどまり、再利用性が制限されていた。
  • 本結果は、「コード利用可能性」を超えて、文書化、依存関係、ライセンス、実行可能な構造に関する明確な期待値を求める報告ガイドライン拡張であるTRIPOD-Codeの開発を支援することを目的としている。

概要: 分析コードは診断および予後予測モデル研究を再現するために不可欠であるにもかかわらず、公開文献におけるコードの利用可能性は依然として限られている。TRIPODの声明は予測モデル手法の報告に関する標準を定めているが、リポジトリの構造および文書化に関する明示的な標準は定義していない。本レビューは、コード共有に関する現状の実践を定量化し、コード共有に焦点を当てたTRIPOD拡張の報告ガイドラインであるTRIPOD-Codeの開発に資することを目的とする。
2025年8月11日時点で、PubMedに索引された論文のうち、TRIPODまたはTRIPOD+AIを引用するものを対象にスコーピングレビューを実施し、PubMed CentralのオープンアクセスAPI経由で取得可能な研究に限定した。対象となる研究は、多変量予測モデルを開発・更新・検証していた。大規模言語モデル支援によるパイプラインを開発し、論文をスクリーニングして、コード利用可能性に関する記述およびリポジトリのリンクを抽出した。リポジトリは、同一のLLMを用いて、再現可能性に関連する14のあらかじめ定義した特徴に基づいて評価した。私たちのコードは公開している。
対象となった3,967本の論文のうち、12.2%がコード共有に関する記述を含んでいた。コード共有は時とともに増加し、2025年には15.8%に達した。また、TRIPOD+AIを引用する研究は、TRIPODを引用する研究よりもコード共有の割合が高かった。共有の頻度は、ジャーナルおよび国によって大きく異なっていた。リポジトリ評価では、再現可能性の特徴において実質的な異質性が示された。ほとんどのリポジトリにはREADMEファイルが含まれていた(80.5%)が、依存関係を指定しているものはより少なかった(37.6%;バージョン制約付き21.6%)か、モジュール構造を備えているものは42.4%であった。
予測モデル研究において、コード共有は依然として比較的まれであり、共有されていても再利用可能であることが多いとは限らない。これらの知見は、TRIPOD-Code拡張に関する実証的なベースラインを提供し、コード利用可能性だけにとどまらない、文書化、依存関係の指定、ライセンス、実行可能な構造を含む、より明確な期待の必要性を強調する。