要旨: 大規模言語モデル(LLM)の最近の進歩により、物性予測のための分子推論が可能になりました。しかし、毒性は化学構造のみにとどまらない複雑な生物学的メカニズムから生じるため、信頼できる予測のためには機序に基づく推論が必要です。重要であるにもかかわらず、現在のベンチマークではこの能力を体系的に評価できていません。LLMは流暢ではあるものの生物学的には不忠実な説明を生成し得るため、予測された毒性が妥当なメカニズムに基づいているかどうかを評価するのが困難です。そこでこのギャップを埋めるために、複数の臓器にわたる臓器レベルの毒性推論を評価する、Adverse Outcome Pathway(AOP)に基づいたベンチマーク ToxReason を提案します。ToxReason は、実験に基づく薬剤-標的相互作用の証拠と毒性ラベルを統合し、モデルに対して Molecular Initiating Event(MIE)から Adverse Outcome(AO)までの分子レベルの開始事象から毒性結果とその背後にあるメカニズムの両方を推論させます。ToxReason を用いて、さまざまなLLMにおける毒性予測の性能と推論の質を評価します。その結果、強い予測性能が必ずしも信頼できる推論を意味しないことを見出しました。さらに、推論を意識した学習は機序に基づく推論を改善し、その結果として毒性予測性能も向上させることを示します。これらの結果は、信頼できる毒性モデリングのために、評価と学習の両方に推論を統合する必要性を強調するものです。
ToxReason:有害転帰経路(Adverse Outcome Pathway)に基づくメカニスティックな化学的毒性推論のためのベンチマーク
arXiv cs.AI / 2026/4/10
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、有害転帰経路(AOP)に基づく、化学構造の相関だけに依存しないメカニスティックな化学的毒性推論を評価するための新しいベンチマーク「ToxReason」を紹介する。
- モデルが、分子開始事象(Molecular Initiating Event: MIE)から有害転帰(Adverse Outcome: AO)までを、薬物—標的相互作用の証拠と毒性ラベルを用いて推論し、臓器レベルの毒性結果とその根底にあるメカニズムを推定できるかを検証する。
- 著者らは、毒性予測の精度が高い場合でも、生物学的に忠実でない、あるいは信頼できない説明と両立し得ることを示し、現在のベンチマーク評価におけるギャップを明らかにする。
- 複数のLLMにまたがる実験により、推論を考慮した学習(reasoning-aware training)が、メカニスティックな推論の質と毒性予測性能の両方を改善することが示される。
- 全体として本研究は、信頼できる毒性モデリングには、予測スコアを測るだけでなく、評価と学習の両方に推論を組み込むことが必要だと主張している。



