AI Navigate

RXNRECerは活性学習とタンパク質言語モデルを用いて、細粒度の酵素機能注釈を実現する

arXiv cs.LG / 2026/3/16

📰 ニュースModels & Research

要点

  • 本論文はRXNRECerを紹介する。RXNRECerはEC番号に依存しない酵素触媒反応を直接予測するトランスフォーマー型アンサンブルであり、ECマッピングに起因する曖昧さを解消する。
  • 本研究はタンパク質言語モデルと活性学習を組み合わせ、シーケンスの高レベルの意味論と細粒度の変換パターンの両方を捉える。
  • キュレーション済みのクロスバリデーションおよび時系列テストセットに基づく評価において、RXNRECerはEC番号に基づく6つのベースラインを16.54%のF1スコア向上、15.43%の精度向上を示し、プロテオーム全体の反応注釈をスケーラブルに可能にする。
  • このフレームワークは大規模言語モデルを介して解釈可能な予測根拠を提供し、酵素研究および産業界の文脈で広範な潜在的応用がある。

要旨: 酵素アノテーションにおける重要な課題は、タンパク質によって触媒される生化学反応を特定することです。多くの既存の手法は、酵素分類委員会(EC)番号を中間に依存しています。まずEC番号を予測し、次に関連する反応を取得します。この間接的な戦略は、タンパク質、EC番号、反応の間の複雑な多対多の対応関係に起因する曖昧さを生み出し、EC番号の頻繁な更新やデータベース間の不一致によってさらに複雑になります。これらの課題に対処するため、EC番号に依存せず、酵素触媒反応を直接予測するトランスフォーマーベースのアンサンブルフレームワーク RXNRECer を提案します。これにより高レベルの配列意味論と高精度の変換パターンの両方を捉えるために、タンパク質言語モデリングとアクティブラーニングを統合します。キュレーション済みのクロスバリデーションおよび時系列テストセットでの評価は、6つのECベースのベースラインに対して一貫した改善を示し、F1スコアで16.54%、精度で15.43%の向上を示しました。精度の向上を越えて、このフレームワークは下流の応用に対して明確な利点を提供します。例として、スケーラブルなプロテオーム全体の反応注釈、一般的な反応スキーマの洗練における特異性の向上、以前は未整備だったタンパク質の体系的注釈、酵素の基質特異性の幅広さの信頼性ある同定などです。大規模言語モデルを組み込むことにより、予測に対する解釈可能な根拠も提供します。これらの機能は、ECなしでの細かな酵素機能予測に対する堅牢で多用途な解決策として RXNRECer を位置づけ、酵素研究および産業応用の複数分野にわたる潜在的な応用を可能にします。

返却形式: {"translated": "翻訳されたHTML"}