要旨: 酵素アノテーションにおける重要な課題は、タンパク質によって触媒される生化学反応を特定することです。多くの既存の手法は、酵素分類委員会(EC)番号を中間に依存しています。まずEC番号を予測し、次に関連する反応を取得します。この間接的な戦略は、タンパク質、EC番号、反応の間の複雑な多対多の対応関係に起因する曖昧さを生み出し、EC番号の頻繁な更新やデータベース間の不一致によってさらに複雑になります。これらの課題に対処するため、EC番号に依存せず、酵素触媒反応を直接予測するトランスフォーマーベースのアンサンブルフレームワーク RXNRECer を提案します。これにより高レベルの配列意味論と高精度の変換パターンの両方を捉えるために、タンパク質言語モデリングとアクティブラーニングを統合します。キュレーション済みのクロスバリデーションおよび時系列テストセットでの評価は、6つのECベースのベースラインに対して一貫した改善を示し、F1スコアで16.54%、精度で15.43%の向上を示しました。精度の向上を越えて、このフレームワークは下流の応用に対して明確な利点を提供します。例として、スケーラブルなプロテオーム全体の反応注釈、一般的な反応スキーマの洗練における特異性の向上、以前は未整備だったタンパク質の体系的注釈、酵素の基質特異性の幅広さの信頼性ある同定などです。大規模言語モデルを組み込むことにより、予測に対する解釈可能な根拠も提供します。これらの機能は、ECなしでの細かな酵素機能予測に対する堅牢で多用途な解決策として RXNRECer を位置づけ、酵素研究および産業応用の複数分野にわたる潜在的な応用を可能にします。
返却形式: {"translated": "翻訳されたHTML"}


![[ニューラルネットワーク] 今こそ起源を見つめる時 Ep.5 (最終話) 〜情熱の連鎖が明日を照らす〜](/_next/image?url=https%3A%2F%2Fassets.st-note.com%2Fproduction%2Fuploads%2Fimages%2F260885500%2Frectangle_large_type_2_f8df7c72d21f86c39d4096dd995f50d1.png%3Fwidth%3D219%26dpr%3D2%26frame%3D1%26format%3Djpg&w=3840&q=75)
