要約: 細胞内局在は、薬物標的の同定と機能注釈において重要な生物学的課題です。細胞内局在がタンパク質構造と密接に関連していることは生物学的に実証されていますが、詳細な細胞内局在注釈を含む総合的な3D構造情報を提供するデータセットは現存せず、その結果、有望な構造ベースのモデルをこの課題へ適用することを著しく妨げています。このギャップを埋めるべく、\mathbf{CAPSUL}、\mathbf{C}omprehensive hum\mathbf{A}n \mathbf{P}rotein benchmark for \mathbf{SU}bcellular \mathbf{L}ocalization を紹介します。専門家によって綿密に厳選された、さまざまな3D構造表現と細粒度の細胞内局在注釈を統合したデータセットを特徴とします。私たちはこのベンチマークを、最先端のシーケンスベースおよび構造ベースモデルを用いて評価し、この課題における構造的特徴の関与の重要性を示します。さらに、この課題の構造ベース手法の今後の調査を促進するために、再重み付けと単一ラベル分類戦略を検討します。最後に、ゴルジ体を対象としたケーススタディを通じて、構造ベースの手法の強力な解釈可能性を示し、注意機構から決定的な局在パターン \alpha-helix を発見し、直感的な生物学的解釈性とのギャップを埋める可能性を示し、データ駆動の細胞生物学的発見への道を切り開きます。
CAPSUL: 細胞内局在のためのヒトタンパク質総合ベンチマーク
arXiv cs.AI / 2026/3/20
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- CAPSUL は、専門家が厳密にキュレーションした細かな注釈と、多様な3D構造表現を統合した、細胞内局在のための総合的なヒトタンパク質ベンチマークとして紹介されている。
- このベンチマークは、シーケンスベースと構造ベースの両方のモデルの評価を可能にし、正確な局在のためには構造的特徴の重要性を強調します。
- 構造ベースの手法を進化させるための再重み付け戦略と単一ラベル分類アプローチを検討し、アテンション機構によって解釈可能な局在パターンを示すゴルジ体に焦点を当てたケーススタディを含みます。
- 構造ベースのAIと生物学的解釈可能性を結びつけることにより、CAPSUL は細胞生物学のデータ駆動型発見を加速することを目指します。




