annbatchはanndata上でテラバイト規模の生物データ学習を可能にする

arXiv cs.LG / 2026/4/3

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

annbatchは、anndata上で動くディスク常駐（out-of-core）対応のミニバッチローダとして設計され、生物データの学習で支配的になっている「データアクセス」をボトルネック解消することを狙っている。
多様なメタデータや密/疎アッセイを含むコミュニティ標準の生物データ形式に対し、scverseエコシステムとの完全互換性を保ったままトレーニングできる点が特徴とされる。
単一細胞トランスクリプトミクス、顕微鏡、WGSのベンチマークで、データローディングスループットが最大で1桁向上し、学習時間が「日→時間」へ短縮されたと報告されている。
本成果は、巨大化・多様化する生物データを、標準フォーマットを捨てずにスケールさせるための実用的なデータ・ローディング基盤（infrastructure）を提供するものとして位置づけられている。