annbatchはanndata上でテラバイト規模の生物データ学習を可能にする
arXiv cs.LG / 2026/4/3
📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- annbatchは、anndata上で動くディスク常駐(out-of-core)対応のミニバッチローダとして設計され、生物データの学習で支配的になっている「データアクセス」をボトルネック解消することを狙っている。
- 多様なメタデータや密/疎アッセイを含むコミュニティ標準の生物データ形式に対し、scverseエコシステムとの完全互換性を保ったままトレーニングできる点が特徴とされる。
- 単一細胞トランスクリプトミクス、顕微鏡、WGSのベンチマークで、データローディングスループットが最大で1桁向上し、学習時間が「日→時間」へ短縮されたと報告されている。
- 本成果は、巨大化・多様化する生物データを、標準フォーマットを捨てずにスケールさせるための実用的なデータ・ローディング基盤(infrastructure)を提供するものとして位置づけられている。




