annbatch unlocks terabyte-scale training of biological data in anndata

arXiv cs.LG / 4/3/2026

📰 NewsDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

Key Points

  • annbatchは、anndata上で動くディスク常駐(out-of-core)対応のミニバッチローダとして設計され、生物データの学習で支配的になっている「データアクセス」をボトルネック解消することを狙っている。
  • 多様なメタデータや密/疎アッセイを含むコミュニティ標準の生物データ形式に対し、scverseエコシステムとの完全互換性を保ったままトレーニングできる点が特徴とされる。
  • 単一細胞トランスクリプトミクス、顕微鏡、WGSのベンチマークで、データローディングスループットが最大で1桁向上し、学習時間が「日→時間」へ短縮されたと報告されている。
  • 本成果は、巨大化・多様化する生物データを、標準フォーマットを捨てずにスケールさせるための実用的なデータ・ローディング基盤(infrastructure)を提供するものとして位置づけられている。

Abstract

The scale of biological datasets now routinely exceeds system memory, making data access rather than model computation the primary bottleneck in training machine-learning models. This bottleneck is particularly acute in biology, where widely used community data formats must support heterogeneous metadata, sparse and dense assays, and downstream analysis within established computational ecosystems. Here we present annbatch, a mini-batch loader native to anndata that enables out-of-core training directly on disk-backed datasets. Across single-cell transcriptomics, microscopy and whole-genome sequencing benchmarks, annbatch increases loading throughput by up to an order of magnitude and shortens training from days to hours, while remaining fully compatible with the scverse ecosystem. Annbatch establishes a practical data-loading infrastructure for scalable biological AI, allowing increasingly large and diverse datasets to be used without abandoning standard biological data formats. Github: https://github.com/scverse/annbatch