要旨:牽引力顕微鏡法(TFM)は、細胞が周囲の細胞外マトリックスに及ぼす力を定量化するための広く用いられている技術です。最近、深層学習法がTFMデータ解析に適用されているものの、複数の空間スケールにわたる信頼性の高い推論を達成することや、精度を向上させるために細胞タイプなどの追加の文脈情報を統合することが課題です。本研究では、U-NetとVision Transformerを統合した堅牢な深層学習アーキテクチャであるViT+UNetを提案します。本手法は、牽引力場の予測において、単独のU-NetおよびVision Transformerアーキテクチャの双方を上回ることを示しています。さらに、ViT+UNetは、さまざまな空間スケールや異なるノイズレベルに対して優れた一般化性能を示し、異なる実験設定および撮像システムから得られたTFMデータセットへの適用を可能にします。入力データを適切に構造化することにより、メタデータの含有も可能になり、今回の場合は細胞タイプ情報を用いて予測の特異性と精度を高めます。
ハイブリッド Vision Transformer-U-Net を用いた顕微鏡データとメタデータの組み合わせによる細胞牽引力の再構築
arXiv cs.CV / 2026/3/17
📰 ニュースModels & Research
要点
- ViT+UNet と呼ばれる新しいハイブリッド深層学習アーキテクチャは、U‑Net と Vision Transformer を組み合わせて、顕微鏡データとメタデータから細胞牽引力場を再構築する。
- このモデルは、複数の空間スケールとノイズレベルにわたって、牽引力場の予測において、単独の U‑Net および単独の Vision Transformer のいずれよりも性能を上回る。
- このアプローチは、細胞種情報などの文脈的メタデータの含有を可能にし、予測の特異性と精度を高める。
- 異なる実験設定や撮像システムに対して堅牢な一般化を示し、多様な TFM データセットへの広範な適用性を示唆している。
関連記事

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す
THE DECODER
Kreuzberg v4.5.0: Doclingのモデルをとても気に入ったので、より高速なエンジンを搭載しました
Reddit r/LocalLLaMA
今日は、qwen 120B のような比較的大きめのローカルモデルを動かすには、どんなハードウェアを用意すべきか?
Reddit r/LocalLLaMA
会議ノート作成のためにMistralをローカルで実行することは、私の用途には正直十分だ
Reddit r/LocalLLaMA
[D] 5つの年代にわたる単一アーティストの長期的ファインアートデータセットがHugging Faceに公開 — スタイルの進化、人物表現、倫理的トレーニングデータの潜在的応用
Reddit r/MachineLearning