ハイブリッド Vision Transformer-U-Net を用いた顕微鏡データとメタデータの組み合わせによる細胞牽引力の再構築

arXiv cs.CV / 2026/3/17

📰 ニュースModels & Research

共有:

要点

ViT+UNet と呼ばれる新しいハイブリッド深層学習アーキテクチャは、U‑Net と Vision Transformer を組み合わせて、顕微鏡データとメタデータから細胞牽引力場を再構築する。
このモデルは、複数の空間スケールとノイズレベルにわたって、牽引力場の予測において、単独の U‑Net および単独の Vision Transformer のいずれよりも性能を上回る。
このアプローチは、細胞種情報などの文脈的メタデータの含有を可能にし、予測の特異性と精度を高める。
異なる実験設定や撮像システムに対して堅牢な一般化を示し、多様な TFM データセットへの広範な適用性を示唆している。

要旨：牽引力顕微鏡法（TFM）は、細胞が周囲の細胞外マトリックスに及ぼす力を定量化するための広く用いられている技術です。最近、深層学習法がTFMデータ解析に適用されているものの、複数の空間スケールにわたる信頼性の高い推論を達成することや、精度を向上させるために細胞タイプなどの追加の文脈情報を統合することが課題です。本研究では、U-NetとVision Transformerを統合した堅牢な深層学習アーキテクチャであるViT+UNetを提案します。本手法は、牽引力場の予測において、単独のU-NetおよびVision Transformerアーキテクチャの双方を上回ることを示しています。さらに、ViT+UNetは、さまざまな空間スケールや異なるノイズレベルに対して優れた一般化性能を示し、異なる実験設定および撮像システムから得られたTFMデータセットへの適用を可能にします。入力データを適切に構造化することにより、メタデータの含有も可能になり、今回の場合は細胞タイプ情報を用いて予測の特異性と精度を高めます。

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

THE DECODER

Kreuzberg v4.5.0: Doclingのモデルをとても気に入ったので、より高速なエンジンを搭載しました

Reddit r/LocalLLaMA

今日は、qwen 120B のような比較的大きめのローカルモデルを動かすには、どんなハードウェアを用意すべきか？

Reddit r/LocalLLaMA

会議ノート作成のためにMistralをローカルで実行することは、私の用途には正直十分だ

Reddit r/LocalLLaMA

[D] 5つの年代にわたる単一アーティストの長期的ファインアートデータセットがHugging Faceに公開 — スタイルの進化、人物表現、倫理的トレーニングデータの潜在的応用

Reddit r/MachineLearning

ハイブリッド Vision Transformer-U-Net を用いた顕微鏡データとメタデータの組み合わせによる細胞牽引力の再構築

要点

関連記事

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

Kreuzberg v4.5.0: Doclingのモデルをとても気に入ったので、より高速なエンジンを搭載しました

今日は、qwen 120B のような比較的大きめのローカルモデルを動かすには、どんなハードウェアを用意すべきか？

会議ノート作成のためにMistralをローカルで実行することは、私の用途には正直十分だ

[D] 5つの年代にわたる単一アーティストの長期的ファインアートデータセットがHugging Faceに公開 — スタイルの進化、人物表現、倫理的トレーニングデータの潜在的応用

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer