弱教師あり学習を用いたVision Transformerによるリンパ腫診断における人工知能応用

arXiv cs.CV / 2026/4/16

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本研究では、組織像のパッチを用いて未分化大細胞型リンパ腫（ALCL）と古典的ホジキンリンパ腫（cHL）を分類するために、Vision Transformer（ViT）を適用する。
先行研究で得られた完全教師ありの結果（1,200パッチで学習）を発展させており、独立したテストセットで精度100%とF1スコア1.0を達成している。
アプローチを臨床的により実用的にするため、著者らはスライド単位のラベルを用いてパッチ単位の学習データを自動的にラベル付けすることで、弱教師あり学習へ切り替える。
画像パッチのデータセットを大幅に拡大し（100,000パッチ）、弱教師ありViTは評価指標として精度91.85%、F1 = 0.92、AUC = 0.98を達成する。
著者らは、パッチ抽出を自動化できる場合、弱教師ありViTは臨床モデル開発のためのディープラーニングモジュールとして適していると結論づけている。

Abstract

視覚トランスフォーマー（ViT）は、より柔軟な特徴検出を可能にし、十分なデータで事前学習した場合には畳み込みニューラルネットワーク（CNN）を上回ることが示されています。こうした有望な特徴検出能力に基づき、未分化の大細胞リンパ腫（ALCL）と古典的ホジキンリンパ腫（cHL）の形態学的分類のためにViTを導入しました。私たちは以前、1,200枚の画像パッチから成る小規模データセットを用いて、完全教師あり学習で学習したViTモデルを設計していました。このモデルは、独立したテストセットにおいて診断精度100%およびF1スコア1.0を達成しました。しかし、完全教師あり学習は、学習段階とテスト段階の両方において専門知識を要するリソースが不足しているため実用的な方法ではありません。そこで、学習データに対する修正したアプローチ（弱教師あり学習）に関する最近の研究を行い、各ホールスライド画像（whole-slide-image）のスライドレベルで画像パッチにラベル付けを自動的に行うことが、臨床での視覚トランスフォーマーの利用にとってより実用的な解決策であることを示します。100,000枚の画像パッチから成るより大規模なデータセットで学習した私たちのViTモデルは、評価指標として、それぞれ91.85%、0.92、0.98の精度、F1スコア、曲線下面積（AUC）を示します。これらは妥当な値であり、弱教師あり学習によって訓練された本ViTモデルは、自動画像パッチ抽出を用いた臨床モデル開発におけるディープラーニング・モジュールの適切なツールとなり得ることを示しています。