縦断網膜画像予測においては、フレームワーク選択よりも学習・推論入力のアラインメントが重要である
arXiv cs.CV / 2026/4/21
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本研究は、進行性黄斑疾患に対する縦断的な網膜画像の将来予測を対象に、生成モデルの複雑さが本当に必要か、それとも入力アラインメントがより重要かを検証する。
- 同一アーキテクチャとデータセットを用いた5つの条件付け/学習−推論設定の制御比較により、学習時と推論時の入力分布を一致させることでSSIM指標が大きく改善することが示された(delta-SSIM +0.082、SSIM +0.086、いずれもp < 0.001)。
- 一方で、アラインメント済みフレームワーク同士の選択は主要評価指標に有意な差をもたらさず、主要因は「入力分布のアラインメント」であることが示唆される。
- 機序解析では、訪問間の変化は時間不変の撮影ばらつきに比べて小さく、確率的サンプリングの幅を活かす余地が小さいため、なぜ単純化したアラインメント手法が有効なのかを説明する。
- これらの知見に基づき、TRU(Temporal Retinal U-Net)を提案する。時刻差を連続条件付けし、多尺度の履歴集約を行う決定論的回帰モデルで、複数プラットフォーム・複数タスク(計28,902眼)において既存の最先端ベンチマークを上回る/同等の性能を示し、利用可能な履歴長が長いほど優位性が単調に増大した。
関連記事

新しいモデルが出るたびに、当然ながら古いモデルは時代遅れになる
Reddit r/LocalLLaMA

NVIDIA DGX SparkフルスタックAIハッカソンで作ったものが総合1位に—『Starfire』から『Molecules AI』へ
Dev.to

進捗を失わない:VS Codeでプロ仕様のJupyterワークフローをセットアップする(Colabのタイムアウトともおさらば!)
Dev.to

AgentOSを作る:保険請求の「AWS Lambda」を目指している理由
Dev.to

状況はここまで来た——1年で何もかも変わった:Kimi、Minimax、Qwen、Gemma、GLM
Reddit r/LocalLLaMA