RadTimeline: Timeline Summarization for Longitudinal Radiological Lung Findings

arXiv cs.CL / 3/25/2026

💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research

Key Points

  • 本研究は、縦断(時系列)の放射線レポートにある肺所見を自動で要約するため、所見を「日付列」と「時間的に関連する行」に整理する構造化タイムライン生成タスクを提案している。
  • タイムライン生成はLLMの3ステップ(所見抽出→グループ名生成→グループ名での所見クラスタリング)で行い、時点間の比較や元レポートに対する検証(ファクトチェック)を容易にする狙いがある。
  • 評価のため、胸部画像レポートに含まれる肺関連所見の追跡に特化したデータセットRadTimelineを新たに作成した。
  • 実験では、LLMサイズやプロンプト戦略の違いによるトレードオフを示し、特に中間ステップとしての「グループ名生成」が有効なグルーピングに重要であることを示している。
  • 最良構成は一部に無関係所見を含むものの想起(recall)が非常に良く、グルーピング性能は人手アノテータに匹敵するレベルだと報告されている。

Abstract

Tracking findings in longitudinal radiology reports is crucial for accurately identifying disease progression, and the time-consuming process would benefit from automatic summarization. This work introduces a structured summarization task, where we frame longitudinal report summarization as a timeline generation task, with dated findings organized in columns and temporally related findings grouped in rows. This structured summarization format enables straightforward comparison of findings across time and facilitates fact-checking against the associated reports. The timeline is generated using a 3-step LLM process of extracting findings, generating group names, and using the names to group the findings. To evaluate such systems, we create RadTimeline, a timeline dataset focused on tracking lung-related radiologic findings in chest-related imaging reports. Experiments on RadTimeline show tradeoffs of different-sized LLMs and prompting strategies. Our results highlight that group name generation as an intermediate step is critical for effective finding grouping. The best configuration has some irrelevant findings but very good recall, and grouping performance is comparable to human annotators.