Rewrite the News: ニュース配信社間における編集上の再利用を追跡する
arXiv cs.CL / 2026/4/1
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、完全な翻訳を必要とせずに再利用された文を検出することで、多言語ジャーナリズムにおける文レベルのクロスリンガルなテキスト再利用を調査する。
- 弱い教師あり学習と公開時刻(タイムスタンプ)を用いて、7言語の15の海外メディア機関にわたる、再利用された各英語文の最も早い可能性のある海外ソースを追跡する。
- 1,037本のSTA記事と237,551本のFA記事を分析した結果、大規模な再利用が見られる。STA記事の52%に再利用された文が含まれ、一方でFA記事では再利用が1.6%の割合で見られる。
- 本研究は、編集上の再利用が主として逐語的ではなく、言い換えや構成要素としての再利用(compositional reuse)が多いこと、また再利用される素材はリードよりも記事の中盤や終盤に多いことを示している。
- 著者らは、ジャーナリズムのワークフローにおける情報過多を減らすための自動事前選択用のデータセットとコードを公開する。




