要約: AI研究の爆発的な成長は前例のない情報過多を生み出し、従来の要約を超える多段階の粒度での科学的要約の需要を高めている。大規模言語モデル(LLMs)は要約に対してますます採用されている一方で、既存のベンチマークは規模が限定的で、単一の粒度のみを対象とし、LLM時代以前のものである。さらに、2022年11月のChatGPTのリリース以降、研究者は原稿のドラフト作成にも大規模言語モデル(LLMs)を急速に取り入れ、科学的執筆を根本的に変革しているが、この執筆がどのように進化したかを分析する資源は存在しない。これらのギャップを埋めるべく、SciZoomを紹介する。SciZoomは4つのトップクラスML会場(NeurIPS、ICLR、ICML、EMNLP)から2020年から2025年にわたる44,946件の論文を含むベンチマークで、Pre-LLM時代とPost-LLM時代に明確に区分されている。SciZoomは3つの階層的要約ターゲット(要約、貢献、TL;DR)を提供し、最大600:1の圧縮比を達成し、マルチ粒度要約研究と科学的執筆パターンの時系列マイニングの両方を可能にする。私たちの言語学的分析は、語句パターンの顕著な変化(公式表現で最大10倍)と修辞スタイル(ヘッジ表現の23%減少)を明らかにし、LLM支援執筆がより自信に満ちたが均質化した散文を生み出すことを示唆している。SciZoomは生成系AI時代の科学的談話の進化を探査するための挑戦的なベンチマークであり、独自の資源として機能する。私たちのコードとデータセットは、それぞれGitHub(https://github.com/janghana/SciZoom)とHugging Face(https://huggingface.co/datasets/hanjang/SciZoom)で公開されている。
返却形式: {"translated": "翻訳されたHTML"}




