生物医学論文分類のための大規模言語モデル

arXiv cs.CL / 2026/3/13

📰 ニュースTools & Practical UsageModels & Research

要点

  • 本研究は、生物医学論文分類のためのテキスト分類器としての大規模言語モデルを体系的に評価し、プロンプト、出力処理、少数ショットの例数、および選択方法の観点で、小型・中型のオープンソースモデルだけでなく選択されたクローズドソースモデルも比較します。
  • 15の難易度の高いデータセットにおいて、ゼロショット・プロンプティングは平均PR AUCを0.4以上、few-shot プロンプティングは約0.5に達し、ナイーブベイズ、ランダムフォレスト、微調整済みトランスフォーマーベースラインの性能に近づきます。
  • 出力トークンの確率をクラス確率予測に用いることは、特に有望な設定であることを示しています。
  • 本研究は実用的な推奨を提供し、評価範囲を広げることにより前研究を拡張しています。
本研究は、生物医学論文分類のためのテキスト分類器としての大規模言語モデルの有用性を系統的かつ深く調査します。研究では、いくつかの小規模および中規模のオープンソースモデルに加え、選択されたクローズドソースモデルも使用しており、評価された構成の範囲の点で前例の多くよりも包括的です。具体的には、異なるタイプのプロンプト、クラス予測およびクラス確率予測の生成のための出力処理方法、さらには few-shot の例数および選択方法です。最も成功した構成の性能は、従来の分類アルゴリズムの性能と比較されます。15の難易度の高いデータセットにおいて、ゼロショット・プロンプティングで得られた平均PR AUCは0.4を超え、few-shot プロンプティングではほぼ0.5に達します。これらは、ナイーブベイズ分類器(0.5)、ランダムフォレストアルゴリズム(デフォルト設定で0.5、ハイパーパラメータ調整で0.55)および微調整済みトランスフォーマーモデル(0.5)とほぼ同等の性能です。これらの結果は、非自明な領域のテキスト分類器としての大規模言語モデルの有用性を確認し、最も有望な設定の実用的な推奨を提供します。特に、クラス確率予測のために出力トークンの確率を用いることを含みます。