BAGEL：言語モデルにおける動物知識の専門性をベンチマークする

arXiv cs.CL / 2026/4/20

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、言語モデルが専門的な動物関連知識をどれだけ正確に扱えるかを測るためのクローズドブック型ベンチマーク「BAGEL」を提案している。
BAGELは、bioRxiv、Global Biotic Interactions、Xeno-canto、Wikipediaなど複数の科学・参照ソースをもとに構築され、キュレーションされた例と自動生成のQAペアを組み合わせている。
ベンチマークは、分類（タクソノミー）、形態（モルフォロジー）、生息地、行動、鳴き声（ボーカリゼーション）、地理的分布、種間相互作用といった複数の知識側面を評価する。
推論時に外部検索を行わないクローズドブック評価により、モデルの知識をより信頼性高く測定し、ドメインやカテゴリごとの強み・体系的な失敗パターンを分析できることを狙っている。
このベンチマークは、ドメイン固有の知識の一般化を研究し、生物多様性関連アプリケーションの信頼性を高めるための試験基盤として位置づけられている。

Dev.to

Dev.to

Dev.to

Reddit r/artificial

Qiita