BLAST：ASPベースの構造化テストでLLMをベンチマークする

arXiv cs.AI / 2026/4/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

この論文では、答集合プログラミング（ASP）コードの生成精度を評価するための、専用のベンチマーク手法とデータセット「BLAST」が提案されています。
BLASTは、ASPコード生成の品質を評価するために設計された2つの新しい意味論的メトリクスを含む構造化された評価フレームワークを採用しています。
著者らは、ASP文献にある10個のよく知られたグラフ関連問題を用いて8つの最先端LLMを検証した実証評価の結果を報告しています。
LLMは多様なタスクで高性能を示す一方、宣言型パラダイムであるASPへの適用効果はこれまで相対的に注目が少なかったという研究ギャップを指摘しています。
グラフ中心のASPベンチマークによる初期評価を通じて、今後のLLM-to-ASP生成のより厳密で比較可能な評価を促すことを狙っています。

要旨: 大規模言語モデル（LLM）は、自然言語理解、対話システム、コード生成を含む幅広いタスクにおいて、目覚ましい性能を示してきました。顕著な進歩がある一方で、これまでのところ、答集合プログラミング（ASP）のような宣言型パラダイムを扱う有効性については、あまり注目されていません。本論文では、ASPコード生成におけるLLMの精度を評価するための、最初の専用ベンチマーク手法および関連データセットであるBLASTを導入します。BLASTは、ASPコード生成に特化した2つの新規な意味論的メトリクスを備えた、構造化された評価フレームワークを提供します。本論文では、ASP文献におけるよく知られたグラフ関連の10の問題と、最先端の8つの多様なLLMの集合を用いた、経験的評価の結果を示します。