要旨: オンラインのスポーツジャーナリズムが急速に拡大する中で、記事から有意義な試合前および試合後の洞察を抽出することは、ユーザーのエンゲージメントと理解度を高めるために不可欠である。本論文では、試合の前後に公開された記事から、そうした洞察を自動的に抽出する課題に取り組む。われわれは、4つの主要スポーツ(クリケット、サッカー、バスケットボール、野球)にまたがる800試合を対象として、7,900本のニュース記事からなるデータセットを構築した。文脈上の適切性を確保するために、オープンソースおよび独自の大規模言語モデル(LLM)を活用した2段階の検証パイプラインを用いる。さらに、複数の最先端LLM(GPT-4o、Qwen2.5-72B-Instruct、Llama-3.3-70B-Instruct、Mixtral-8x7B-Instruct-v0.1)を利用して、包括的な洞察を生成する。これらの出力の事実的正確性は、FactScoreに基づく手法により厳密に評価し、併せてGPT-4oによるSummaC(Summary Consistency)フレームワークを用いた幻覚検出によって補完する。最後に、ユーザー固有の関心に基づいて洞察を順位付けするために設計された新しいアーキテクチャ、SUMMIR(Sentence Unified Multimetric Model for Importance Ranking)を提案する。実験結果は、このアプローチによって高品質で関連性の高い洞察を生成できる有効性を示すと同時に、LLM間で事実的一貫性と興味深さに大きな違いがあることも明らかにする。本研究は、スポーツニュースの内容から自動化された信頼できる洞察生成を実現する堅牢な枠組みを提供する。ソースコードはこちら https://github.com/nitish-iitp/SUMMIR。
SUMMIR: LLMからのスポーツ洞察をランク付けするための、幻覚(ハルシネーション)を意識したフレームワーク
arXiv cs.AI / 2026/4/8
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ニュース記事から試合前および試合後のスポーツ洞察を抽出し、ユーザー固有の関心に基づいてそれらをランキングするためのフレームワークSUMMIRを提案する。
- クリケット、サッカー、バスケットボール、野球の800試合にまたがる7,900件のスポーツニュース記事からなるデータセットを構築し、オープンソースおよびプロプライエタリ(商用)LLMの両方を用いた2段階の検証パイプラインを採用する。
- この手法では、複数の最先端LLM(GPT-4o、Qwen2.5-72B-Instruct、Llama-3.3-70B-Instruct、Mixtral-8x7B-Instruct-v0.1)で洞察を生成し、FactScoreで事実性(ファクト性)を評価する。
- 幻覚への意識は、GPT-4oによりSummaC(Summary Consistency)を適用することで対処し、モデル間でのより信頼性の高いランキングおよび比較を可能にする。
- 結果は、SUMMIRが関連性の高い高品質な洞察を生成できるだけでなく、事実性の一貫性および「面白さ」の評価においてLLM間に意味のある差異があることも示しており、コードはGitHubで公開されている。


