自己一貫性は百科事典的知識の想起精度を高めるのか？

arXiv cs.CL / 2026/4/22

📰 ニュースModels & Research

共有:

要点

本研究は、自己一貫性（複数の推論パスをサンプリングする手法）が百科事典的知識の想起に有効かどうかを検証し、これまで未解明だった点を評価環境の不足という課題から切り込みます。
研究チームは、既存研究のデータ駆動のヒューリスティックを用いて、MMLUに「知識想起」向けのターゲット分割を新たに作成し、象徴的推論と知識想起の挙動がGSM8K（象徴的推論）やMedMCQA（知識想起）と整合することを検証します。
この評価設定のもとで自己一貫性は、基盤となるCoTプロンプトが主に象徴的推論に効くにもかかわらず、象徴的推論と知識想起の両方で一貫して性能を向上させます。
さらに、自己一貫性を用いたGPT-4oでMMLUの精度89%を達成し、当時のGPT-4oベースの結果として最高性能を更新したと報告しています。