プロンプトベースの構造化予測に向けたコースのマッピング

arXiv cs.CL / 2026/3/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LLMがタスク固有の微調整なしでも言語タスク全般で高い性能を発揮する一方で、自動回帰的生成に伴う制約により、幻覚（ハルシネーション）や不整合、複雑な推論の弱さといった問題が依然として生じると主張している。
構造化予測を改善するために、LLMのプロンプトと、組合せ的（記号的）推論を組み合わせることで、予測時に構造的な一貫性を強制することを提案する。
網羅的な実験を通じて、下流の記号的推論で用いる信頼度（confidence）値を推定するための複数のプロンプト戦略を評価し、どのプロンプト手法でも、記号的推論を追加することで精度と一貫性が向上することを確認している。
さらに、較正（calibration）と、構造化された学習目標に基づく微調整を適用することで、難しいタスクでの性能が向上することを示しており、現代のLLMがあっても構造化学習の重要性が依然として高いことを示唆している。

Abstract

大規模言語モデル（LLM）は、タスク固有の微調整を必要とせずに、幅広い言語タスクにおいて強い性能を示してきました。しかし、それらは幻覚や不整合を起こしやすく、また自回帰的生成の制約の一部により、複雑な推論が苦手であることが多いです。私たちは、特に構造化予測に関して、これらの問題のいくつかに対処するため、LLMと組合せ推論を組み合わせ、推論手法が提供する構造的整合性と、LLMの予測能力を結び付けることを提案します。下流の記号推論に対する信頼度（confidence）値を最もよく推定できるプロンプト戦略がどれかを理解するために、網羅的な実験を行い、その結果、プロンプト戦略に依存せず、記号推論を組み込むことで、プロンプトだけの場合よりも一貫した、かつより正確な予測が得られることが分かりました。最後に、構造化された学習目的によるカリブレーションと微調整は、難しいタスクでの性能をさらに向上させることを示し、LLMの時代においても構造化学習が依然として価値を持つことを強調します。

39体のエージェント・システムをライブ監査してみた。成熟度スコアカードが明らかにしたこと

Dev.to

レッドライン・エコノミー

Dev.to

5００ドルのGPUがコーディング・ベンチマークでClaude Sonnetを上回る

Dev.to

散発的な選別からスナイパーへ：ハイパーパーソナライズされたメディアリストのためのAI

Dev.to

LiteLLMサプライチェーン攻撃：AIインフラに対する警鐘

Dev.to

プロンプトベースの構造化予測に向けたコースのマッピング

要点

Abstract

関連記事

39体のエージェント・システムをライブ監査してみた。成熟度スコアカードが明らかにしたこと

レッドライン・エコノミー

5００ドルのGPUがコーディング・ベンチマークでClaude Sonnetを上回る

散発的な選別からスナイパーへ：ハイパーパーソナライズされたメディアリストのためのAI

LiteLLMサプライチェーン攻撃：AIインフラに対する警鐘

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer