要旨: 複雑で非構造化されたデータからの特徴発見(feature discovery)は、本質的に推論の問題である。すなわち、リーク(漏洩)、プロキシ、事後の信号を避けつつ、目標となる結果を予測するのに有用な抽象化(abstractions)を同定する必要がある。絶えず改善される大規模言語モデル(LLM)の登場により、本手法はこの課題に取り組むための体系的な方法を提供する。LLMは大量の情報を処理できるという点でこのタスクに適しているが、制約のない特徴生成は弱い特徴につながりうる。本研究では、特徴発見を改善するための認知的行動(cognitive behaviors)を誘導することで、LLMにおける推論制御(reasoning control)を研究する。提案するCoFEE(Cognitive Feature Engineering Engine)は、特徴発見の過程でLLMがどのように推論するかに関して認知的行動を強制する推論制御の枠組みである。機械学習の観点では、これらの認知的行動は、モデルが生成する候補特徴の空間に対する、構造化された帰納バイアスとして働く。これらの行動はMLモデルにおいて成功裏に活用されており、結果からの後向き連鎖(backward chaining)、サブゴールの分解、観測可能性およびリーク基準に対する検証、却下された推論経路の明示的なバックトラックなどが含まれる。制御された比較において、認知的行動を強制することで、制約のない素のLLMプロンプトに比べて、経験的に予測可能性の高い特徴が得られることを示す。CoFEEは、素のアプローチより平均Success Rate Scoreが15.2%高く、生成する特徴数を29%減らし、コストを53.3%削減する。保持データによる特徴評価(held-out feature evaluation)を用いて、認知的に誘導された特徴が、発見に用いたデータを超えて一般化するかどうかを評価する。我々の結果は、評価した設定において、推論制御が、LLMベースの特徴発見の質と効率の改善と関連していることを示している。
CoFEE:LLMベースの特徴発見における推論制御
arXiv cs.AI / 2026/4/25
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文では、複雑な非構造データからの特徴発見を、リーケージやプロキシ、事後の情報を避けつつ目的に対して予測力のある抽象概念を見つける「推論問題」として捉えます。
- CoFEE(Cognitive Feature Engineering Engine)という推論制御の枠組みを提案し、特徴生成の際にLLMへ「認知的な振る舞い」を強制することで、構造化された進め方を行わせます。
- 強制される振る舞いには、アウトカムからの逆向き推論(バックワードチェーン)、下位目標への分解、観測可能性/リーケージ基準に対する検証、採用しなかった推論経路の明示的なバックトラックが含まれます。
- 制御された比較では、無制限の「バニラ」LLMプロンプトと比べてCoFEEがより高い経験的予測可能性を持つ特徴を生成し、Success Rate Scoreが15.2%高く、生成特徴数を29%減らし、コストを53.3%削減しました。
- 隔離データでの特徴評価からは、推論制御が、発見に用いたデータ以外に対しても特徴発見の品質と効率の向上につながることが示唆されます。



