要旨:ファインチューニングを通じて大規模言語モデル(LLMs)を人間の好みに合わせることはリソースを大量に消費するため、テスト時の軽量な代替手段を促す。私たちは逐次決定論の視点からテスト時のアライメントに取り組み、これが二つの根本的な課題を明らかにする。操作をトークンレベルで定義する場合、ガイド付きデコードのように、アライメントは展望の呪いに悩まされる。逆に、操作が応答レベルである場合、従来の反復的改良のように、次元の呪いが現れる。このトレードオフを解決するために、制御理論のモデル予測制御(MPC)にヒントを得て、テキストベースのモデル予測制御(TMPC)と呼ぶ新しい予測的計画フレームワークを推論時にLLMsを整合させるために適用可能な形で提案する。標準MPCの重要な制約は、事前定義された硬いセグメント境界に依存する点であり、テキスト生成ではしばしば欠如している。TMPCはこれを、階層的強化学習に触発された二つの原理を導入することにより克服する: (1) 後知恵サブゴール識別では、TMPCが生成サブゴールを分析して回顧的に高報酬の中間出力をサブゴールとして識別する。これにより、意味のある、タスク特有の計画ステップを発見できる(例:機械翻訳の文、コード生成におけるバグ修正)。 (2) サブゴール条件付き再生成では、これら識別されたサブゴールを用いて後続の計画反復を導く。これらの実証済みの高品質サブゴールに条件付けすることにより、TMPCはこれまで検証された成功を土台に安定した改善を保証する。 TMPCは、区分特性の異なる三つのタスク:談話レベルの翻訳、長文応答生成、プログラム合成で評価される。結果は、TMPCが一貫して性能を向上させることを示しており、汎用性を際立たせている。
返却形式: {"translated": "翻訳されたHTML"}