「Second Thoughts」生成の終盤を読み返して冒頭に戻すリファインメント・ループで小型LLMを改善

Reddit r/LocalLLaMA / 2026/5/4

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 生成された文章の終盤付近を読み取り、その情報を生成の冒頭付近にフィードバックする“リファインメント・ループ”として小型トランスフォーマーを使う試みで、コード作成のような特定タスクの精度が向上したと著者が報告しています。
  • 1.7Bモデルでの素早いテストでは大きな改善が見られたため、著者は再現と拡張の目的で9Bモデルの学習を進めています。
  • この手法はRepeat Yourselfの神経解剖学に関する知見に触発され、「逆LLM(reverse LLM)」のサイドカーを作り、出力をプロンプト上部へ注入してループさせる発想につながったとされています。
  • HumanEvalについても、最初の20問だけではなく完全なデータセットで両方を再評価し、検証後に整理した内容とコードをGitHubへ投稿する予定です。
  • 取り組みは主に構文(syntax)に焦点を当て、小型モデルに双方向的なループ機構を加えることで性能を大きく引き上げることを狙っています。

1.7Bモデルだと実際にいくつかのコードを生成できるので、いまは9Bモデルの学習を実行しています。その後、HumanEvalを(今回は完全版で)再実行します。記事の中で宿題の大部分は示しましたが、整えてからgithubに投稿する予定です。

それはRepeat Yourselfのdnhkng.github.io/posts/rys/ にある神経解剖学の調査結果に触発されたものです……これにより、自分の「リバースLLM」サイドカー・モデルを取り付けるための開始点と終点ができました(つまり末尾から読み取り、そしてその出力を先頭に戻し込む――ループで)。この場合、文法(シンタックス)に焦点を当て、非常に小さなモデルを劇的に改善できました。

また、両方のモデルで、最初の20だけでなくHumanEvalの全データセットを改めて実行します。

submitted by /u/bigattichouse
[リンク] [コメント]