ConsistRM：整合性を意識した自己学習による生成報酬モデルの改善

arXiv cs.CL / 2026/4/10

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、人間が注釈した高コストの報酬データを必要とせずに、LLMを人間の嗜好に整合させることを目的とした、生成報酬モデル（GRM）のための自己学習フレームワーク「ConsistRM」を提案する。
時間的整合性を維持しつつ信頼性の高い疑似ラベルを生成するために、整合性を意識した回答報酬（Consistency-Aware Answer Reward）を提案し、GRMの学習と最適化の安定性を向上させる。
さらに、複数の批評にわたる意味的一貫性を評価し、従来の自己学習手法で見られた弱点を低減するためにきめ細かく差別化された報酬を与える、整合性を意識した批評報酬（Consistency-Aware Critique Reward）も追加する。
5つのベンチマークデータセットと4つのベースモデルにまたがる実験により、ConsistRMは平均で1.5%の向上を示し、バニラの強化学習による微調整（RFT）を上回ることが確認される。分析からは、出力の一貫性がより良好で、入力順序に起因する位置バイアスが低減されていることが示される。

Abstract

生成報酬モデル（Generative Reward Models: GRM）は、従来のスカラー報酬モデルに比べて表現能力と柔軟性が高いことにより、大規模言語モデル（LLM）を人間の嗜好に整合させるための有望なアプローチとして登場してきました。しかし、GRMには大きく2つの課題があります。1つ目は、高コストな人手による注釈データに依存しているため、スケーラビリティが制限される点です。2つ目は、自己学習（self-training）の手法はしばしば不安定であり、報酬ハッキング（reward hacking）に対して脆弱である点です。これらの課題に対処するために、我々はConsistRMを提案します。ConsistRMは、人手による注釈なしで効果的かつ安定したGRMの学習を可能にする自己学習フレームワークです。 ConsistRMは、時間的整合性（temporal consistency）を備えた信頼性の高い疑似ラベルを生成する「整合性を意識した回答報酬（Consistency-Aware Answer Reward）」を取り入れており、より安定したモデル最適化を提供します。さらに、「整合性を意識した批評報酬（Consistency-Aware Critique Reward）」を導入して、多数の批評にまたがる意味的一貫性を評価し、きめ細かく、かつ差別化された報酬を割り当てます。 4つの基盤モデルにまたがる5つのベンチマークデータセットでの実験により、ConsistRMはバニラの強化微調整（vanilla Reinforcement Fine-Tuning: RFT）を平均1.5%上回ることが示されました。さらに分析により、ConsistRMは出力の一貫性を高め、入力順序によって生じる位置バイアス（position bias）を緩和することが明らかになり、GRMを改善するうえで整合性を意識した報酬が有効であることが示されます。

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

日経XTECH

CIAが人間のスパイから得た情報の分析を支援するためにAIを信頼し始めている

Reddit r/artificial

Claudeを“コスパ良く”利用可能に　性能の異なるモデルが“適材適所”で稼働、Anthropicの新ツール

ITmedia AI+

2026年のLLM API料金：主要モデルをすべて1つの表にまとめました

Dev.to

GTX 1660でAI動画を生成してみた。実際に必要なものはこれ。

Dev.to

ConsistRM：整合性を意識した自己学習による生成報酬モデルの改善

要点

Abstract

関連記事

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

CIAが人間のスパイから得た情報の分析を支援するためにAIを信頼し始めている

Claudeを“コスパ良く”利用可能に　性能の異なるモデルが“適材適所”で稼働、Anthropicの新ツール

2026年のLLM API料金：主要モデルをすべて1つの表にまとめました

GTX 1660でAI動画を生成してみた。実際に必要なものはこれ。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

CIAが人間のスパイから得た情報の分析を支援するためにAIを信頼し始めている

Claudeを“コスパ良く”利用可能に 性能の異なるモデルが“適材適所”で稼働、Anthropicの新ツール

2026年のLLM API料金：主要モデルをすべて1つの表にまとめました

GTX 1660でAI動画を生成してみた。実際に必要なものはこれ。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

Claudeを“コスパ良く”利用可能に　性能の異なるモデルが“適材適所”で稼働、Anthropicの新ツール