[R] Thumbs up／Thumbs down（親指が上／親指が下）形式のユーザーフィードバックを最適化するための文献は？

Reddit r/MachineLearning / 2026/4/2

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

著者は、利用可能なユーザーフィードバックが、過去のモデル応答に紐づいた二値の「親指が上／親指が下」ラベルのみである場合に、モデルをどのように評価し、必要であれば微調整するかについての研究を求めている。
基本的な性能指標として全体の親指が上率を用い、ラベル付きデータセットから報酬モデルを学習して、RLHFスタイルの最適化を行うことを提案している。
著者は、単純な正答率（親指が上率）による評価や素朴な報酬モデル手法よりも、より強力で効果的な方法を検討している文献を特に探している。
この状況では、システムがユーザとの新たなインタラクションを生成できず、既存のフィードバック・データセットのみに依存する必要があるため、実験が制約される。

私は、「いいね（親指を上げる）」または「良くない（親指を下げる）」でユーザーによってタグ付けされた、モデルの応答データセットを持つプロジェクトに取り組んでいます。私が持っている情報はそれだけで、新しい生成をユーザーに対して行うことはできません。そのため、データセットのみを使わなければなりません。

そのような応答を生成したモデルを、どのように評価するのが最善か、そして／またはモデルを微調整するためのベストな方法について、何か文献はありますか？

私が思いつく最も明白なことは、パフォーマンスとして「いいね（親指を上げる）」が付いた応答の割合（%）を計算すること、そして微調整のためには手元のデータセットで報酬モデル（reward model）を学習し、その後でそのモデルに対してRLHFを適用することです。

それよりも良い方法を探っているような出版物はありますか？

日経XTECH

日経XTECH

日経XTECH

日経XTECH

日経XTECH