広告

[R] Thumbs up/Thumbs down(親指が上/親指が下)形式のユーザーフィードバックを最適化するための文献は?

Reddit r/MachineLearning / 2026/4/2

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 著者は、利用可能なユーザーフィードバックが、過去のモデル応答に紐づいた二値の「親指が上/親指が下」ラベルのみである場合に、モデルをどのように評価し、必要であれば微調整するかについての研究を求めている。
  • 基本的な性能指標として全体の親指が上率を用い、ラベル付きデータセットから報酬モデルを学習して、RLHFスタイルの最適化を行うことを提案している。
  • 著者は、単純な正答率(親指が上率)による評価や素朴な報酬モデル手法よりも、より強力で効果的な方法を検討している文献を特に探している。
  • この状況では、システムがユーザとの新たなインタラクションを生成できず、既存のフィードバック・データセットのみに依存する必要があるため、実験が制約される。

私は、「いいね(親指を上げる)」または「良くない(親指を下げる)」でユーザーによってタグ付けされた、モデルの応答データセットを持つプロジェクトに取り組んでいます。私が持っている情報はそれだけで、新しい生成をユーザーに対して行うことはできません。そのため、データセットのみを使わなければなりません。

そのような応答を生成したモデルを、どのように評価するのが最善か、そして/またはモデルを微調整するためのベストな方法について、何か文献はありますか?

私が思いつく最も明白なことは、パフォーマンスとして「いいね(親指を上げる)」が付いた応答の割合(%)を計算すること、そして微調整のためには手元のデータセットで報酬モデル(reward model)を学習し、その後でそのモデルに対してRLHFを適用することです。

それよりも良い方法を探っているような出版物はありますか?

submitted by /u/pastor_pilao
[link] [comments]

広告