私は、「いいね(親指を上げる)」または「良くない(親指を下げる)」でユーザーによってタグ付けされた、モデルの応答データセットを持つプロジェクトに取り組んでいます。私が持っている情報はそれだけで、新しい生成をユーザーに対して行うことはできません。そのため、データセットのみを使わなければなりません。
そのような応答を生成したモデルを、どのように評価するのが最善か、そして/またはモデルを微調整するためのベストな方法について、何か文献はありますか?
私が思いつく最も明白なことは、パフォーマンスとして「いいね(親指を上げる)」が付いた応答の割合(%)を計算すること、そして微調整のためには手元のデータセットで報酬モデル(reward model)を学習し、その後でそのモデルに対してRLHFを適用することです。
それよりも良い方法を探っているような出版物はありますか?
[link] [comments]




