PERSA:LLMによる教授スタイルの個別化フィードバックのための強化学習

arXiv cs.AI / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • PERSAは、診断の正しさを損なわずに、特定の教授の採点(フィードバック)口調に合わせたプログラミングのフィードバックを生成するための強化学習(RLHF)パイプラインです。
  • この手法は、教授によるデモに基づく教師あり微調整、ペア比較の嗜好からの報酬モデル化、そしてPPOを組み合わせ、学習を「スタイルを担う」部分に意図的に制約します。
  • トップのトランスフォーマブロックとフィードフォワード射影のみを更新する(パラメータ効率の高い微調整)ことで、PERSAは大域的なパラメータのドリフトを抑えつつ、スタイル制御性を高めます。
  • APPS、PyFiXV、CodeReviewQAでの実験では、Llama-3とGemma-2の両方のバックボーンで「教授スタイルの移植」が強く、スタイル整合性の大幅な改善と、高い正確性(Correctness Accuracy)の両立が示されています。
  • 本研究は、「何を言うべきか」(内容の正確さ)だけでなく「どう言うべきか」(口調や構造)も揃えることで、個別化された教育フィードバックを実現する実用的なルートを提示しています。