PERSA:LLMによる教授スタイルの個別化フィードバックのための強化学習
arXiv cs.AI / 2026/5/5
📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- PERSAは、診断の正しさを損なわずに、特定の教授の採点(フィードバック)口調に合わせたプログラミングのフィードバックを生成するための強化学習(RLHF)パイプラインです。
- この手法は、教授によるデモに基づく教師あり微調整、ペア比較の嗜好からの報酬モデル化、そしてPPOを組み合わせ、学習を「スタイルを担う」部分に意図的に制約します。
- トップのトランスフォーマブロックとフィードフォワード射影のみを更新する(パラメータ効率の高い微調整)ことで、PERSAは大域的なパラメータのドリフトを抑えつつ、スタイル制御性を高めます。
- APPS、PyFiXV、CodeReviewQAでの実験では、Llama-3とGemma-2の両方のバックボーンで「教授スタイルの移植」が強く、スタイル整合性の大幅な改善と、高い正確性(Correctness Accuracy)の両立が示されています。
- 本研究は、「何を言うべきか」(内容の正確さ)だけでなく「どう言うべきか」(口調や構造)も揃えることで、個別化された教育フィードバックを実現する実用的なルートを提示しています。




