PERSA：LLMによる教授スタイルの個別化フィードバックのための強化学習

arXiv cs.AI / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

PERSAは、診断の正しさを損なわずに、特定の教授の採点（フィードバック）口調に合わせたプログラミングのフィードバックを生成するための強化学習（RLHF）パイプラインです。
この手法は、教授によるデモに基づく教師あり微調整、ペア比較の嗜好からの報酬モデル化、そしてPPOを組み合わせ、学習を「スタイルを担う」部分に意図的に制約します。
トップのトランスフォーマブロックとフィードフォワード射影のみを更新する（パラメータ効率の高い微調整）ことで、PERSAは大域的なパラメータのドリフトを抑えつつ、スタイル制御性を高めます。
APPS、PyFiXV、CodeReviewQAでの実験では、Llama-3とGemma-2の両方のバックボーンで「教授スタイルの移植」が強く、スタイル整合性の大幅な改善と、高い正確性（Correctness Accuracy）の両立が示されています。
本研究は、「何を言うべきか」（内容の正確さ）だけでなく「どう言うべきか」（口調や構造）も揃えることで、個別化された教育フィードバックを実現する実用的なルートを提示しています。