学習者のようにコーディングする方法を言語モデルに教える:学生シミュレーションのための会話型シリアライゼーション
arXiv cs.AI / 2026/4/14
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、実際の学生の時間的ログ(temporal log traces)を対話形式の会話型シリアライゼーションに変換することで、オープンウェイトの「プログラミング学習者」言語モデルを学習させる手法を提案する。
- シリアライズされた形式では、交互のターンによって学生のコード提出と、自動評価/環境からのフィードバック(テスト、成績、エラートレース)を取り込み、モデルに反復的なデバッグ行動を学習させる。
- 学習パイプラインは、教師あり微調整(supervised fine-tuning)と嗜好(preference)最適化を組み合わせ、学習者モデルの応答を本物の学生のデバッグパターンへより適切に整合させる。
- 実データとして得られたPythonの課題提出データで学習したQwenモデル(4Bおよび8B)を用いた実験により、環境フィードバックを含めることで、コードのみ、またはプロンプト付きLLMベースラインよりも、機能的な整合性とコードの類似性が向上することが示された。
- 著者らは再現性を支援し、大規模なチュータリング戦略評価においてプロプライエタリなプロンプト手法への依存を減らすために、コードを公開している。




