要旨: 大規模言語モデル(LLM)は教育分野でますます利用されている一方で、そのデフォルトの有用性はしばしば教育学的原則と衝突します。先行研究では、教育的品質を「答えの漏洩(answer leakage)」、すなわち足場かけ(scaffolding)ではなく完全な解答が開示されてしまうことによって評価するものの、通常は善意の学習者を前提としており、学生の誤用によるチュータの頑健性が十分に検討されていません。本論文では、学生が敵対的に振る舞い、チュータから正しい答えを引き出そうとするシナリオを扱います。我々は、異なるモデルファミリー、教育的に整合したモデル、多エージェント設計を含む幅広いLLMベースのチュータモデル群を、さまざまな敵対的な学生の攻撃下で評価します。敵対的かつ説得的な6つの技法のグループを教育環境に適応し、それらを用いて、チュータが最終的な答えを開示してしまう可能性を調べます。異なる種類のインコンテキスト型の敵対的な学生エージェントを用いて、答えの漏洩の頑健性を評価したところ、それらがしばしば効果的な攻撃を実行できないことが分かりました。そこで我々は、LLMベースのチュータをジェイルブレイクするよう微調整した敵対的な学生エージェントを導入し、これをチュータ頑健性を評価するための標準化されたベンチマークの中核として提案します。最後に、敵対的な状況において答えの漏洩を減らし、LLMベースのチュータの頑健性を強化する、単純だが効果的な防御戦略を提示します。
LLMチューターの解答漏洩の頑健性を、対立的な学生の攻撃に対して評価する
arXiv cs.AI / 2026/4/22
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、教育用LLMチューターが「解答漏洩」(足場かけではなく完全な解答を開示してしまうこと)を、学習者が敵対的に振る舞う場合にどの程度起こすかを検討します。
- 異なるモデル系統、教育目的に整合したモデル、マルチエージェント設計のチューターモデルなどを幅広く評価し、教育設定に適応した複数の敵対的・説得的攻撃手法に対して検証します。
- in-contextの敵対的学生エージェントの種類を変えながら解答漏洩の頑健性を測定した結果、多くの基本的な攻撃では最終答案を効果的に引き出せないことが分かりました。
- より厳密な評価のため、LLMベースのチューターをジェイルブレイクできるように微調整した敵対的学生エージェントを導入し、頑健性ベンチマークの中核として提案します。
- さらに、解答漏洩を減らし、敵対的な学生行動下でのチューターの頑健性を高める、シンプルで効果的な防御戦略も提示します。