事前学習済みコードモデルのファインチューニングによるAI生成コード検出
arXiv cs.CL / 2026/5/5
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- Archaeologyチームは、AI生成コードの検出を目的としたSemEval-2026 Task 13にシステムを提出し、人手コードとAI生成コードの判別および生成モデルの特定の両方に対応しました。
- 共有タスクはSubtask-A(人手コードかAI生成かの2値分類)とSubtask-B(生成モデルを11クラスで帰属)で構成され、それぞれのサブタスクに合わせて手法を最適化しています。
- TF-IDF+Logistic Regressionのベースラインから出発し、CodeBERT、GraphCodeBERT、UniXcoder、CodeT5+の4つの事前学習済みコードモデルをファインチューニングします。
- Subtask-Aでは、言語を1つ除外するleave-one-language-outの交差検証、コード拡張、トリム平均による集約を行うチャンク分割推論、難しめのデータセットに対する閾値キャリブレーションを用います。
- Subtask-Bでは、サンドイッチ型トークンパッキング、クラス均衡化した損失、テスト時データ拡張を併用した複数シードのアンサンブルを適用し、Subtask-AでマクロF1=0.737、Subtask-BでマクロF1=0.422という結果を得ています。