SemEval-2026タスク13におけるmcdok：機械生成コード検出のためのLLM微調整

arXiv cs.LG / 2026/4/24

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

SemEval-2026タスク13は、多言語の機械生成コードを対象に、二値検出とソース帰属の両方を含む形で取り組む。
サブタスクとして、どの生成LLMファミリーが作ったコードかの検出、ヒトと機械の共生成コードの特定、出自を隠すための敵対的改変コードの検出などが扱われる。
著者らは、機械生成テキスト検出向けの既存手法mdokを機械生成コード向けに調整し、コード理解に適した複数のベースモデルを検討した。
提出システムはいずれの3サブタスクでも競争力のある結果を示したが、上位チームとの差は大きく、さらなる改善余地があることが示唆される。

Abstract

さまざまなプログラミング言語における機械生成コード断片のマルチドメイン検出は、難しい課題である。SemEval-2026 Task~13は、この課題に対して複数の観点から取り組んでおり、二値の検出問題としてだけでなく、出所の帰属付け（attribution）も扱う。具体的には、そのサブタスクには、生成器LLMファミリの検出に加えて、人間と機械がハイブリッドに共同生成したコード、あるいは出所を隠すように対敵的（adversarially）に改変されたコードの検出も含まれる。今回提出したシステムは、機械生成テキストの検出に焦点を当てた既存のmdokアプローチを、コード理解により適したさまざまな基盤モデルを探ることで、これらの特定の種類の問題に合わせて調整した。結果は、提出システムが3つのサブタスクすべてにおいて競争力のあることを示している。ただし、最上位のシステムとの差は大きく、したがってさらなる改善の余地がある。