GoCoMA:双曲多モーダル表現融合による大規模言語モデル生成コードの出所帰属

arXiv cs.CL / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文では、LLMが人手コードに見分けづらいコードを生成できるようになったことに伴う法医学的ニーズに対応するため、生成コードの出所となったLLMを特定するマルチモーダル手法GoCoMAを提案します。
  • GoCoMAは、コードのスタイロメトリ(構造・スタイルの特徴)と、バイナリ前実行アーティファクトの画像表現(コンパイルやツールチェーンにより形成される低レベルの実行指向バイト意味論)という、相補的な2種類の信号を組み合わせます。
  • 各モダリティを双曲線のポアンカレ球に埋め込み、測地線コサイン類似度に基づくクロスモーダル注意(GCSA)でモダリティを効果的に融合します。
  • 双曲表現として融合した結果をユークリッド空間へ写像し、最終的なLLMソース帰属を行います。
  • CoDET-M4およびLLMAuthorBenchという2つの公開ベンチマークで、同一の評価プロトコル下において、単一モダリティやユークリッド系マルチモーダルのベースラインより一貫して性能が高いことが示されています。

Abstract

大規模なコードコーパスで学習された大規模言語モデル(LLM)は、現在、人が書いたコードと見分けがつきにくいコードを生成できるよう、ますます能力が高まっています。これにより、セキュリティ脆弱性やライセンスの曖昧さといった実務上の懸念が生じるだけでなく、法医学的な問いも動機づけられます:「このコード片を書いたのは誰(またはどのLLM)ですか?」 私たちはGoCoMAを提案します。GoCoMAは、(i) コード・スタイロメトリ(高レベルの構造的およびスタイル的な特徴を捉える)と、(ii) バイナリの実行前アーティファクトの画像表現(BPEA)(コンパイルやツールチェーンによって形作られた、実行志向のバイト意味論を捉える)との間に、外在的な階層関係をモデル化するマルチモーダル・フレームワークです。GoCoMAは、モダリティ埋め込みを双曲線ポアンカレ球に射影し、それらを測地線コサイン類似度に基づくクロスモーダル注意(GCSA)融合メカニズムで融合させ、最終的なLLMソース帰属のために融合表現をユークリッド空間へ逆射影します。2つの公開ベンチマーク(CoDET-M4およびLLMAuthorBench)での実験により、GoCoMAは同一の評価プロトコルのもとで、単一モーダルおよびユークリッド・マルチモーダルのベースラインを一貫して上回ることが示されます。