GoCoMA：双曲多モーダル表現融合による大規模言語モデル生成コードの出所帰属

arXiv cs.CL / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文では、LLMが人手コードに見分けづらいコードを生成できるようになったことに伴う法医学的ニーズに対応するため、生成コードの出所となったLLMを特定するマルチモーダル手法GoCoMAを提案します。
GoCoMAは、コードのスタイロメトリ（構造・スタイルの特徴）と、バイナリ前実行アーティファクトの画像表現（コンパイルやツールチェーンにより形成される低レベルの実行指向バイト意味論）という、相補的な2種類の信号を組み合わせます。
各モダリティを双曲線のポアンカレ球に埋め込み、測地線コサイン類似度に基づくクロスモーダル注意（GCSA）でモダリティを効果的に融合します。
双曲表現として融合した結果をユークリッド空間へ写像し、最終的なLLMソース帰属を行います。
CoDET-M4およびLLMAuthorBenchという2つの公開ベンチマークで、同一の評価プロトコル下において、単一モダリティやユークリッド系マルチモーダルのベースラインより一貫して性能が高いことが示されています。

Abstract

大規模なコードコーパスで学習された大規模言語モデル（LLM）は、現在、人が書いたコードと見分けがつきにくいコードを生成できるよう、ますます能力が高まっています。これにより、セキュリティ脆弱性やライセンスの曖昧さといった実務上の懸念が生じるだけでなく、法医学的な問いも動機づけられます：「このコード片を書いたのは誰（またはどのLLM）ですか？」私たちはGoCoMAを提案します。GoCoMAは、(i) コード・スタイロメトリ（高レベルの構造的およびスタイル的な特徴を捉える）と、(ii) バイナリの実行前アーティファクトの画像表現（BPEA）（コンパイルやツールチェーンによって形作られた、実行志向のバイト意味論を捉える）との間に、外在的な階層関係をモデル化するマルチモーダル・フレームワークです。GoCoMAは、モダリティ埋め込みを双曲線ポアンカレ球に射影し、それらを測地線コサイン類似度に基づくクロスモーダル注意（GCSA）融合メカニズムで融合させ、最終的なLLMソース帰属のために融合表現をユークリッド空間へ逆射影します。2つの公開ベンチマーク（CoDET-M4およびLLMAuthorBench）での実験により、GoCoMAは同一の評価プロトコルのもとで、単一モーダルおよびユークリッド・マルチモーダルのベースラインを一貫して上回ることが示されます。

ソニーAI、高速・高精度なフィジカルAI 卓球ロボでプロ選手並みに

日経XTECH

OpenAIが臨床現場向けAI「ChatGPT for Clinicians」をリリース、ベンチマークで人間の医師より優れたスコアを出す

GIGAZINE

フィジカルAIのデータ収集方法を選定、実機テレオペ・UMI・Egocentricなど4方式を比較、開発現場で使えるデータ作成方法を解説

Qiita

「AIを使う仕事ほど危機感」「高収入ほどAIによる恩恵」などAnthropicのAIに関する調査結果が公表される

GIGAZINE

OpenAI、個人情報保護モデル「Privacy Filter」を公開　商用利用可能な軽量設計

ITmedia AI+

GoCoMA：双曲多モーダル表現融合による大規模言語モデル生成コードの出所帰属

要点

Abstract

関連記事

ソニーAI、高速・高精度なフィジカルAI 卓球ロボでプロ選手並みに

OpenAIが臨床現場向けAI「ChatGPT for Clinicians」をリリース、ベンチマークで人間の医師より優れたスコアを出す

フィジカルAIのデータ収集方法を選定、実機テレオペ・UMI・Egocentricなど4方式を比較、開発現場で使えるデータ作成方法を解説

「AIを使う仕事ほど危機感」「高収入ほどAIによる恩恵」などAnthropicのAIに関する調査結果が公表される

OpenAI、個人情報保護モデル「Privacy Filter」を公開　商用利用可能な軽量設計

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

ソニーAI、高速・高精度なフィジカルAI 卓球ロボでプロ選手並みに

OpenAIが臨床現場向けAI「ChatGPT for Clinicians」をリリース、ベンチマークで人間の医師より優れたスコアを出す

フィジカルAIのデータ収集方法を選定、実機テレオペ・UMI・Egocentricなど4方式を比較、開発現場で使えるデータ作成方法を解説

「AIを使う仕事ほど危機感」「高収入ほどAIによる恩恵」などAnthropicのAIに関する調査結果が公表される

OpenAI、個人情報保護モデル「Privacy Filter」を公開 商用利用可能な軽量設計

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

OpenAI、個人情報保護モデル「Privacy Filter」を公開　商用利用可能な軽量設計