GoCoMA:双曲多モーダル表現融合による大規模言語モデル生成コードの出所帰属
arXiv cs.CL / 2026/4/21
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文では、LLMが人手コードに見分けづらいコードを生成できるようになったことに伴う法医学的ニーズに対応するため、生成コードの出所となったLLMを特定するマルチモーダル手法GoCoMAを提案します。
- GoCoMAは、コードのスタイロメトリ(構造・スタイルの特徴)と、バイナリ前実行アーティファクトの画像表現(コンパイルやツールチェーンにより形成される低レベルの実行指向バイト意味論)という、相補的な2種類の信号を組み合わせます。
- 各モダリティを双曲線のポアンカレ球に埋め込み、測地線コサイン類似度に基づくクロスモーダル注意(GCSA)でモダリティを効果的に融合します。
- 双曲表現として融合した結果をユークリッド空間へ写像し、最終的なLLMソース帰属を行います。
- CoDET-M4およびLLMAuthorBenchという2つの公開ベンチマークで、同一の評価プロトコル下において、単一モダリティやユークリッド系マルチモーダルのベースラインより一貫して性能が高いことが示されています。
関連記事
ソニーAI、高速・高精度なフィジカルAI 卓球ロボでプロ選手並みに
日経XTECH

OpenAIが臨床現場向けAI「ChatGPT for Clinicians」をリリース、ベンチマークで人間の医師より優れたスコアを出す
GIGAZINE
フィジカルAIのデータ収集方法を選定、実機テレオペ・UMI・Egocentricなど4方式を比較、開発現場で使えるデータ作成方法を解説
Qiita

「AIを使う仕事ほど危機感」「高収入ほどAIによる恩恵」などAnthropicのAIに関する調査結果が公表される
GIGAZINE
OpenAI、個人情報保護モデル「Privacy Filter」を公開 商用利用可能な軽量設計
ITmedia AI+