多言語コードインテリジェンスのための大規模言語モデル：サーベイ

arXiv cs.LG / 2026/4/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

このサーベイは、大規模言語モデルがAI支援ソフトウェア開発でどのように活用されているかを概観し、言語（プログラミング言語）間での性能差を指摘しています。
Pythonのような高リソース言語に研究が偏りがちであり、RustやOCamlのような言語では性能が相対的に劣ることを強調しています。
注目する主なタスクは2つで、共通の自然言語による要求から複数言語でコードを生成すること、そして意味（セマンティクス）を保ったまま言語間でコードを翻訳することです。
代表的な手法、ベンチマーク、評価指標を整理し、信頼性の高い言語横断での汎化に向けた課題と機会を論じています。
現実のソフトウェアは一般に「ポリグロット」なため、多言語かつ信頼できるコードインテリジェンスが重要だ、という問題設定になっています。

要旨: 大規模言語モデルはAI支援ソフトウェア工学を変革しましたが、現状の研究はPythonのような高リソース言語に偏っており、RustやOCamlのような言語では性能が弱いという問題があります。実世界のシステムは本質的に多言語であるため、堅牢な多言語コード知能が重要です。本調査は2つの主要タスクに焦点を当てています。すなわち、共有された自然言語の要件からの多言語コード生成、そして言語間で意味論を保持する多言語コード翻訳です。代表的な手法、ベンチマーク、評価指標を概観し、信頼できる言語横断の汎化に関する課題と機会を示します。