コードライブラリ幻覚の検出および軽減のための静的解析手法に関する実証的分析

arXiv cs.CL / 2026/4/10

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、NL-to-codeタスクにおいてLLMがライブラリ利用を頻繁に幻覚し、存在しないライブラリ機能への参照を約8.1%〜40%の応答で生成することを、実証的に明らかにしている。
検出および軽減のための静的解析ツールを評価し、それらが一般的な誤りの約16%〜70%と、ライブラリ幻覚の約14%〜85%を検出できることを報告している。結果はLLMとデータセットの両方に依存する。
手動調査により、静的解析で捕捉されにくい幻覚ケースが存在することが示されており、検出／軽減の推定上限は48.5%〜77%となる。
総合すると、本研究は、静的解析がコードライブラリ幻覚に対する比較的低コストな部分的対策である一方で、より広範な幻覚問題を完全には解決できないと結論づけている。

要旨: 大規模言語モデルは、広範な研究にもかかわらず、コードを生成する際、とりわけライブラリを使用するときに幻覚を起こし続けます。ライブラリの使用を要求するNL-to-codeベンチマークにおいて、私たちは、LLMが応答の8.1〜40%で存在しないライブラリ機能を用いたコードを生成することを見出しました。幻覚の検出と緩和のための直感的なアプローチの1つは静的解析です。本論文では、静的解析ツールが解決できることと、できないことの両面に関して、その可能性を分析します。静的解析ツールは、すべてのエラーの16〜70%と、ライブラリ幻覚の14〜85%を検出できることが分かりました。性能は、LLMとデータセットによって変動します。手作業による分析により、静的手法ではもっともらしく検出し得ない事例を特定し、これにより可能性の上限を48.5%から77%へと示します。全体として、私たちは、静的解析手法が幻覚の一部の形態に対処するための安価な方法であることを示し、またそれらが常にどこまで問題を解決できないのかを定量化します。

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

日経XTECH

データサイエンティストの役割 AIで変わる、分析から「価値創造」へ

日経XTECH

GLM 5.1がオープンモデルのコードアリーナランキング首位に

Reddit r/LocalLLaMA

AIは、あなたに嘘をつくのが本当に上手になったと言えるのか？

Reddit r/artificial

AIが何千ものゼロデイを発見：それでもあなたのファイアウォールは2014年からのパターンマッチングのまま

Dev.to

コードライブラリ幻覚の検出および軽減のための静的解析手法に関する実証的分析

要点

関連記事

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

データサイエンティストの役割 AIで変わる、分析から「価値創造」へ

GLM 5.1がオープンモデルのコードアリーナランキング首位に

AIは、あなたに嘘をつくのが本当に上手になったと言えるのか？

AIが何千ものゼロデイを発見：それでもあなたのファイアウォールは2014年からのパターンマッチングのまま

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer