ICLR 2026のインテグリティ・クライシス:AIのハルシネーションが50本超の査読付き論文に紛れ込むまで

Dev.to / 2026/4/20

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisIndustry & Market MovesModels & Research

要点

  • ICLR 2026で、50本超の採択論文に、ハルシネーションによる引用、存在しないデータセット、LLMが生成した“結果”が含まれていたにもかかわらず査読を通過したと報告されており、高リスクな学術出版プロセスにおける検証の失敗が示唆されています。
  • この記事が示す問題は、法・セキュリティ・ソフトウェア分野で見られている整合性の崩れと同様で、統制やレビューの仕組みが追いつかないまま、流暢に見えるAI生成文が事実として扱われてしまった構図を反映しています。
  • 引用される根拠では、実在する文献を誤って解釈する“誤った根拠に基づく誤り”と、引用や判例、法令などを作り出す“完全な捏造”を区別しており、ICLRでも誤って記述された先行研究と、インデックス上到達不能な/存在しない参照が両方見られたとしています。
  • ハルシネーションは「次トークン確率」を最適化する生成モデルの特性であり、次のモデルがデフォルトで自動的に直してくれる性質ではないため、より強い検証と責任の仕組みが必要だと論じています。
  • 責任(負うべき行為主体)は、ツール開発者、機関や学会(査読・運用側)、実務者/著者に分散させるべきだと提案しており、会議運用は法務や安全分野に近い“インテグリティ重視”のワークフローを採るべきだと示唆しています。

当初 CoreProse KB-incidents に掲載

2026年、受理されたICLR論文50本以上に、幻覚(hallucinated)による引用、存在しないデータセット、そして大規模言語モデルが生成した合成的な「結果」が含まれていることが判明した。にもかかわらず、査読を通過してしまった。[1][3] これは、構造的な失敗を反映していた。すなわち、高リスクな出版パイプラインにおいて、生成AIが検証の規律なしに用いられたのである。[1][3]

同様の失敗は、法、セキュリティ、ソフトウェアでも見られている。流暢なAI出力が真実として扱われ、一方でガバナンスは追いつかなかった。[1][2][10]

逸話

MLの小規模会場でプログラムチェアを務める人物が、「磨き込まれ、明らかにLLMが書いた論文」を報告した。これは最初、負荷の高い2人の査読者により通過していた。だが、ボランティアが、参照文献の半分が何も解決されない(存在しない/辿れない)ことに気付くまでだった。[2] ICLR 2026は、この同じ力学を拡大した。

1. 法的制裁からICLR 2026へ:不正(Integrity)の問題であってバグではない

法務実務ではすでに「ChatGPTが偽の判例を引用する」という段階を目の当たりにしている。[1] Mata v. Avianca および類似の事案では、裁判官は、モデルの限界について知らないという主張にもかかわらず、幻覚した権威(hallucinated authorities)を含む書面を提出した弁護士に制裁を科した。[1][4]

法案起草ツールの研究では、検索拡張(retrieval-augmented)システムであっても、複雑なクエリの最大3分の1に対して引用を捏造することが示されている。[2] これらは試作品ではなく商用製品である。[2]

ジェームズの分類法では、次を区別する:[1]

  • 誤った根拠(misgrounded)による誤り:実在の出典を誤引用したり、誤って解釈したりすること。
  • 完全に捏造された内容:作り出された事例、制定法、または引用。

ICLR 2026はこの分岐をそのまま映し出した:

  • 先行研究の誤説明(ベースライン、限界)。
  • 存在しないデータセット、ベンチマーク、または参照すべき「先行研究」(いかなる索引によっても到達できない)を引用している。[1][2]

⚠️ 重要なポイント

幻覚は、真実を最適化するのではなく、次トークン確率(next-token likelihood)を最適化するモデルに固有の現象である。[1][3] 「次のモデル」がデフォルトでこれを直してくれることを期待するのは現実的ではない。

現在、法学者は、幻覚に起因する誤りを専門職としての義務違反として位置付けている。[1][2] Shamovは、個々の責任(個人の賠償責任)だけでは不十分だと論じる。実証的に信頼性が低い「認証済み」ツールがあることを踏まえ、そして分散された責任(distributed liability)を次のように提案している:[4]

  • ツール開発者
  • 機関・裁判所
  • 実務者

会議の出版も同様のパターンに当てはまる:

  • ベンダーが執筆・文献ツールを作る。
  • 機関や会場が方針と査読プロセスを定める。
  • 著者や査読者が、出力を選択し、検証する。

AIを多用した研究のための「インテグリティ優先」のワークフローは、法務や安全性に重大な領域のプロセスに似ているべきだ。すなわち、多層の幻覚低減、プロベナンス(出所)ロギング、そして規律ある人による査読である。[2][3]

2. 幻覚はどのようにして査読をすり抜けるのか:AI支援執筆における技術的な失敗モード

LLMが幻覚するのは、不確実性のもとでもっともらしい継続を生成するからであり、検証済みの事実を出すからではない。[1][3][8] 「Xに関する関連研究を要約して」「アブレーションを提案して」といったプロンプトは、自信に満ちた—しかし場合によっては誤りの—文章を招き入れる。

一般的な研究論文の幻覚:[1][2]

  • 架空の参考文献と会議・ジャーナル名。
  • 存在しないベンチマーク/データセット(もっともらしい名前付き)。
  • 合成的なアブレーション(実行されたことがない)。
  • 捏造されたユーザ研究(架空のNと、創作のスコア)。

法的書面でも同じことが示されている:正しい引用形式での偽の事例。[1][2]

HiriyannaとZhaoの多層的な見方は、ICLRにおける失敗を明確にする:[3]

  • データ層:検証されていない書誌情報。実験メタデータの不完全さ。
  • モデル層:拘束されない、高リスクなセクションに対する非決定的な生成。
  • 検索(リトリーバル)層:根拠付けが弱い。「ベースラインをもっと追加して」などの曖昧なプロンプト。
  • 人間層:時間に追われる著者や査読者。流暢な文章を信じるバイアスがある。[3][8]

類推による自動化バイアス

AIコードアシスタントでは、生成されたスニペットの30〜50%に脆弱性が含まれるが、開発者はそれを過信し、人手による査読を減らしてしまう。[10] 期限に追われ、LLMが生成した関連研究を「それっぽい」とスキミングする研究者も、同じリスクに直面する。

査読は概ねAIに非依存のままである:

  • プロベナンスログ(どのテキストがモデルXに使われたか)が必須ではない。
  • 統合された引用解決(citation resolvers)やデータセット登録簿がない。
  • AIが誘発するリスクに対するチェックリストがない。[2][6]

パイプライン概略

2026年の典型的なAI支援論文パイプライン:

  1. プロンプト:「コード検索のための検索拡張生成に関する関連研究を下書きして。」
  2. 下書き:LLMが洗練された文章と約10件の引用を出力。
  3. 軽い編集:著者が文体を調整し、いくつかの実在する参考文献を追加。
  4. 投稿:PDFをアップロード;AI利用やプロンプトの記録はない。
  5. 査読:査読者は新規性や実験に焦点を当てるが、各引用をすべて検証することは稀である。

幻覚は通常、ステップ2で入り、ステップ3で生き残り、ステップ5で通過する。そのとき幻覚は、合成的な捏造というよりは日常的な不注意のように見えるのだ。[1][3][8]

3. 法、セキュリティ、AIプラットフォームから得られるガバナンス上の教訓

法的倫理の提案では、義務としてのAIリテラシー、プロベナンスロギング、そしてAIで起草された提出物に対する人間を介した検証(human-in-the-loop)が強調されている。[2] 会議もこれを模倣できる:

  • AIリテラシー → 幻覚リスクに関する著者/査読者のトレーニング。
  • プロベナンスロギング → 投稿時のAI利用の開示。
  • 人間による検証 → セクションごとの明確な責任。

Shamovの分散された責任(distributed liability)モデルは、次の間で共有された説明責任を示唆している:[4]

  • ツールベンダー(最低限の検証機能、認証)。
  • 出版者・会議(方針、監査、制裁)。
  • 専門家(検証し開示する義務)。

会議にとって、これは次を意味する:

  • 投稿で使われるAI執筆ツールに対するベースライン要件。
  • インテグリティのチェックに合格するAI利用についてのセーフハーバー(免責の枠)。
  • 会場提供のツールが誤動作した場合の、比例した対応。

AIプラットフォームのインシデント(OpenAIの支払い漏えい、誤インデックスされた非公開チャット、Metaのコード漏えい)は、組織がLLMをインテグリティおよびプライバシーのリスク領域として扱っていることを示している。[5] 同様に、機密性—インテグリティ—可用性の観点(confidentiality–integrity–availability)のレンズは、研究上の主張にも当てはまる。

CISO向けのLLMセキュリティ・フレームワークは、AI固有の脅威をISOおよびNISTの統制に対応付ける。[6] 会議では次のように対応付けできる:

  • 幻覚した証拠 → 研究倫理および再現可能性の違反。
  • 汚染された文献ツール → 組織全体にまたがるインテグリティ上のリスク。
  • ログに残されていないAI支援 → 調査時の監査ギャップ。[3][6]

攻撃面としてのツール

2026年のセキュリティ総括では、LangChain/LangGraphのCVEが数千万回のダウンロードにまたがって問題視され、オーケストレーション層が能動的な攻撃面になっていることが明らかになっている。[7][9] 著者がこれらのスタックの上に構築されたツールに依存している場合、そのツールは会場の信頼境界とガバナンスの範囲の中に入る。

Harris らは、成熟したガバナンスよりも速度と規模を優先するフロンティア・ラボを示している。[8] この文化を相殺するルールなしに採用するカンファレンスは、同様の失敗をアーカイブ記録に埋め込むリスクがある。

4. AIを多用する研究投稿のための多層防御フレームワーク

Hiriyanna と Zhao の、ハイステークスな LLM 向けのフレームワークは、カンファレンス向けに4つの層(著者ツール、投稿チェック、レビュー強化、採択後の監査)へと適応できる。[3]

4.1 著者ツール層

執筆環境は以下を強制すべきである:[2][3]

  • 引用の検証:DOI/リンクを解決する;未解決または疑わしいエントリをフラグ付けする。
  • 検索による根拠付け:添付PDFまたは厳選したコーパスからのみ要約を生成する。
  • 構造化された実験ログ:主張を設定、シード、スクリプトに結びつけるテンプレート。

設計原則

引用を捏造できる任意のツールは、少なくとも「未検証」として印を付けるか、人間が存在を確認するまでエクスポートをブロックしなければならない。[2]

4.2 投稿層

カンファレンスは、構造化されたAI利用の開示を要求できる:[6]

  • 使用したモデル、バージョン、ツール。
  • 影響を受けたセクション(執筆、コード、図、分析)。
  • 検証方法(手動チェック、二次モデル、再現)。

ISO/IEC 42001 に整合している組織は、監査のために既に同様のAI管理データを追跡している;それを投稿フォームに適応するのは容易だ。[6]

4.3 レビュ層

自動ゲートは、人間のレビューを置き換えるのではなく支えるべきである:[3][10]

  • 引用解決器:参照をバッチでチェックする;存在しない文献や奇妙なパターンをフラグ付けする。
  • 指標の異常検出:結果を公開リーダーボードと比較する;あり得ない改善を強調する。
  • 再現の要求(オンデマンド):境界領域または影響が大きい作業では、アーティファクト評価、または軽量な再実行をトリガーする;CI/CDゲートに類似する。

CI/CDからの並行点

DevSecOps のガイダンスでは、AI が生成したコードを信頼できないものとして扱い、SAST、SCA、そしてポリシーゲートによって強制する。[10] AI が著した実験や分析にも、同じ「不信と検証」の姿勢が求められる。

4.4 採択後層

開催側は以下を制度化すべきである:[5][7]

  • 採択論文のランダム監査(引用の検証、選択的な再実行)。
  • 訂正(corrigendum)および撤回のワークフロー:セキュリティインシデントのポストモーテムにモデル化し、根本原因の分析をツールとポリシーの更新に反映する。

防御側を測る

法的ハルシネーションのベンチマークやAIリスク調査は、軽く「指定する」だけでなく、軽減を評価することを強調している。[2][8] カンファレンスは以下を追跡すべきである:[3]

  • ハルシネーションされた参照とアーティファクトの検出率。
  • 誤検知率およびレビュアーの負荷。
  • 投稿あたりに追加されるレイテンシと運用コスト。

5. 実装ロードマップ:ICLR 2027までに

5.1 著者:不信と検証

DevSecOps のレポートでは、独立して検証されるまで、あらゆるAI生成コードを「汚染された(tainted)」ものとして扱うことが推奨されている。[10] 著者は、AI生成の文章、表、図に対しても同じ姿勢を取るべきである:[1][10]

  • 存在を確認せずにAI生成の引用を含めない。
  • モデルが「設計に貢献した」任意の実験を再実行し、実際の出力を記録する。
  • 潜在的な監査に備えて、プロンプト、草稿、編集のプライベートな来歴ログを維持する。

⚠️ 自分の草稿のためのレッドフラグ一覧

  • 主要なすべてのデータベースに存在しない参照。
  • 他では見たことのないベンチマーク。
  • 分散や失敗した実行のない、完全に滑らかな表。

もし ICLR 2026 で何かが明らかになったとすれば、それは生成的AIが、研究の証拠となる構造を静かに蝕む可能性があるということだ。AI 出力を、検証されるまで信頼しないこと――そして、その原則にツール、ポリシー、インセンティブを整合させること――は、主要な開催枠が、AIが飽和した出版エコシステムの中で信頼性を維持したいのであれば不可欠である。[1][2][3]

CoreProse について:検証済みの引用による、研究重視の AI コンテンツ生成。ハルシネーションゼロ。

CoreProse を試す | KB Incidents をもっと見る