実際には偽造が難しいコーディングのベンチマークを作りました。GPT-5.2、O4-mini、Gemini、Qwen、Kimi の各モデルに対して、私たちが思いつくすべてのプロンプト技を使った結果の最高は 11% でした。

Reddit r/LocalLLaMA / 2026/3/16

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本記事は、エソテリック言語を用いた EsoLang-Bench というベンチマークを紹介します。これは AI モデルの真の推論とパターンマッチングを区別するためのものです。
結果は GPT-5.2、O4-mini、Gemini 3 Pro、Qwen3-235B、Kimi K2 の各モデルに対して報告され、自己スキャフォルディングを用いた Befunge-98 での最高スコアは 11.2%、その他の設定では 0% となっています。
エージェント型システム（Claude Code、Codex）は、真の推論移転ではなく、より鋭いフィードバックループと文脈管理のおかげで非エージェント型を上回ると指摘しています。
高いスコアが偽装しにくい評価を増やすべきだと主張し、EsoLang-Bench を、ゲーム化のインセンティブを最小化しつつ真の一般化を検証するテンプレートとして提示します。

$\"実際に偽造が難しいコーディングベンチマークを作りました。GPT-5.2、O4-mini、Gemini、Qwen、Kimi$

アイデアは、モデルがコーディング問題を「解く」時に実際に何が起きているかを見極めるのがいかに難しいかに気づいたことから生まれました。問題を解く推論をしているのか、それとも訓練中に見た膨大な量の Python や JavaScript によるパターンマッチングだけなのか？恐ろしい答えは、標準的なベンチマークでは本当に区別できないということです。

二者を区別するため、難解なプログラミング言語を用いました。Brainfuck、Befunge-98、Whitespace、Unlambda、Shakespeare。HumanEvalと同じ難易度レンジでの同じアルゴリズム的問題を、訓練データがほぼゼロの言語で解く、という形です。Whitespace を含める合理的な事前学習パイプラインはありません。デプロイ価値がなく、主流タスクの性能をおそらく低下させる可能性が高いからです。ここには何も攻略の余地はありません。

私たちは GPT-5.2、O4-mini、Gemini 3 Pro、Qwen3-235B、Kimi K2 を、自己支援（セルフスキャフォールディング）、コーダー-クリティックのペア、ReAct パイプラインを含む5つのプロンプティング戦略でテストしました。最高の単一結果は Befunge-98 での 11.2%、自己支援を用いた場合で、Medium/Hard/Extra-Hard は文字通りすべての条件で 0% のままでした。Few-shot は平均で +0.8 ポイントを与えましたが、統計的にはノイズと区別がつきません。エージェント型システム（Claude Code、Codex）は非エージェント型のアプローチより2～3倍優れていましたが、それは主に鋭いフィードバックループと文脈管理のおかげであり、実際の推論転移らしきものによるものではほとんどありませんでした。

エラーの内訳は、私が最も興味深く感じる点です。オンラインで一定の存在感がある Brainfuck では、モデルは有効な構文を出力しますが、論理には失敗します。ほとんど何も存在しない Whitespace では、モデルは有効なプログラムさえ作成できません。事前学習の一部とほぼゼロの間の差は、失敗モードに非常に明確に現れます。

このコミュニティはベンチマークの数値を議論することに多くの時間を費やしますが、この研究からの正直な結論は、高得点が実際には偽造しにくい評価をもっと増やす必要があるということです。Python の難易度の高い問題というわけではなく、ゲーム化の経済的動機がそもそも存在しない評価、良い性能へ到達する唯一の道がモデルが真に一般化を学ぶことになる評価が必要です。EsoLang-Bench はそのテンプレートとしての私たちの試みですが、他の人がこのアイデアを基に発展させてほしいと考えています。新しい言語、新しい問題タイプ、または全く異なるOODドメインを通じてでも構いません。

ウェブサイト: https://esolang-bench.vercel.app/ 論文: https://arxiv.org/abs/2603.09678

投稿者 /u/ShoddyIndependent883
[リンク] [コメント]

EU AI Act適合性のために11,529台のMCPサーバをスキャンしました

Dev.to

追跡業務の自動化：フェスティバル出店者のコンプライアンスのためのAI

Dev.to

MCPスキルとMCPツール: サーバーを正しく構成する方法

Dev.to

2026年にすべてのコンテンツクリエイターが必要とする500のAIプロンプト（20件の無料サンプル付き）

Dev.to

娘のためのAIを活用したゲームを作る — 第1部: 彼女も作れるとしたら？

Dev.to

実際には偽造が難しいコーディングのベンチマークを作りました。GPT-5.2、O4-mini、Gemini、Qwen、Kimi の各モデルに対して、私たちが思いつくすべてのプロンプト技を使った結果の最高は 11% でした。

要点

関連記事

EU AI Act適合性のために11,529台のMCPサーバをスキャンしました

追跡業務の自動化：フェスティバル出店者のコンプライアンスのためのAI

MCPスキルとMCPツール: サーバーを正しく構成する方法

2026年にすべてのコンテンツクリエイターが必要とする500のAIプロンプト（20件の無料サンプル付き）

娘のためのAIを活用したゲームを作る — 第1部: 彼女も作れるとしたら？

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer