みんな、ペリカン(pelican)テストを変えないといけない

Reddit r/LocalLLaMA / 2026/4/15

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical Usage

要点

  • 投稿は、よく知られた「自転車に乗ったペリカン」のSVGテストが使い過ぎになっている(「benchmaxxed」)として、別のテストに切り替えることを提案している。
  • 著者は、新しいベンチマーク的な確認として、より多様なプロンプトを使い、「F1レースカーに座っている馬」のSVGを生成する案を示している。
  • 提案されたSVGプロンプトについて、Gemini 3.1 Pro、DeepSeek(expert mode)、GLM 5.1、MiniMax 2.7、Kimi K2.5、Claude Sonnet 4.6、Qwen 3.6 Plus など複数のAIモデルが出力を生成したと報告されている。
  • 全体の主張は、画像/SVG生成能力をストレステストし、単一の固定プロンプトへの依存を減らすための、コミュニティ主導の実験である。
  • この投稿は暗黙に、モデル間のばらつきの大きさと、生成性能を評価する際のプロンプト多様性の有用性を示している。
Guys we have to change the pelican test

最近、ああいう「ペリカン(自転車のSVG)」テストをいろいろ見かけていて、ちゃんと動くんだけど(たぶん皆さんも同じだと思う)、なんだかベンチマックスされてきてる感じがするので、そろそろ切り替えるべきだと思います。これは私のアイデアです。

f1のレースカーに座っている馬のhtml svgを作って

Gemini 3.1 Proがこれをくれました

Gemini 3.1 Pro

そしてDeepSeekのエキスパートモードでもこれ

DeepSeek Expert(公式サイト)

GLM 5.1(非公式のクラウドでホスト)

GLM 5.1

MiniMax 2.7(非公式のクラウドでホスト)

Minimax M2.7

Kimi K2.5(2.6にはアクセスできませんでした/予算が限られていたので公式サイト経由で使いました)

Kimi K2.5

Claude Sonnet 4.6(公式サイト、そしてたぶん量子化版)

Claude Sonnet 4.6(通常の思考/公式サイト)

Qwen 3.6 Plus(公式サイト)

Qwen 3.6 Plus

提出者 /u/Tall-Ad-7742
[リンク] [コメント]