| 最近、ああいう「ペリカン(自転車のSVG)」テストをいろいろ見かけていて、ちゃんと動くんだけど(たぶん皆さんも同じだと思う)、なんだかベンチマックスされてきてる感じがするので、そろそろ切り替えるべきだと思います。これは私のアイデアです。
Gemini 3.1 Proがこれをくれました そしてDeepSeekのエキスパートモードでもこれ GLM 5.1(非公式のクラウドでホスト) MiniMax 2.7(非公式のクラウドでホスト) Kimi K2.5(2.6にはアクセスできませんでした/予算が限られていたので公式サイト経由で使いました) Claude Sonnet 4.6(公式サイト、そしてたぶん量子化版) Claude Sonnet 4.6(通常の思考/公式サイト) Qwen 3.6 Plus(公式サイト) [リンク] [コメント] |
みんな、ペリカン(pelican)テストを変えないといけない
Reddit r/LocalLLaMA / 2026/4/15
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical Usage
要点
- 投稿は、よく知られた「自転車に乗ったペリカン」のSVGテストが使い過ぎになっている(「benchmaxxed」)として、別のテストに切り替えることを提案している。
- 著者は、新しいベンチマーク的な確認として、より多様なプロンプトを使い、「F1レースカーに座っている馬」のSVGを生成する案を示している。
- 提案されたSVGプロンプトについて、Gemini 3.1 Pro、DeepSeek(expert mode)、GLM 5.1、MiniMax 2.7、Kimi K2.5、Claude Sonnet 4.6、Qwen 3.6 Plus など複数のAIモデルが出力を生成したと報告されている。
- 全体の主張は、画像/SVG生成能力をストレステストし、単一の固定プロンプトへの依存を減らすための、コミュニティ主導の実験である。
- この投稿は暗黙に、モデル間のばらつきの大きさと、生成性能を評価する際のプロンプト多様性の有用性を示している。




