4Bモデルがモンティホール問題を解いた——Qwen3:4b 24問ローカルベンチマーク
Zenn / 2026/3/18
📰 ニュースSignals & Early TrendsModels & Research
要点
- 4BパラメータのQwen3:4bがモンティホール問題を解く能力を実証した。
- 24問のローカルベンチマークを用いて、小規模モデルでも推論タスクの能力を評価できることを示した。
- ベンチマーク結果は他の同規模モデルとの比較を可能にし、実世界タスクへの適用性を示唆した。
- 今後のモデル設計・ファインチューニング・評価手法に影響を与える可能性がある。
4Bモデルがモンティホール問題を正解する時代が来た。それは本当だった。
ただし「蛙は夏の季語です」とも言い切った。同じモデルが。
スコア
カテゴリ
スコア
A: 意地悪・引っかけ
57/60(95%)
B: 論理・推論
57/60(95%)
C: コーディング
37/60(62%)
D: 日本語力
31/60(52%)
合計
182/240(75.8%)ランクA
環境:RTX 4070 Ti + Ollama v0.17.4。推論速度 104.8 tok/s。VRAM消費約3.5GB。この数字は素直に速い。
A・Bカテゴリで95%という数字...
この記事の続きは原文サイトでお読みいただけます。
原文を読む →関連記事
EU AI Act適合性のために11,529台のMCPサーバをスキャンしました
Dev.to

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す
THE DECODER
Kreuzberg v4.5.0: Doclingのモデルをとても気に入ったので、より高速なエンジンを搭載しました
Reddit r/LocalLLaMA
今日は、qwen 120B のような比較的大きめのローカルモデルを動かすには、どんなハードウェアを用意すべきか?
Reddit r/LocalLLaMA
会議ノート作成のためにMistralをローカルで実行することは、私の用途には正直十分だ
Reddit r/LocalLLaMA