4Bモデルがモンティホール問題を解いた——Qwen3:4b 24問ローカルベンチマーク
Zenn / 3/18/2026
📰 NewsSignals & Early TrendsModels & Research
Key Points
- 4BパラメータのQwen3:4bがモンティホール問題を解く能力を実証した。
- 24問のローカルベンチマークを用いて、小規模モデルでも推論タスクの能力を評価できることを示した。
- ベンチマーク結果は他の同規模モデルとの比較を可能にし、実世界タスクへの適用性を示唆した。
- 今後のモデル設計・ファインチューニング・評価手法に影響を与える可能性がある。
4Bモデルがモンティホール問題を正解する時代が来た。それは本当だった。
ただし「蛙は夏の季語です」とも言い切った。同じモデルが。
スコア
カテゴリ
スコア
A: 意地悪・引っかけ
57/60(95%)
B: 論理・推論
57/60(95%)
C: コーディング
37/60(62%)
D: 日本語力
31/60(52%)
合計
182/240(75.8%)ランクA
環境:RTX 4070 Ti + Ollama v0.17.4。推論速度 104.8 tok/s。VRAM消費約3.5GB。この数字は素直に速い。
A・Bカテゴリで95%という数字...
Continue reading this article on the original site.
Read original →



