4Bモデルがモンティホール問題を解いた——Qwen3:4b 24問ローカルベンチマーク

Zenn / 2026/3/18

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

4BパラメータのQwen3:4bがモンティホール問題を解く能力を実証した。
24問のローカルベンチマークを用いて、小規模モデルでも推論タスクの能力を評価できることを示した。
ベンチマーク結果は他の同規模モデルとの比較を可能にし、実世界タスクへの適用性を示唆した。
今後のモデル設計・ファインチューニング・評価手法に影響を与える可能性がある。

4Bモデルがモンティホール問題を正解する時代が来た。それは本当だった。ただし「蛙は夏の季語です」とも言い切った。同じモデルが。スコアカテゴリスコア A: 意地悪・引っかけ 57/60（95%） B: 論理・推論 57/60（95%） C: コーディング 37/60（62%） D: 日本語力 31/60（52%）合計 182/240（75.8%）ランクA 環境：RTX 4070 Ti + Ollama v0.17.4。推論速度 104.8 tok/s。VRAM消費約3.5GB。この数字は素直に速い。 A・Bカテゴリで95%という数字...

この記事の続きは原文サイトでお読みいただけます。

原文を読む →

EU AI Act適合性のために11,529台のMCPサーバをスキャンしました

Dev.to

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

THE DECODER

Kreuzberg v4.5.0: Doclingのモデルをとても気に入ったので、より高速なエンジンを搭載しました

Reddit r/LocalLLaMA

今日は、qwen 120B のような比較的大きめのローカルモデルを動かすには、どんなハードウェアを用意すべきか？

Reddit r/LocalLLaMA

会議ノート作成のためにMistralをローカルで実行することは、私の用途には正直十分だ

Reddit r/LocalLLaMA

4Bモデルがモンティホール問題を解いた——Qwen3:4b 24問ローカルベンチマーク

要点

関連記事

EU AI Act適合性のために11,529台のMCPサーバをスキャンしました

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

Kreuzberg v4.5.0: Doclingのモデルをとても気に入ったので、より高速なエンジンを搭載しました

今日は、qwen 120B のような比較的大きめのローカルモデルを動かすには、どんなハードウェアを用意すべきか？

会議ノート作成のためにMistralをローカルで実行することは、私の用途には正直十分だ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer