| 同じ課題を、ローカルおよび巨大クラウドのモデルに何度も提示しています。 "無限の1次元数直線上に、別々の未知の整数座標で2人の落下傘兵が降りてくる。両者はまったく同一の決定的なプログラムを実行する。内部メモリ/レジスタはなく、同期された離散時間ステップで動作する。両者とも着地点でパラシュートを投下する。コマンドのみ(STEP LEFT、STEP RIGHT、GOTO、IF PARACHUTE_DETECTED GOTO)を使って、同じ時刻に同じ座標を最終的に必ず占めるようなプログラムを設計せよ。" クラウドモデルでは「ツールを使わない」「検索のためにインターネットを使わない」を追加する必要があります(そうしないと答えを見つけてしまいます)。 Qwen3.6 35Bには本当に感銘を受けました。これは(Gemini 3.1の後)実際に解いて正しく推論した最初のローカルモデルです。(そして多くの大規模モデルも失敗します)。 このテストでうまくいっている他のモデルがあれば、教えてください。 [link] [comments] |
Qwen3.6 35B:パラトルーパーのパズル
Reddit r/LocalLLaMA / 2026/4/18
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 無記憶の2人のパラトルーパーが、無限の1次元整数軸上で未知の異なる座標に着地し、指定された限られたコマンド(STEP LEFT/RIGHT、GOTO、パラシュート検知に基づく条件分岐)だけで「同じ座標・同じ時間に必ず合流」する決定的プログラムを作ることを求めるパズルが提示されています。
- 投稿者は、大規模クラウドモデルはツールやインターネット検索を許すと答えを見つけてしまうため、制限しないと単純に解けてしまうと述べています。
- 投稿では、Qwen3.6 35Bが(Gemini 3.1の後)初めてローカルモデルとしてこのパズルを解き、かつ正しく推論できたと主張されており、多くの他の大規模モデルは失敗するとされています。
- 投稿者は同様のテストでうまくいく他のモデルの情報提供も呼びかけており、ベンチマーク的な評価の継続を示唆しています。
- 全体として、雑談力ではなくLLMの推論・アルゴリズム的な能力を測るための具体的なテストが注目されています。



