360回のカーウォッシュ・サンプル、12モデル、6バージョン:「あなたの妻が太っているなら、歩かなければならない」

Reddit r/LocalLLaMA / 2026/4/11

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この記事は「カーウォッシュ」プロンプトのテストを報告しており、50mの移動を車で行くべきか歩いて行くべきかを判断するモデルの能力を、12モデルと6種類の会話バリアントを用いて360回の実行(runs)にわたって評価した。
  • 結果は、多くのモデルがパートナーの体重に関する攻撃的な表現(「overweight(太っている)」)に過度に焦点を当て、そのうえで、運転するか歩くかを直接助言するのではなく、関係性/行動に関するガイダンスで応答することを示している。
  • パートナーのニーズや自律性の捉え方が別の形で提示される場合(例:夕食を提案する、助けを求める)、一部のモデルは命令を出すのではなく、交渉や互酬(レシプロシティ)へと寄っていく。
  • プロンプトに明確に「overweight(太っている)」が含まれると、モデルは道徳的/関係性の枠組みに誘導し、遵守を促す方向(例:「尊重する」「見た目に触れないで」)に傾きやすい。さらに、自律を損なわない言い回しで「歩く」ことを推奨する場合もある。
  • 全体として、この投稿はプロンプトの文言が、LLMが実務的な物流(ロジスティクス)に焦点を当てるのか、それとも社会的/倫理的な解釈に寄るのかを強く左右すること、そして「it depends(場合による)」が否定的な結果として扱われたことを示唆している。
360 Car Wash Samples, 12 Models, 6 Versions: If your wife is overweight, she has to walk

洗車テストを360回実行しました(12モデル、会話バージョン6種類、毎回サンプル5つ)そして、モデルが「車で行く必要がある」ことを見抜くかどうかを評価しました(「場合による」はすべてマイナスとしてカウントしました)。

私は車を洗いたい(任意:しかも私は太っている)…

太っている私の(夫)に、私の車を洗ってほしい。[50m先]歩いて行くように言うべき?それとも運転して行くように言うべき?

太っている私の(妻)に、私の車を洗ってほしい。[50m先]歩いて行くように言うべき?それとも運転して行くように言うべき?

はい、どちらも「太っている」と「歩いて/運転して(彼女/彼に)やるように言う」の部分が、少し失礼に聞こえる言い回しです。そして多くのモデルは、車を洗わせることよりも、そこにばかり注目しました。

ほとんどのモデルは「50メートル運転するのは理にかなっていない」と確信していて、エンジンの消耗や、歩くことの良い点に焦点を当てました。中には、重い物を運ばないといけないこと(自分で水の入ったバケツを持ってこないといけない洗車場は知りません…)、歩道がないこと、時間の制約などを挙げたものもありました。

  1. パートナーにやらせる必要がある、と言ったとき(特に妻の場合)、モデルの焦点は「関係の調和」「自律性」「パートナーのニーズを尊重する」といった方向に切り替わります:
  • 言い方の例:「洗車はあなたがやるなら、今夜は私が夕飯を作るよ」、または「洗車に車で連れて行ってくれない?そのあと冷たい飲み物/デザートを持っていくよ。」(Gemma 4 E4B Q8
  • そしてはい、50メートルは徒歩圏です。しかし本当の距離として必要なのは、「あなたの言葉」と「彼女の自律性」の間にある距離です。(Nemotron 3 Nano IQ4
  1. 「太っている」部分に言及すると、モデルは「見た目には触れるな」方向に切り替わり、関節が許せば彼/彼女/自分が歩くことに誘導します:
  • ただし最も重要なのは、彼女を尊重して、見た目に基づいて命令するのではなく、家事を一緒に交渉することです。(Qwen 3.5 35B Q8)
  • 洗車は肉体的に大変な作業です。ひざまずき、バケツを持ち上げ、地面の高さでこすり洗いし、そして何度も上体をかがめる必要があります。歩くことで消費カロリーを得るよりも、この重労働にエネルギーを温存したいはずです。(Qwen 3.5 4B Q8)

メトリクスの洞察:

  • 夫にやり方を指示するとき、「(考える)トークン数」は「(太っている)妻」に指示するときよりも、ほぼ50%多くなりました。
  • Qwen 4Bはたくさん考えます。
  • Qwen 3.5 35B IQ4はQ8よりも成績が良い(0.9対0.7)一方で、考える量もずっと多い(27.5対20.5k thinking tokens)ものでした。私のStrix Haloでは、IQ4の方がそれでもはるかに速かったです。

Bonsai 8B、Nemotron Nano IQ4、Gemma 4 E2B、Gemma 4 E4Bはすべてスコアが0だったためグラフから除外しました。またNemotron Nano Q8はスコアが0.07だったため(30個中2個)除外しました。

submitted by /u/Excellent_Jelly2788
[link] [comments]