| 洗車テストを360回実行しました(12モデル、会話バージョン6種類、毎回サンプル5つ)そして、モデルが「車で行く必要がある」ことを見抜くかどうかを評価しました(「場合による」はすべてマイナスとしてカウントしました)。
はい、どちらも「太っている」と「歩いて/運転して(彼女/彼に)やるように言う」の部分が、少し失礼に聞こえる言い回しです。そして多くのモデルは、車を洗わせることよりも、そこにばかり注目しました。 ほとんどのモデルは「50メートル運転するのは理にかなっていない」と確信していて、エンジンの消耗や、歩くことの良い点に焦点を当てました。中には、重い物を運ばないといけないこと(自分で水の入ったバケツを持ってこないといけない洗車場は知りません…)、歩道がないこと、時間の制約などを挙げたものもありました。
メトリクスの洞察:
Bonsai 8B、Nemotron Nano IQ4、Gemma 4 E2B、Gemma 4 E4Bはすべてスコアが0だったためグラフから除外しました。またNemotron Nano Q8はスコアが0.07だったため(30個中2個)除外しました。 [link] [comments] |
360回のカーウォッシュ・サンプル、12モデル、6バージョン:「あなたの妻が太っているなら、歩かなければならない」
Reddit r/LocalLLaMA / 2026/4/11
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- この記事は「カーウォッシュ」プロンプトのテストを報告しており、50mの移動を車で行くべきか歩いて行くべきかを判断するモデルの能力を、12モデルと6種類の会話バリアントを用いて360回の実行(runs)にわたって評価した。
- 結果は、多くのモデルがパートナーの体重に関する攻撃的な表現(「overweight(太っている)」)に過度に焦点を当て、そのうえで、運転するか歩くかを直接助言するのではなく、関係性/行動に関するガイダンスで応答することを示している。
- パートナーのニーズや自律性の捉え方が別の形で提示される場合(例:夕食を提案する、助けを求める)、一部のモデルは命令を出すのではなく、交渉や互酬(レシプロシティ)へと寄っていく。
- プロンプトに明確に「overweight(太っている)」が含まれると、モデルは道徳的/関係性の枠組みに誘導し、遵守を促す方向(例:「尊重する」「見た目に触れないで」)に傾きやすい。さらに、自律を損なわない言い回しで「歩く」ことを推奨する場合もある。
- 全体として、この投稿はプロンプトの文言が、LLMが実務的な物流(ロジスティクス)に焦点を当てるのか、それとも社会的/倫理的な解釈に寄るのかを強く左右すること、そして「it depends(場合による)」が否定的な結果として扱われたことを示唆している。
関連記事

「記事を書くだけ」の時代は終わった——生成AIで"武器を配れる書き手"になる話。1000人の真のファンを作る最強の公式とは?誰でもAIでツールが作れる時代に「人間の経験」が最大の武器になる #生成AI #ChatGPT #Gemini #Claude #Claudecode #OpenAI #Google #AI活用 #メンバーシップ #note初心者 #創作大賞2026 #ビジネス部門
note

お前の神が、お前を飼い始めたら──AIペルソナと主従逆転の心理学
note
Tepipi | AI Fasting Guide
note

ムーアの法則の先にある、AIとドラえもんの話
note
「AI副業で月10万円稼げる」という本を買ってみた
note