LLMのためのとても基本的なリトマステスト

Reddit r/LocalLLaMA / 2026/5/4

💬 オピニオンIdeas & Deep AnalysisTools & Practical Usage

要点

  • 著者は、ローカルのCドライブを読み取り、サイズ順(大きいものから小さいものへ)に名前やフォルダを並べるPythonプログラムを作るようLLMに指示する「リトマス試験」を紹介しています。
  • ローカルで動かしたモデルでは、実行が失敗する、ファイルサイズを二重に数える、再帰を再帰の中に入れるなどの誤りが起きたと述べています。
  • このテストは、曖昧な回答ではなく、LLMが生成したコードのよくある実装ミスを素早く見抜くための実用的な手段だと位置づけられています。
  • さらに、生成されたコードを別のクラウドAPIで検証して正しさへの確信を高める提案がなされています。
  • 全体として、単純そうに見えるコーディング要求でも、ファイルシステムの探索やサイズ計算の推論力の弱点が露呈し得ることが示されています。

そして、あなたのクラウドのFOTM APIに、出力したコードを検証させてください。
簡単な質問だと思ったのですが、ローカルのものはそれでただ死んでしまいました。誤った実行、ファイルサイズの二重読み取り、再帰関数の中に再帰関数を入れるといった具合です。

たぶん、私には魔法のテストができました。

submitted by /u/KptEmreU
[link] [comments]