LoCoMoを監査したところ、模範解答の6.4%が誤りで、意図的に間違えた回答の最大63%をジャッジが受理することが判明
Reddit r/LocalLLaMA / 2026/3/23
Reddit r/LocalLLaMA / 2026/3/23
日経XTECH / 2026/3/23
Dev.to / 2026/3/23
Dev.to / 2026/3/23
Dev.to / 2026/3/23
Dev.to / 2026/3/23

The Verge / 2026/3/23
日経XTECH / 2026/3/23
The Register / 2026/3/23