私は、LLMを解決できない矛盾へと無理やり追い込む小さな実験をいくつか行ってきました。
驚いたのは、失敗することではなく、失敗のしかたがそれぞれどれほど違うのかという点です。
私が見ている大まかなパターン:
| 挙動 | ChatGPT | Gemini | Claude |
|---|---|---|---|
| 矛盾を検出する | ✔ | ✔ | ✔ |
| 拒否のタイミング | 遅い | 決してない | 早い |
| それでも回答を生成する | ✘ | ✔ | ✘ |
| 矛盾を言い換える | ✘ | ✔ | ✘ |
| 敵対的なセットアップを検出する | ✘ | ✘ | ✔ |
| 認識論的な枠組みを維持する | 中 | 高 | 非常に高い |
他の人も同様の挙動を見たことがあるのか、それとも既存の研究と一致しているのか気になります。
[リンク] [コメント]




