論文:
https://arxiv.org/abs/2603.21676
これはTRMアプローチの別の反復として興味深いと思いました:
- 3つのタスクのうち2つで、適度なOOD汎化を示す
- (ただし、なぜこれは>2倍で失敗するのか? そして、なぜ構造化されていないテキストがこれほどまでに悪いのか?)
- 中間ステップへの教師ありが、なぜ汎化を損なうのかを説明している。
- これにより、統計的ヒューリスティックがモデルにとって「抗しがたい」ものになり、本当の「推論」への投資が損なわれる。
- 私はこれに同意し、さらに踏み込んで、それが基盤モデルの(たちの悪い)弱点を捉えているだけでなく、もしかすると、専門家である人間が陥る罠すら説明しているのではないか、と主張したいです。つまり、人間は(膨大な)経験に頼って直観を生成する一方で、より少ないヒューリスティックと、より明示的な推論を用いて状況を考え抜くのとは対照的です。
[リンク] [コメント]




