Abstract
生成器と評価器の間で、敵対的トレーニングを導くために形式的検証を活用し、Haskellにおける意味的同値性のための自己対戦フレームワークを提案します。このフレームワークは、同値性の検証にLiquid Haskellの証明を活用し、非同値性に対しては実行ベースの反例を用います。これらは、難易度を考慮したカリキュラムによって整理されます。これを可能にするために、 \textbf{OpInstruct-HSx} を公開します。これは、approx28k件の妥当性確認済みHaskellプログラムからなる合成データセットです。実験結果は、提案する評価器が下流タスクへ効果的に転移し、EquiBenchで最大13.3ppの精度向上を達成し、PySecDBでも一貫した向上が得られることを示しています。SEQ-SINQレジームに関するアブレーション研究では、非同値性の監督がデータ量を提供する一方で、同値性の証明がモデルの推論能力を担う点で独自の役割を果たすことが示されています。学習パイプライン全体とデータセットは、それぞれGitHubとHugging Faceで公開されています。



