要旨: 既存のどの研究者も、ツールを用いてOpenAIが公開した gpt-oss-20b のスコアを独立に再現していません。なぜなら、元の論文にはツールもエージェント・ハーネスも開示されていないからです。私たちはモデルのイン分布(in-distribution)ツールをリバースエンジニアリングしました。すなわち、ツール定義なしでプロンプトを与えると、gpt-oss は訓練分布に由来するツールを高い統計的確信度で呼び出します。これは幻覚ではなく、強い事前知識(strong prior)です。次に、ネイティブなハーモニー・エージェント・ハーネス(https://github.com/borislavmavrin/harmonyagent.git)を構築し、モデルのネイティブ形式でメッセージを符号化することで、損失を伴う Chat Completions の変換を回避しました。これらにより、OpenAIが公開したスコアの初めての独立再現が得られました。SWE Verified HIGH で 60.4%(公開 60.7%)、MEDIUM で 53.3%(53.2%)、およびツールを用いた AIME25 で 91.7%(90.4%)です。
GPT-OSSと調和して
arXiv cs.AI / 2026/4/2
💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- OpenAIのgpt-oss-20bの結果は、元の論文がツールおよびエージェント・ハーネスの詳細を省略していたとされるため、独立に再現されていません。
- 著者らはモデルの分布内(in-distribution)におけるツール呼び出し挙動をリバースエンジニアリングし、ツール定義が与えられていない場合でも高い確信度でツールを呼び出すことを見出し、強い学習済み事前知識の存在を示唆しています。
- 彼らは「harmony(ハーモニー)」ネイティブなエージェント・ハーネスを構築し、モデルのネイティブ形式でメッセージをエンコードすることで、Chat Completionsへの変換による忠実度の損失を回避しています。
- このアプローチにより、OpenAIが公開したスコアの初めての独立再現を報告しており、SWE Verified HIGHで60.4%(60.7%に対して)、SWE Verified MEDIUMで53.3%(53.2%に対して)、ツール使用ありのAIME25で91.7%(90.4%に対して)です。
- 本成果はGitHubでの実装(harmonyagent)とともに公開され、ツールを用いた評価の再現性を他の人々にとってより実践的にすることを目指しています。



