GPT-OSSと調和して

arXiv cs.AI / 2026/4/2

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

OpenAIのgpt-oss-20bの結果は、元の論文がツールおよびエージェント・ハーネスの詳細を省略していたとされるため、独立に再現されていません。
著者らはモデルの分布内（in-distribution）におけるツール呼び出し挙動をリバースエンジニアリングし、ツール定義が与えられていない場合でも高い確信度でツールを呼び出すことを見出し、強い学習済み事前知識の存在を示唆しています。
彼らは「harmony（ハーモニー）」ネイティブなエージェント・ハーネスを構築し、モデルのネイティブ形式でメッセージをエンコードすることで、Chat Completionsへの変換による忠実度の損失を回避しています。
このアプローチにより、OpenAIが公開したスコアの初めての独立再現を報告しており、SWE Verified HIGHで60.4%（60.7%に対して）、SWE Verified MEDIUMで53.3%（53.2%に対して）、ツール使用ありのAIME25で91.7%（90.4%に対して）です。
本成果はGitHubでの実装（harmonyagent）とともに公開され、ツールを用いた評価の再現性を他の人々にとってより実践的にすることを目指しています。

要旨: 既存のどの研究者も、ツールを用いてOpenAIが公開した gpt-oss-20b のスコアを独立に再現していません。なぜなら、元の論文にはツールもエージェント・ハーネスも開示されていないからです。私たちはモデルのイン分布（in-distribution）ツールをリバースエンジニアリングしました。すなわち、ツール定義なしでプロンプトを与えると、gpt-oss は訓練分布に由来するツールを高い統計的確信度で呼び出します。これは幻覚ではなく、強い事前知識（strong prior）です。次に、ネイティブなハーモニー・エージェント・ハーネス（https://github.com/borislavmavrin/harmonyagent.git）を構築し、モデルのネイティブ形式でメッセージを符号化することで、損失を伴う Chat Completions の変換を回避しました。これらにより、OpenAIが公開したスコアの初めての独立再現が得られました。SWE Verified HIGH で 60.4%（公開 60.7%）、MEDIUM で 53.3%（53.2%）、およびツールを用いた AIME25 で 91.7%（90.4%）です。

Black Hat USA

AI Business

Black Hat Asia

AI Business

Bonsai（PrismMLのQwen3 8B/4B/1.7Bの1ビット版）はエイプリルフールの冗談ではなかった

Reddit r/LocalLLaMA

Show Dev: API統合をAIで2倍高速化する方法

Dev.to

大手テック企業はAI投資と統合を加速している一方、規制当局と企業は安全性と責任ある導入に注目している

Dev.to

GPT-OSSと調和して

要点

関連記事

Black Hat USA

Black Hat Asia

Bonsai（PrismMLのQwen3 8B/4B/1.7Bの1ビット版）はエイプリルフールの冗談ではなかった

Show Dev: API統合をAIで2倍高速化する方法

大手テック企業はAI投資と統合を加速している一方、規制当局と企業は安全性と責任ある導入に注目している

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer