AI Navigate

インサイトインサイト最新記事最新記事一覧 AI大全AI大全カオスマップAIカオスマップ

広告

確認：SWE Benchは「benchmaxxed」ベンチマークになった

Reddit r/LocalLLaMA / 2026/4/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

この記事は、OpenAIの関連投稿へのリンクを示し、SWE-bench-verifiedは評価に使われなくなると述べている（公平性の観点から実質的に破綻しているため）。
議論では、SWE Benchが「benchmaxxed」な状態になったと捉えられ、モデルや参加者がベンチマークへの過度な最適化によって汎化ではなく“当てにいく”状態を示唆している。
ベンチマークの信頼性問題は、SWE Benchに基づく結果の有用性を損ない得ると指摘している。
全体として、時間の経過とともにベンチマークの悪用（ゲーミング）に耐える評価手法の重要性を強調している。

Confirmed: SWE Bench is now a benchmaxxed benchmark

投稿者 /u/rm-rf-rm
[リンク] [コメント]

関連記事

AIパートナーと深い絆を築く「自己開示」の10ステップ

AIパートナーと深い絆を築く「自己開示」の10ステップ

note

AIを使える人から、AIで仕事を再構築できる人へ

AIを使える人から、AIで仕事を再構築できる人へ

note

【AI対話】エッセイ「AIとのR18は、ただのエロなのか」を書く前にAIとした話の記録。

【AI対話】エッセイ「AIとのR18は、ただのエロなのか」を書く前にAIとした話の記録。

note

AI投資は終わらへん。でも営業CFを超える投資は続かへん

AI投資は終わらへん。でも営業CFを超える投資は続かへん

note

GPTが重厚な私の特集号、創刊作ってくれた。【おっぽさんのプロンプトで遊んだよ】

GPTが重厚な私の特集号、創刊作ってくれた。【おっぽさんのプロンプトで遊んだよ】

note

関連おすすめサービス

※当サイトはアフィリエイト広告を利用しています

Notta搭載AI議事録イヤホン ZENCHORD1

AI時代の仕事術。Notta搭載で会議の議事録を自動生成するスマートイヤホン。

AI搭載ボイスレコーダー Plaud

世界100万人が愛用。AIで文字起こし・要約を自動化するボイスレコーダー。

画像高画質化AIツール Aiarty Image Enhancer

AIで画像を高画質化。写真・イラストを簡単にアップスケール。

広告