MLデータセット向けのサードパーティ製の品質評価システムを構築しました。マルチオラクル(5つのアルゴリズムファミリにまたがる7人のスコアラー)、下流のF1に対する共形予測区間、Ed25519で署名した証明書、そして40件以上の公開評価に対する汚染チェック(MMLU、HumanEval、GSM8K、MedQA、LegalBenchなど)を行っています。
手法に関する論文、CC BY 4.0: https://labelsets.ai/paper
無料監査(任意のHFデータセットURLを貼り付け): https://labelsets.ai/rate
公開検証API、認証なし: GET /api/verify-lqs-cert/:hash
キャリブレーション用コーパスは約1,000データセットで、2026年Q3までに10,000へ成長中です。キャリブレーションが薄いところでは、信頼を捏造するのではなく、証明書がそれをありのままに明記します。
次元リスト、オラクル合意の計算(Cohen + Fleiss κの報告)、あるいは共形予測のキャリブレーションについてフィードバックを歓迎します。手法論文には完全な仕様が記載されています——計算を誤っていた箇所があれば、ぜひ教えてください。
[link] [comments]




