Dodgersort: 不確実性を考慮したVLMによる人間参加型ペアワイズ順位付け

arXiv cs.CV / 2026/3/24

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、従来の分類ラベリングに比べて評価者間の信頼性を向上させつつ、ラベリングコストの二次的な増大を抑える、効率的な人間参加型ペアワイズ順位付けのための枠組みDodgersortを提案する。
Dodgersortは、CLIPベースの階層的事前順序付け、ニューラル順位付けヘッド、確率的アンサンブル手法（Elo/BTL/GP）を、認識論的不確実性とアレアトリック的不確実性の分解と組み合わせ、人間がラベル付けすべきペアを導く。
情報理論に基づくペア選択戦略を用いて、注釈1件あたりに最大の順位付けシグナルを得ることを狙い、精度—効率のトレードオフを改善する。
医用画像、歴史的年代推定、美的評価といった視覚順位付けタスクでの実験により、必要となる人間の比較回数を11–16%削減しつつ、信頼性も改善できることを示す。
ドメインをまたいだアブレーション結果から、性能向上の主な要因はニューラル適応とアンサンブル不確実性であり、FG-NETではベースラインより比較あたり5–20倍の順位付け情報が得られることが示される。

要旨: ペアワイズ比較のラベリングは、従来の分類ラベリングよりも評価者間の信頼性が高まることから注目されている一方で、網羅的な比較は二次的なコストを要します。そこで本論文では、CLIPベースの階層的な前順序付け、ニューラル・ランキングヘッド、確率的アンサンブル（Elo、BTL、GP）、認識論的--アレアトリック不確実性の分解、情報理論に基づくペア選択を活用するDodgersortを提案します。Dodgersortは、人手による比較を削減しつつ、ランキングの信頼性を向上させます。医用画像における視覚ランキング課題、年代推定、そして美的評価において、Dodgersortは評価（アノテーション）を11--16\%削減しながら、評価者間の信頼性を改善します。4つのデータセットにまたがるドメイン横断アブレーションにより、この向上にはニューラル適応とアンサンブル不確実性が重要であることが示されます。FG-NETにおいて、真の年齢（ground-truth ages）を用いた場合、この枠組みはベースラインよりも比較あたりで5--20 $\times$ 多いランキング情報を抽出し、その結果としてパレート最適な精度--効率のトレードオフが得られます。

人型ロボットは建設業で使えるか、建設RXコンソーシアム・村上会長に聞く

日経XTECH

成長を生み出すCRM開発

Dev.to

カーパシーのオートリサーチ：エージェント型コーディングスキルの向上

Dev.to

API vs Local LLM、まだ感覚で選んでないか？

Qiita

実際に機能するAIプロンプトの書き方

Dev.to

Dodgersort: 不確実性を考慮したVLMによる人間参加型ペアワイズ順位付け

要点

関連記事

人型ロボットは建設業で使えるか、建設RXコンソーシアム・村上会長に聞く

成長を生み出すCRM開発

カーパシーのオートリサーチ：エージェント型コーディングスキルの向上

API vs Local LLM、まだ感覚で選んでないか？

実際に機能するAIプロンプトの書き方

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer