要旨: AIによる人の検索プラットフォームは、採用、営業の見込み顧客探索、プロフェッショナル・ネットワーキングにおいてますます活用されていますが、それらの性能を評価するための広く受け入れられたベンチマークは存在しません。私たちは、PeopleSearchBenchというオープンソースのベンチマークを提案します。これは、4つの人の検索プラットフォームを、4つのユースケースにまたがる119件の実世界クエリに対して比較します。ユースケースは、企業採用、B2Bの営業見込み顧客探索、決定論的な回答を伴うエキスパート検索、そしてインフルエンサー/KOLの発見です。主要な貢献は、Criteria-Grounded Verification(基準に基づく検証)です。これは、各クエリから明示的で検証可能な基準を抽出し、ライブなWeb検索を用いて、返された人物がそれらを満たしているかどうかを判定する、事実ベースの関連性パイプラインです。これにより、主観的な「ホリスティックなLLMをジャッジにするスコア」ではなく、事実確認に裏付けられた二値の関連性判定が得られます。私たちはシステムを3つの次元で評価します。関連性の精度(padded nDCG@10)、実効的なカバレッジ(タスク完了と適格な結果の産出)、情報有用性(プロフィールの完全性と有用性)で、これらを均等に平均して全体スコアとします。専門特化型のAI人の検索エージェントであるLessieは、全体として最も優れており、65.2というスコアで、2位のシステムより18.5%高く、さらに119件すべてのクエリにおいてタスク完了率100%を達成した唯一のシステムです。加えて、信頼区間、検証パイプラインの人手による妥当性確認(Cohen's kappa = 0.84)、アブレーション、クエリ・プロンプト・正規化手順の完全なドキュメントも報告します。コード、クエリ定義、および集計結果はGitHubで公開されています。
PeopleSearchBench: AI駆動型の人検索プラットフォームを評価するための多次元ベンチマーク
arXiv cs.AI / 2026/3/31
📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research
要点
- 本論文では、4つのユースケース(企業採用、B2B向け見込み顧客の探索、決定論的な専門家検索、インフルエンサー/KOL発見)にまたがる119件の実世界クエリを用いて、AI駆動型の人検索プラットフォームを評価するためのオープンソース・ベンチマークであるPeopleSearchBenchを提示する。
- それぞれのクエリから明示的で検証可能な基準(Criteria-Grounded)を抽出し、主観的なLLM-as-judgeによるスコアリングではなく、事実確認に基づいて二値の関連性判断を生成するために、ライブWeb検索を利用する枠組みを提案する。
- このベンチマークは3つの次元でシステムを評価する。すなわち、関連精度(padded nDCG@10)、有効カバレッジ(タスク完了および適格な成果物の産出)、情報有用性(プロフィールの完全性/有用性)であり、それらを平均して総合スコアとする。
- 実験では、Lessieが総合スコア65.2で最上位の性能を示し(2位との差は18.5%)、全クエリに対して100%のタスク完了を達成した唯一のシステムである。
- 著者らは、コード、クエリ定義、プロンプト、正規化手順、結果一式といった完全な成果物を公開し、信頼区間や検証パイプラインの人手による妥当性確認(Cohen’s kappa = 0.84)などの統計的報告も含めている。


