PeopleSearchBench: AI駆動型の人検索プラットフォームを評価するための多次元ベンチマーク

arXiv cs.AI / 2026/3/31

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

本論文では、4つのユースケース（企業採用、B2B向け見込み顧客の探索、決定論的な専門家検索、インフルエンサー/KOL発見）にまたがる119件の実世界クエリを用いて、AI駆動型の人検索プラットフォームを評価するためのオープンソース・ベンチマークであるPeopleSearchBenchを提示する。
それぞれのクエリから明示的で検証可能な基準（Criteria-Grounded）を抽出し、主観的なLLM-as-judgeによるスコアリングではなく、事実確認に基づいて二値の関連性判断を生成するために、ライブWeb検索を利用する枠組みを提案する。
このベンチマークは3つの次元でシステムを評価する。すなわち、関連精度（padded nDCG@10）、有効カバレッジ（タスク完了および適格な成果物の産出）、情報有用性（プロフィールの完全性/有用性）であり、それらを平均して総合スコアとする。
実験では、Lessieが総合スコア65.2で最上位の性能を示し（2位との差は18.5%）、全クエリに対して100%のタスク完了を達成した唯一のシステムである。
著者らは、コード、クエリ定義、プロンプト、正規化手順、結果一式といった完全な成果物を公開し、信頼区間や検証パイプラインの人手による妥当性確認（Cohen’s kappa = 0.84）などの統計的報告も含めている。

要旨: AIによる人の検索プラットフォームは、採用、営業の見込み顧客探索、プロフェッショナル・ネットワーキングにおいてますます活用されていますが、それらの性能を評価するための広く受け入れられたベンチマークは存在しません。私たちは、PeopleSearchBenchというオープンソースのベンチマークを提案します。これは、4つの人の検索プラットフォームを、4つのユースケースにまたがる119件の実世界クエリに対して比較します。ユースケースは、企業採用、B2Bの営業見込み顧客探索、決定論的な回答を伴うエキスパート検索、そしてインフルエンサー/KOLの発見です。主要な貢献は、Criteria-Grounded Verification（基準に基づく検証）です。これは、各クエリから明示的で検証可能な基準を抽出し、ライブなWeb検索を用いて、返された人物がそれらを満たしているかどうかを判定する、事実ベースの関連性パイプラインです。これにより、主観的な「ホリスティックなLLMをジャッジにするスコア」ではなく、事実確認に裏付けられた二値の関連性判定が得られます。私たちはシステムを3つの次元で評価します。関連性の精度（padded nDCG@10）、実効的なカバレッジ（タスク完了と適格な結果の産出）、情報有用性（プロフィールの完全性と有用性）で、これらを均等に平均して全体スコアとします。専門特化型のAI人の検索エージェントであるLessieは、全体として最も優れており、65.2というスコアで、2位のシステムより18.5%高く、さらに119件すべてのクエリにおいてタスク完了率100%を達成した唯一のシステムです。加えて、信頼区間、検証パイプラインの人手による妥当性確認（Cohen's kappa = 0.84）、アブレーション、クエリ・プロンプト・正規化手順の完全なドキュメントも報告します。コード、クエリ定義、および集計結果はGitHubで公開されています。

Black Hat USA

AI Business

Black Hat Asia

AI Business

トヨタ車体富士松工場、構内運搬車を10年越しでレベル4自動運転化

日経XTECH

単に役立つオープンソースの貢献者

Reddit r/LocalLLaMA

Claude Code + Telegram：音声・スレッディングなどでAIアシスタントを強力にする方法

Dev.to

PeopleSearchBench: AI駆動型の人検索プラットフォームを評価するための多次元ベンチマーク

要点

関連記事

Black Hat USA

Black Hat Asia

トヨタ車体富士松工場、構内運搬車を10年越しでレベル4自動運転化

単に役立つオープンソースの貢献者

Claude Code + Telegram：音声・スレッディングなどでAIアシスタントを強力にする方法

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer