| 実際の企業をシミュレートする50万件の文書から成るコーパスを構築し、そのうえでRAGシステム同士を競わせて「どれが最も優れているか」を調べました。 EnterpriseRAG-Bench を紹介します。企業規模の社内ナレッジにありがちな、混沌とした状況でRAGシステムがどれだけうまく機能するかを検証するためのベンチマークです。 多くのRAGベンチマークは公開データに基づいています。Wikipedia、Webページ、論文、フォーラムなどです。それは有用ですが、現場で多くの人が対しているものとは実際にはあまり一致していません。Slackスレッド、メールの連鎖、チケット、会議の議事録、PR(プルリクエスト)、CRMのメモ、ドキュメント、そしてWikiです。 そこで、より実在の企業に近い挙動をする合成企業を生成することを試みました。 公開されたデータセットは Redwood Inference という企業をシミュレートしており、以下にまたがって約50万件の文書を含みます:
私たちが最も時間をかけたのは、「大量のドキュメントを生成すること」ではありませんでした。文書が同じ企業に属しているように感じられるための方法論(手順)です。 大まかに言うと、生成パイプラインは次のように機能します:
論文から得られたいくつかのベースライン結果:
リポジトリには、データセット、生成フレームワーク、評価ハーネス、リーダーボードが含まれています: https://github.com/onyx-dot-app/EnterpriseRAG-Bench 社内データを対象にRAG/検索システムを作っている他の方からのフィードバックが欲しいです。特に、ここでうまくいきそうだと思う検索のセットアップは何かを知りたいです。ハイブリッド検索、リランカ、エージェント、メタデータフィルタ、クエリ書き換え、グラフ風のトラバーサルなど。 [link] [comments] |
実在に近い社内データでRAGを検証するためのオープンベンチマーク
Reddit r/LocalLLaMA / 2026/5/6
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research
要点
- この記事では、公開データではなく、実務で遭遇する「ごちゃごちゃした」社内ナレッジを対象にRAGシステムを評価するためのオープンベンチマーク「EnterpriseRAG-Bench」を紹介しています。
- 提供されるのは、疑似企業「Redwood Inference」をモデルにした約50万件規模の文書コーパスで、Slack、Gmail、Jira、Confluence、GitHub、Google Drive、CRM情報などの社内ツール群から生成されています。
- このデータセットの最大の特徴は生成手法で、まず人手を介したプロセスで企業の背景(事業内容、製品、組織、社内用語、市場など)を定義し、その後の構造化に反映させています。
- さらに、プロジェクト/ワークストリーム単位で文書を作り、PRD、会議メモ、チケット、PR、顧客メモなどのソース間で相互に整合するように生成することで、現実的なリンクや依存関係を再現します。
- 大量の文書に対しては、ソース種別ごとのトピック・スキャフォールドを用いて重複や同一テーマへの収束を抑え、単純な生成で観測された重複の問題を改善しています。



