3百万本のarXiv論文の「MCPインデックス」を作ってLLMにつなげてみた

Reddit r/MachineLearning / 2026/5/19

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 著者は、ローカルおよびクラウドのLLMを巨大なML/STEMの研究コーパスに接続するために、Model Context Protocol(MCP)のインデックスを約300万本のarXiv論文分で構築しました。
  • 目的として、文献の引用に関する幻覚(ハルシネーション)を減らし、研究ワークフローを改善することが挙げられています。
  • このインデックスはすでに稼働していますが、難解でニッチなクエリ(見つけにくい数学、超具体的な領域、新しいアーキテクチャなど)で検索精度が保てるかを確認したいとしています。
  • 約20人ほどの少人数に使ってもらい、検索システムを「壊してみる」ことで、取得された論文の関連性について率直なフィードバックを求めています。
  • 自分のLLM環境で日常的な研究クエリを試し、接続情報を受け取れるように、コメントまたはDMで連絡するよう案内されています。

みなさんこんにちは、

​最近、約300万本のarXiv論文を含むModel Context Protocol(MCP)インデックスを構築し終えました。私の目的は、ローカルおよびクラウドのLLMを、MLやSTEMの巨大なコーパスに直接つなげやすくすることで、幻覚的な引用を減らし、研究ワークフローを改善することです。

​インデックスはすでに公開中ですが、広く開放する前に、非常にニッチで複雑なクエリ(特に、あまり知られていない数学、極端に特化した領域、あるいは新しいアーキテクチャ)に対して、検索品質が実際にどれだけ耐えられるかを確認したいと思っています。

​そこで、少人数の方々(約20人)に試していただき、検索システムを壊そうとする/あえて攻めていただき、取得された論文の関連性について容赦ないフィードバックをください。

​ご自身のLLMセットアップでストレステストしてみて、日々の研究クエリでどのような性能かを確かめたい場合は、コメントかDMで知らせてください。接続の詳細をお送りします!

ありがとうございます!

投稿者 /u/Divyansh3021
[リンク] [コメント]