kreuzcrawl:11の言語バインディングを備えたオープンソースのRustクローリングエンジン

Reddit r/LocalLLaMA / 2026/4/26

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • kreuzcrawlは、Rustで開発された高性能なオープンソースのWebクローリングエンジンで、複数言語にまたがって構造化データを確実に抽出することを目的としています。
  • MCPサーバーを最初から統合しており、AIエージェントのユースケースを主要用途として想定しているほか、ストリーミングでクローリングの進捗をリアルタイムに追跡できます。
  • 数百URLを同時にバッチ処理でき、部分的な失敗にも耐える設計になっているため、大規模なクロールでの堅牢性が高まります。
  • JavaScript比重の高いSPA向けのブラウザレンダリングに対応し、WAF(Web Application Firewall)検知も備えています。
  • Rust、Python、TypeScript/Node.js、Go、Ruby、Java、C#、PHP、Elixir、WASM、C FFIの各言語でバインディングを提供し、すべてがコアエンジンに直接接続されます。

kreuzcrawl は高性能な Web クロールエンジンです。特定の実行環境を強制せずに複数の言語にまたがってネイティブに動作しながら、構造化データを確実に抽出できるように設計されています。こちらをご覧ください: https://github.com/kreuzberg-dev/kreuzcrawl

MCP サーバーは最初から統合されており、主要なユースケースとして Web クロール AI エージェントを可能にします。ストリーミングのクロールイベントにより、リアルタイムで進捗を追跡できます。バッチ操作は何百もの URL を同時に処理し、部分的な失敗にも耐えます。ブラウザレンダリングは JavaScript が多用される SPA をサポートし、WAF 検出も含まれます。

対応している言語インターフェースは Rust、Python、Typescript/Node.js、Go、Ruby、Java、C#、PHP、Elixir、WASM、そして C FFI で、それぞれのバインディングはコアエンジンに直接接続します。
Kreuzcrawl は Kreuzberg org の一部です: https://kreuzberg.dev/

フィードバックや貢献を歓迎します :)

提供者: /u/Eastern-Surround7763
[リンク] [コメント]