Kreuzberg v4.7.0 が登場しました。Kreuzberg は Rust コアのドキュメントインテリジェンスライブラリで、Python、TypeScript/Node.js、Go、Ruby、Java、C#、PHP、Elixir、R、C、WASM と連携して動作します。
いくつかの機能を追加し、OpenWEBUI を統合し、すべての形式にわたって品質を大きく改善しました。さらに新しい markdown レンダリングレイヤーと新しい HTML 出力が追加され、こちらも現在サポートしています。そして他にも多数あります(詳細は リリースノート で確認できます)。
主な見どころは コードインテリジェンスと抽出 です。Kreuzberg は tree-sitter-language-pack ライブラリ により、現在 248 形式をサポートしています。これは、Kreuzberg をエージェント向けのエンジンにしていくための一歩です。効率的にコードを解析できるため、エージェント用のライブラリとして、また MCP 経由で直接統合できます。エージェントはコードリポジトリで動作し、プルリクエストのレビュー、コードベースのインデックス作成、ソースファイルの分析を行います。Kreuzberg は AST レベルで関数、クラス、インポート、エクスポート、シンボル、ドックストリングを抽出するようになり、スコープ境界を尊重したコードチャンク分割も実現しました。
markdown 品質 については、ドキュメント抽出が不十分だとパイプラインの後段でさらに問題が発生する可能性があります。私たちは Structural F1 と Text F1 のスコアリングを用いたベンチマーク用の計測基盤を作成し、350 件超のドキュメントと 23 形式にわたって評価したうえで、その結果に基づいて最適化しました。LaTeX の SF1 は 0% から 100% へ改善しました。XLSX は 30% から 100% へ上昇しました。PDF のテーブル SF1 は 15.5% から 53.7% へ向上しました。すべての 23 形式は現在 80% 超の SF1 になっています。受け取る出力パイプラインは、デフォルトで構造的に正しい状態になります。
Kreuzberg は現在 OpenWebUI のためのドキュメント抽出バックエンドとして利用可能です(要望が多かったため!)。ドックリング(docling-serve)互換のオプション、または直接接続のオプションがあります。
今回のリリースでは、統一アーキテクチャ を追加しました。これは、すべてのエクストラクタが標準化された型付きドキュメント表現を生成するものです。さらに、30〜50% の LLM プロンプトトークン使用量を削減するコンパクトなドキュメントエンコーディングである TOON ワイヤフォーマット、セマンティックなチャンクラベリング、JSON 出力、厳密な設定バリデーション、そしてセキュリティの向上も含めました。GitHub: https://github.com/kreuzberg-dev/kreuzberg。
そして- Kreuzberg Cloud は近日公開予定です。これはホスト型のバージョンであり、インフラを管理せずに同じ抽出品質をチームで利用したい人向けです。詳細はこちら: https://kreuzberg.dev
ご貢献はいつでも大歓迎です
[link] [comments]




