Kreuzberg v4.7.0での改良されたMarkdown品質、248言語向けのコード・インテリジェンス、その他

Reddit r/LocalLLaMA / 2026/4/5

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

要点

  • Kreuzberg v4.7.0では、新しいmarkdownレンダリング層と追加のHTML出力サポートが導入されるとともに、複数のドキュメント形式にまたがる品質改善が行われました。
  • 今回のリリースの主な焦点は強化されたコード・インテリジェンスです。Kreuzbergは248のコード形式をサポートし、ASTレベルでコードエンティティ(関数、クラス、インポート/エクスポート、シンボル、ドックストリング)を抽出し、スコープを意識したコードチャンク分割を行えるようになりました。
  • ベンチマークに基づく取り組みにより抽出品質が大幅に改善され、LaTeX、XLSX、PDFのテーブルのスコアが向上し、全23形式でStructural F1が80%以上に押し上げられました。
  • Kreuzbergはドキュメント抽出のバックエンドとしてOpenWebUI向けの統合パスを追加し、型付きドキュメント表現とTOONエンコーディングを統一アーキテクチャとして導入することで、LLMプロンプトのトークン使用量を30〜50%削減します。
  • プロジェクトは、リポジトリの解析、コードベースのインデックス作成、ソースファイルの分析といったタスクに向けて、ライブラリ/MCPの直接統合によりエージェントの準備度を拡大しています。チーム向けのホスト型デプロイとしてKreuzberg Cloudの計画もあります。

Kreuzberg v4.7.0 が登場しました。Kreuzberg は Rust コアのドキュメントインテリジェンスライブラリで、Python、TypeScript/Node.js、Go、Ruby、Java、C#、PHP、Elixir、R、C、WASM と連携して動作します。

いくつかの機能を追加し、OpenWEBUI を統合し、すべての形式にわたって品質を大きく改善しました。さらに新しい markdown レンダリングレイヤーと新しい HTML 出力が追加され、こちらも現在サポートしています。そして他にも多数あります(詳細は リリースノート で確認できます)。

主な見どころは コードインテリジェンスと抽出 です。Kreuzberg は tree-sitter-language-pack ライブラリ により、現在 248 形式をサポートしています。これは、Kreuzberg をエージェント向けのエンジンにしていくための一歩です。効率的にコードを解析できるため、エージェント用のライブラリとして、また MCP 経由で直接統合できます。エージェントはコードリポジトリで動作し、プルリクエストのレビュー、コードベースのインデックス作成、ソースファイルの分析を行います。Kreuzberg は AST レベルで関数、クラス、インポート、エクスポート、シンボル、ドックストリングを抽出するようになり、スコープ境界を尊重したコードチャンク分割も実現しました。

markdown 品質 については、ドキュメント抽出が不十分だとパイプラインの後段でさらに問題が発生する可能性があります。私たちは Structural F1 と Text F1 のスコアリングを用いたベンチマーク用の計測基盤を作成し、350 件超のドキュメントと 23 形式にわたって評価したうえで、その結果に基づいて最適化しました。LaTeX の SF1 は 0% から 100% へ改善しました。XLSX は 30% から 100% へ上昇しました。PDF のテーブル SF1 は 15.5% から 53.7% へ向上しました。すべての 23 形式は現在 80% 超の SF1 になっています。受け取る出力パイプラインは、デフォルトで構造的に正しい状態になります。

Kreuzberg は現在 OpenWebUI のためのドキュメント抽出バックエンドとして利用可能です(要望が多かったため!)。ドックリング(docling-serve)互換のオプション、または直接接続のオプションがあります。

今回のリリースでは、統一アーキテクチャ を追加しました。これは、すべてのエクストラクタが標準化された型付きドキュメント表現を生成するものです。さらに、30〜50% の LLM プロンプトトークン使用量を削減するコンパクトなドキュメントエンコーディングである TOON ワイヤフォーマット、セマンティックなチャンクラベリング、JSON 出力、厳密な設定バリデーション、そしてセキュリティの向上も含めました。GitHub: https://github.com/kreuzberg-dev/kreuzberg

そして- Kreuzberg Cloud は近日公開予定です。これはホスト型のバージョンであり、インフラを管理せずに同じ抽出品質をチームで利用したい人向けです。詳細はこちら: https://kreuzberg.dev

ご貢献はいつでも大歓迎です

submitted by /u/Eastern-Surround7763
[link] [comments]