私たちは、検索パイプラインにUnixの哲学を適用するオープンソースのプロトタイプを構築しました。各段階(PIIの秘匿、チャンク化、重複排除、埋め込み、評価)はそれぞれ、Unixのツール同士をつなぐパイプのように、型付きの契約(契約条件)を持つ独立したプラグインです。動機はこうです:チャンクャーを入れ替えたら検索結果が悪化したのですが、それがチャンク化のせいなのか、それとも下流で何かが壊れているせいなのかを切り分けられませんでした。各段階を独立して入れ替え可能にしていれば、1つのオプションを変更し、評価を再実行して、適合率/再現率を直接比較できます。 ```python Feature("docs__pii_redacted__chunked__deduped__embedded__evaluated", options={ "redaction_method": "presidio", "chunking_method": "sentence", "embedding_method": "tfidf", }) ``` それぞれの `__` は段階の区切りです。どの部品を入れ替えても、残りは同じままです。なお、これはプロトタイプであって本番(プロダクション)ではありません。設計上の前提が妥当かどうかについて、フィードバックを探しています。リポジトリ: [https://github.com/mloda-ai/rag_integration](https://github.com/mloda-ai/rag_integration) [link] [comments]




