今週末、大きな航空事故(飛行機が好きなので)のデータセットを探していました。最終報告書の本文(テキスト)が含まれているものです。ところが不思議なことに、この条件に合うオープンソースのデータセットが1つも見つかりませんでした。とにかくいくつかの報告書を集め始めて、抽出と、クリーニングのパイプラインを最終的に整えている段階になって気づいたのですが、このデータをどう扱うべきか、私にははっきりしたイメージがありません。たぶんRAGを作ることになるのでしょうが、それによってどんなメリットがあるのでしょう? こうした種類の報告書を扱ったことがある人はいますか?
[link] [comments]