| 最近、小さなコーヒー・コーチング用アプリに取り組み始めました。淹れ方、挽き目(グラインドサイズ)、抽出(エクストラクション)などについて質問に答えられるようなものです。 良いデータを探していたところ、ほとんどの書かれた情報源は浅いか、散らばっていることに気づきました。YouTubeはその一方で、非常に質の高いコンテンツ(James Hoffmann、Lance Hedrick など)がありますが、RAG向けにはそのままでは使えません。 文字起こし(トランスクリプト)はごちゃごちゃしていて、チャンク分割も一貫していないため、すべてを使える形式にするには、思っていた以上に手間がかかりました。 そこで、私は次のことを行う小さなCLIツールを作りました:
結果的に、それはアプリのデータ層になり、しかも不思議なことに、実際のコーヒー・コーチング用アプリよりもずっと注目(反響)を集めることになりました! リポジトリ:youtube-rag-scraper [リンク] [コメント] |
[P] データソースとしてYouTubeを使う(コーヒーのドメインデータセット構築から得た教訓)
Reddit r/MachineLearning / 2026/3/30
💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage
要点
- 著者はコーヒーコーチングアプリを作る過程で、YouTubeにある専門家の抽出メソッド系コンテンツは品質が高い一方、RAGにそのまま使える形ではないことを見つけた。というのも、トランスクリプトには重い前処理が必要だからだ。
- トランスクリプトの品質の問題、不統一なチャンク分割、そしてクリーニング手順のせいで、YouTubeのコンテンツを埋め込みに投入できるデータセットへ変換する作業は、想定よりも時間がかかったと報告している。
- そこで解決策として、チャネルから動画を取得し、トランスクリプトを抽出し、それらをクリーニングしてチャンク化して、埋め込み用途に使えるようにするCLIツールを作成した。
- このプロジェクトのGitHubリポジトリ「youtube-rag-scraper」は、著者のRAGワークフローにおけるデータレイヤーとして位置づけられており、元のアプリよりも注目を集めたとされている。



