広告

[P] データソースとしてYouTubeを使う(コーヒーのドメインデータセット構築から得た教訓)

Reddit r/MachineLearning / 2026/3/30

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

要点

  • 著者はコーヒーコーチングアプリを作る過程で、YouTubeにある専門家の抽出メソッド系コンテンツは品質が高い一方、RAGにそのまま使える形ではないことを見つけた。というのも、トランスクリプトには重い前処理が必要だからだ。
  • トランスクリプトの品質の問題、不統一なチャンク分割、そしてクリーニング手順のせいで、YouTubeのコンテンツを埋め込みに投入できるデータセットへ変換する作業は、想定よりも時間がかかったと報告している。
  • そこで解決策として、チャネルから動画を取得し、トランスクリプトを抽出し、それらをクリーニングしてチャンク化して、埋め込み用途に使えるようにするCLIツールを作成した。
  • このプロジェクトのGitHubリポジトリ「youtube-rag-scraper」は、著者のRAGワークフローにおけるデータレイヤーとして位置づけられており、元のアプリよりも注目を集めたとされている。
[P] Using YouTube as a data source (lessons from building a coffee domain dataset)

最近、小さなコーヒー・コーチング用アプリに取り組み始めました。淹れ方、挽き目(グラインドサイズ)、抽出(エクストラクション)などについて質問に答えられるようなものです。

良いデータを探していたところ、ほとんどの書かれた情報源は浅いか、散らばっていることに気づきました。YouTubeはその一方で、非常に質の高いコンテンツ(James Hoffmann、Lance Hedrick など)がありますが、RAG向けにはそのままでは使えません。

文字起こし(トランスクリプト)はごちゃごちゃしていて、チャンク分割も一貫していないため、すべてを使える形式にするには、思っていた以上に手間がかかりました。

そこで、私は次のことを行う小さなCLIツールを作りました:

  • チャンネルから動画を取得する
  • 文字起こしを抽出する
  • クリーニングして、それを埋め込み(embeddings)に使える形にチャンク化する

https://preview.redd.it/wagqqzpos6sg1.png?width=640&format=png&auto=webp&s=e18e13760188c39c2f64b4c19738fcdcec1c5435

結果的に、それはアプリのデータ層になり、しかも不思議なことに、実際のコーヒー・コーチング用アプリよりもずっと注目(反響)を集めることになりました!

リポジトリ:youtube-rag-scraper

submitted by /u/ravann4
[リンク] [コメント]

広告