AI Navigate

インサイト最新記事一覧 AI大全

広告

[P] データソースとしてYouTubeを使う（コーヒーのドメインデータセット構築から得た教訓）

Reddit r/MachineLearning / 2026/3/30

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

原文を読む →

共有:

要点

著者はコーヒーコーチングアプリを作る過程で、YouTubeにある専門家の抽出メソッド系コンテンツは品質が高い一方、RAGにそのまま使える形ではないことを見つけた。というのも、トランスクリプトには重い前処理が必要だからだ。
トランスクリプトの品質の問題、不統一なチャンク分割、そしてクリーニング手順のせいで、YouTubeのコンテンツを埋め込みに投入できるデータセットへ変換する作業は、想定よりも時間がかかったと報告している。
そこで解決策として、チャネルから動画を取得し、トランスクリプトを抽出し、それらをクリーニングしてチャンク化して、埋め込み用途に使えるようにするCLIツールを作成した。
このプロジェクトのGitHubリポジトリ「youtube-rag-scraper」は、著者のRAGワークフローにおけるデータレイヤーとして位置づけられており、元のアプリよりも注目を集めたとされている。

[P] Using YouTube as a data source (lessons from building a coffee domain dataset)

最近、小さなコーヒー・コーチング用アプリに取り組み始めました。淹れ方、挽き目（グラインドサイズ）、抽出（エクストラクション）などについて質問に答えられるようなものです。

良いデータを探していたところ、ほとんどの書かれた情報源は浅いか、散らばっていることに気づきました。YouTubeはその一方で、非常に質の高いコンテンツ（James Hoffmann、Lance Hedrick など）がありますが、RAG向けにはそのままでは使えません。

文字起こし（トランスクリプト）はごちゃごちゃしていて、チャンク分割も一貫していないため、すべてを使える形式にするには、思っていた以上に手間がかかりました。

そこで、私は次のことを行う小さなCLIツールを作りました：

チャンネルから動画を取得する
文字起こしを抽出する
クリーニングして、それを埋め込み（embeddings）に使える形にチャンク化する

https://preview.redd.it/wagqqzpos6sg1.png?width=640&format=png&auto=webp&s=e18e13760188c39c2f64b4c19738fcdcec1c5435

結果的に、それはアプリのデータ層になり、しかも不思議なことに、実際のコーヒー・コーチング用アプリよりもずっと注目（反響）を集めることになりました！

リポジトリ：youtube-rag-scraper

submitted by /u/ravann4
[リンク] [コメント]

関連記事

Black Hat Asia

Black Hat Asia

AI Business

AIボイスレコーダーの新製品が相次ぐ、早くも懸念されるレッドオーシャン化

AIボイスレコーダーの新製品が相次ぐ、早くも懸念されるレッドオーシャン化

日経XTECH

Mr. Chatterboxは（弱い）ヴィクトリア朝時代の倫理訓練を受けたモデルで、自分のコンピュータ上で実行できる

Mr. Chatterboxは（弱い）ヴィクトリア朝時代の倫理訓練を受けたモデルで、自分のコンピュータ上で実行できる

Simon Willison's Blog

チャットボットの先へ：2026年におけるマルチエージェント・エコシステムの実装

Dev.to

ソフトウェア開発における「楽しい」部分を見逃していた

ソフトウェア開発における「楽しい」部分を見逃していた

Dev.to

関連おすすめサービス

※当サイトはアフィリエイト広告を利用しています

Notta搭載AI議事録イヤホン ZENCHORD1

AI時代の仕事術。Notta搭載で会議の議事録を自動生成するスマートイヤホン。

AI搭載ボイスレコーダー Plaud

世界100万人が愛用。AIで文字起こし・要約を自動化するボイスレコーダー。

画像高画質化AIツール Aiarty Image Enhancer

AIで画像を高画質化。写真・イラストを簡単にアップスケール。

広告