AI Navigate

Kriya: Action100M風の動画アノテーションを探索・生成するツール

Dev.to / 2026/3/14

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • 著者はコミュニティからのフィードバックと貢献を歓迎し、ライブデモとGitHubリポジトリを通じてアクセスを共有しています。

優れた Action100M論文 を読んだ後、私は 完全自動化された、大規模な動画アクションアノテーション の可能性に非常に興奮しました。

高品質な時系列アクション階層は、より強力な動画世界モデル、動画と言語モデル(VLMs)、視覚と言語と行動のモデル(VLAs)、ヒューマノイド制御ポリシー、物理推論システムの訓練への扉を開きます。

しかし、すぐに2つの実用的な問題が現れました:

  1. これらの豊富で階層的なアノテーションを動画とともに 視覚化 するための便利な方法がありませんでした。
  2. 新規/カスタムの動画データセットに対してこのようなアノテーションを大規模に生成することは、依然として多くの研究者やエンジニアには手の届かないと感じられていました。

そこで、物事を前進させるのを助けるために2つのツールを作りました。

1. Kriya Visualizer – Action100M風のアノテーションを生き生きと見せる

Action100M風の時系列アクションツリー専用に設計された、軽量で静的なウェブベースのビジュアライザーを作成しました。

機能(現在のバージョン):

  • アノテーションのタイムラインと同期した動画プレーヤー
  • 階層的なタイムライン(アクションツリーの各レベルごとに1行)
  • 現在のタイムスタンプでノードがハイライトされる
  • メタデータ、完全な文字起こし、原始JSONビューを含むサイドパネル
  • インストール不要のクリーンで単一画面のレイアウト

\"Kriya

MITライセンスのもとでオープンソースです → フォークしたり、改善したり、あなたのプロジェクトで使用したりしてください。

ここへアクセス: https://ankk98.github.io/kriya-viz/

GitHubリポジトリ: https://github.com/Ankk98/kriya-viz

Action100Mデータ(または類似の密な時系列アクション階層)を扱っている場合は、ぜひ試してみてください。そして、それをより有用にするための機能を教えてください。

2. Kriya-EPIC-KITCHENS – 自己視点動画の自動アノテーション

次に、現実の挑戦的な自己視点データで、完全自動アノテーションがどれだけうまく機能するかを検証したいと思いました。

人気データセットのEPIC-KITCHENS-100の小さなサブセットの動画に対して、Kriya Full Automated Action Annotation API(初期プレビュー)を実行しました。

結果: 返却形式: {\"title_ja\": \"...\", \"summary_detail_ja\": \"...\", \"content_ja\": \"...\"} 本文がない場合は空文字にしてください。詳細サマリは箇条書き(- で始まる行)の形式を保持してください。