| マルチモーダルの大規模モデルHappyHorse(テキストから動画/画像から動画+音声のための統一型オープンソース大規模モデル)が、最近国際舞台で話題を集めています。複数の情報源による検証の結果、そのチームの正体が明らかになりました。彼らは Tobao と Tmall グループ(TTG)の Future Life(ファーライフ)から来ているとのことです。Di(ラボは ATH-AI イノベーション事業部によって設立され、その後独立した組織になりました)と名付けられた(とされる)実験室です。 張 Di のプロフィール:上海交通大学の学士と修士の両方を取得しています。TTG Future Life Lab(ランク:P11)の責任者であり、TTG のチーフサイエンティストで Alimama の CTO である Zheng Bo に報告しています。以前はその前に、Kuaishou の ing.d のリード(1位)を務めていました。その後、Alimama において Big Data および Machine Learning Engineering Architecture の責任者を務めています。 P.S.
[基本情報]
[動画パラメータ] 解像度:1280×720(720p) フレームレート:24fps 長さ:5秒 [音声機能] ネイティブ同時生成:効果音/環境音/ボイスオーバー 対応言語:中国語、英語、日本語、韓国語、ドイツ語、フランス語 [オープンソースの状況] 完全オープンソース:ベースモデル+蒸留モデル+超解像+推論コード 出典:https://mp.weixin.qq.com/s/n66lk5q_Mm10UYTnpEOf3w?poc_token=HKwe1mmjFX-RhveuVjk_MbRgFTcirVE2tKrRP_gS [link] [comments] |
HappyHorseはまもなくオープンウェイトになるかもしれない(Artificial Analysisでseedance 2.0に勝った!)
Reddit r/LocalLLaMA / 2026/4/8
💬 オピニオンSignals & Early TrendsIndustry & Market MovesModels & Research
要点
- HappyHorseは、Taobao/Tmall Group(TTG)のTTG Future Life Labによって開発された、テキストから動画、画像から動画、音声向けのマルチモーダルなオープンソース統一モデルだと説明されています。
- 投稿では、このモデルが「単一トランスフォーマー」アプローチを採用し、CFGなし(classifier-free guidance-less)で推論すること、さらに推論に8ステップを使用していると報告されています。
- 生成仕様として、1280×720(720p)解像度、24fps、5秒クリップが報告されています。音声生成は、効果音、環境音、ボイスオーバーに対応し、複数言語での生成にも言及されています。
- 記事では、チームが集中的なテストと、以前に漏れていた情報の後に、10日にHappyHorse 1.0をリリースし、複数のモデルバリアントを公開する可能性があると示唆しています。
- HappyHorseは、ベースモデル、蒸留モデル、超解像コンポーネント、推論コードを含めて、完全にオープンソース化する予定だと述べています。




