| 論文: https://arxiv.org/abs/2603.27538 コード: https://github.com/meituan-longcat/LongCat-Next ブログ: https://longcat.chat/longcat-next/intro モデル: https://huggingface.co/meituan-longcat/LongCat-Next MIT License: https://huggingface.co/meituan-longcat/LongCat-Next/blob/main/LICENSE 要旨
[リンク] [コメント] |
LongCat-Next: モダリティを離散トークンとして語彙化する
Reddit r/LocalLLaMA / 2026/3/31
💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、複数モダリティ入力を共有された離散トークン空間で表現し、テキスト・視覚・音声にわたる一貫した自己回帰モデリングを可能にする統一フレームワーク DiNA(Discrete Native Autoregressive)を提案する。
- 「離散ネイティブな任意解像度」を実現する可視トークナイザ/デコーダ dNaViT を導入し、連続画像を任意解像度で階層的な離散トークンへと変換する。
- このアプローチに基づき、著者らは最小限のモダリティ固有の工夫で、単一の自己回帰目的関数を用いることで強力な「見る・描く・話す(see, paint, and talk)」性能を実現すると主張する LongCat-Next を開発する。
- 本研究は、離散的な視覚モデリングにおける理解タスク上の既知の限界を対象としており、LongCat-Next を統一的なマルチモーダルモデルの中で「理解」と「生成」の間を両立させる方法として位置付ける。
- 著者らは LongCat-Next モデルおよびトークナイザをオープンソース化し、「ネイティブ・マルチモダリティ」に関するさらなる研究・開発の加速を目指している。




