LongCat-Next: モダリティを離散トークンとして語彙化する

Reddit r/LocalLLaMA / 2026/3/31

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

本論文では、複数モダリティ入力を共有された離散トークン空間で表現し、テキスト・視覚・音声にわたる一貫した自己回帰モデリングを可能にする統一フレームワーク DiNA（Discrete Native Autoregressive）を提案する。
「離散ネイティブな任意解像度」を実現する可視トークナイザ／デコーダ dNaViT を導入し、連続画像を任意解像度で階層的な離散トークンへと変換する。
このアプローチに基づき、著者らは最小限のモダリティ固有の工夫で、単一の自己回帰目的関数を用いることで強力な「見る・描く・話す（see, paint, and talk）」性能を実現すると主張する LongCat-Next を開発する。
本研究は、離散的な視覚モデリングにおける理解タスク上の既知の限界を対象としており、LongCat-Next を統一的なマルチモーダルモデルの中で「理解」と「生成」の間を両立させる方法として位置付ける。
著者らは LongCat-Next モデルおよびトークナイザをオープンソース化し、「ネイティブ・マルチモダリティ」に関するさらなる研究・開発の加速を目指している。

論文: https://arxiv.org/abs/2603.27538

コード: https://github.com/meituan-longcat/LongCat-Next

ブログ: https://longcat.chat/longcat-next/intro

モデル: https://huggingface.co/meituan-longcat/LongCat-Next

MIT License: https://huggingface.co/meituan-longcat/LongCat-Next/blob/main/LICENSE

要旨

従来の次トークン予測（NTP）パラダイムは、離散的な自己回帰モデリングによって大規模言語モデルの成功を牽引してきました。しかし、今日のマルチモーダル・システムは依然として言語中心であることが多く、非言語モダリティを外付けの付属物として扱うため、アーキテクチャが分断され、統合が最適でない状態につながっています。この制約を超えるために、私たちは、マルチモーダル情報を共通の離散空間の中で表現する統一フレームワークである Discrete Native Autoregressive（DiNA）を提案します。これにより、モダリティ間で一貫した、かつ原理に基づく自己回帰モデリングが可能になります。中心となる革新は、任意解像度でのトークン化とデトークン化を行う Discrete Native Any-resolution Visual Transformer（dNaViT）であり、連続的な視覚信号を階層的な離散トークンへと変換します。この基盤の上に、LongCat-Next を構築します。これは、最小限のモダリティ固有設計で、単一の自己回帰目的関数のもとでテキスト・視覚・音声を処理するネイティブなマルチモーダルモデルです。産業レベルの基盤モデルとして、単一の枠組みの中で「見る」「描く」「話す」において優れた性能を発揮し、多様なマルチモーダル評価ベンチマークにおいて強力な結果を達成しています。特に LongCat-Next は、理解タスクにおける離散的な視覚モデリングの長年にわたる性能上限に対処し、理解と生成の間にある対立を効果的に調停するための統一的アプローチを提供します。ネイティブ・マルチモダリティへの試みとして、LongCat-Next とそのトークナイザをオープンソース化し、コミュニティにおけるさらなる研究開発の促進を期待しています。GitHub: https://github.com/meituan-longcat/LongCat-Next

投稿者 /u/ninjasaid13
[リンク] [コメント]