要旨: 本研究では、テキスト・画像・動画・音声にわたる統一的な理解および推論能力を備えた、多様なグローバルEC(電子商取引)タスク向けのオムニ・マルチモーダル大規模言語モデル(MLLM)であるValley3を提案する。Valley3の重要な特徴は、EC向けのネイティブ多言語音声対応であり、視覚言語モデルを拡張することで重要な音声-視覚タスク、特に短尺動画シナリオによりよく対応できるように開発された点にある。このために我々は、4段階のオムニEC継続事前学習パイプラインを慎重に設計し、その中でValley3が段階的に、音声理解、クロスモーダルな指示追従、ECドメイン知識、および長文コンテキスト推論能力を獲得するようにする。これにより、最終的に多様なECシナリオのためのオムニモデルへと発展する。さらに我々は、ポストトレーニングによってValley3を改善し、制御可能な推論モードによる長い推論(ロングチェーン推論)を促す。これにより、推論を行わないモード1つと、異なる3段階の思考レベルを用意し、単純なシナリオでは推論効率を両立しつつ、複雑な応用では深い推論が可能となるようにする。加えて、ECのディープリサーチタスクのために、検索ツールを能動的に呼び出し、タスクに関連する情報を獲得できるエージェント型検索能力をValley3に備える。Valley3の能力を包括的に評価するために、6つのタスクからなるオムニECベンチマークを構築する。実験結果は、Valley3が、社内およびオープンソースのECベンチマークにおいて一貫して強力なベースラインを上回る一方で、一般ドメインのベンチマークでも競争力を維持していることを示している。
Valley3:eコマース向けオムニ・ファウンデーションモデルのスケーリング
arXiv cs.AI / 2026/5/5
📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- Valley3は、テキスト・画像・動画・音声にわたる統一的な理解と推論を提供する、グローバルなeコマース向けオムニ・マルチモーダル大規模言語モデル(MLLM)です。
- 主な進歩は、特に短尺動画のオーディオ・ビジュアル課題に強くするため、音声の多言語対応をネイティブに備えた点で、視覚と言語モデルを拡張して実現されています。
- Valley3は4段階のオムニeコマース継続事前学習パイプラインにより、音声理解・クロスモーダルな指示追従・eコマース領域知識・長文脈推論を段階的に獲得していきます。
- ポストトレーニングでは、推論の長鎖を促す制御可能な推論モード(非思考1種+思考レベル3種)を導入し、単純な場面では推論効率を保ちつつ、複雑な用途では深い推論を可能にします。
- さらにValley3はエージェンティックな検索機能を備え、外部の検索ツールを呼び出してタスクに関連する情報を取得でき、6タスクからなるオムニeコマースのベンチマークで評価した結果、eコマース系の強いベースラインを一貫して上回りつつ、一般ベンチマークでも競争力を維持しています。




