GLM-5V-Turbo：マルチモーダルエージェントのためのネイティブ基盤モデルに向けて

arXiv cs.CV / 2026/4/30

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、画像・動画・Webページ・ドキュメント・GUIなどの多様な入力を扱い、エージェントに求められる知覚と行動を重視した「native（ネイティブ）」マルチモーダル基盤モデルへの一歩としてGLM-5V-Turboを提案しています。
マルチモーダルを言語モデルの補助的な入出力インターフェースとして扱うのではなく、GLM-5V-Turboではマルチモーダル知覚を推論・計画・ツール利用・実行の中核に統合しています。
モデル設計、マルチモーダル学習、強化学習、ツールチェーン拡張、エージェントフレームワークとの統合にまたがる改善点がまとめられています。
論文では、マルチモーダル・コーディング、視覚的ツール利用、フレームワークに基づくエージェント課題で高い性能が示され、同時にテキストのみのコーディング能力も競争力を維持するとされています。
著者らは、信頼性の高いエンドツーエンド検証、マルチモーダル知覚、階層的最適化がマルチモーダルエージェント構築の鍵だとし、実務的な知見を強調しています。

Abstract

多モーダル・エージェントのためのネイティブな基盤モデルへの一歩として、GLM-5V-Turboを提案します。基盤モデルが現実の環境でますます展開されるにつれて、エージェントとしての能力は、言語による推論だけでなく、画像、動画、Webページ、ドキュメント、GUIといった異種の文脈を知覚し、解釈し、行動する能力にも依存します。GLM-5V-Turboは、この目的のために構築されています。すなわち、言語モデルの補助的なインターフェースとしてではなく、多モーダル知覚を推論、計画、ツール利用、実行の中核コンポーネントとして統合します。本報告書では、モデル設計、多モーダル訓練、強化学習、ツールチェーンの拡張、そしてエージェント・フレームワークとの統合にまたがってGLM-5V-Turboの主な改良点を要約します。これらの発展により、多モーダルなコーディング、視覚的ツール利用、フレームワークに基づくエージェント的タスクにおいて強力な性能が得られる一方で、テキストのみのコーディング能力は競争力を維持しています。さらに重要なのは、開発プロセスが多モーダル・エージェントを構築するための実践的な洞察を提供することであり、多モーダル知覚、階層的最適化、そして信頼できるエンドツーエンド検証が中核的な役割を果たすことを強調しています。