AI Navigate

インサイト最新記事一覧 AI大全

SilLang：シルエット言語エンコーディングによる歩行認識の改善

arXiv cs.CV / 2026/3/26

📰 ニュースIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

本論文は、二値の歩行シルエットを自然言語のトークンに類似した離散的な系列として扱うことで、時間的な動作パターンをより適切にモデル化する歩行認識手法「SilLang」を提案する。
シルエットのトークン分布を整形する「Contour-Velocity Tokenizer」を導入し、トークンの出現頻度や密度の違いによって生じる不整合を解消し、テキストトークン空間との整合性を高める。
SilLangは、LLMに由来する離散的な言語埋め込みを取り込むことで、視覚的なシルエット表現を強化するデュアルブランチ構成を用いる。
SUSTech1K、GREW、Gait3Dでの実験により、一般的な歩行バックボーンに実装した場合、最先端の歩行認識手法に対して一貫した改善が示される。

関連記事

VoxtralResearchVoxtral TTSについて：高速で、即座に適応可能で、音声エージェント向けに臨場感のある発話を生成する最前線のオープンウェイト音声合成モデル

Mistral AI Blog

2026年にMiMo V2 APIを無料で使う方法：完全ガイド

Dev.to

誰も解けないエージェントのメモリ問題：永続的なコンテキストのための実践的アーキテクチャ

Dev.to

カオスからコンプライアンスへ：モバイル・キッチンのためのAIオートメーション

Dev.to

AIにおけるMCPを解説（実例付き）

Dev.to

関連おすすめサービス

※当サイトはアフィリエイト広告を利用しています

Notta搭載AI議事録イヤホン ZENCHORD1

AI時代の仕事術。Notta搭載で会議の議事録を自動生成するスマートイヤホン。

AI搭載ボイスレコーダー Plaud

世界100万人が愛用。AIで文字起こし・要約を自動化するボイスレコーダー。

画像高画質化AIツール Aiarty Image Enhancer

AIで画像を高画質化。写真・イラストを簡単にアップスケール。