デジタルヒューマンのためのインタラクティブ・インテリジェンスへ

arXiv cs.CL / 2026/3/16

💬 オピニオンModels & Research

共有:

要点

本論文は、デジタルヒューマンの新しいパラダイムとしてインタラクティブ・インテリジェンスを提案し、個性に沿った表現、適応的な相互作用、自己進化を可能にする。
Mio をエンドツーエンドの5モジュールから成るフレームワーク（Thinker、Talker、Face Animator、Body Animator、Renderer）として導入し、認知的推論とリアルタイムのマルチモーダル具現化を統合して、流暢な相互作用を実現します。
対話型知性を厳密に評価するための新しいベンチマークを確立し、手法間の標準化された比較を可能にします。
実験により、Mioが評価された指標の各次元で最先端手法を上回る性能を示し、デジタルヒューマンを表面的な模倣から知的な相互作用へと導く。

要旨: Interactive Intelligenceは、人格に沿った表現、適応的な対話、そして自己進化が可能なデジタル人間の新しいパラダイムです。これを実現するために、Mio（Multimodal Interactive Omni-Avatar、マルチモーダル・インタラクティブ・オムニ・アバター）を、Thinker、Talker、Face Animator、Body Animator、Rendererの5つの専門モジュールから成るエンドツーエンドのフレームワークとして提示します。この統一アーキテクチャは、認知推論とリアルタイムのマルチモーダル体現を統合し、流暢で一貫した対話を実現します。さらに、対話的知性の能力を厳密に評価するための新しいベンチマークを確立します。広範な実験により、私たちのフレームワークは、評価されたすべての指標で最先端の手法を上回る性能を発揮することが示されました。これらの貢献は、デジタル人間を表面的な模倣を超えた知的な対話へと前進させます。

次世代LLM推論技術: Flash-MoE から Gemini Flash-Lite、そしてローカルGPU活用へ

Dev.to

オープンソースAIの波とセキュリティへの投資: Qwen、Microsoft、Google の動向

Dev.to

AIモデルがクリエイティブな文章を書けないのは初期モデルに見られた創造性や独創性を抑制してビジネス用途に特化させたせいだという指摘

GIGAZINE

RLax、JAX、Haiku、Optax を用いてスクラッチから Deep Q-Learning（DQN）を実装し、カートポール環境の強化学習エージェントを訓練する

MarkTechPost

［D］SQLのみで分類器を訓練する（反復的最適化なし）

Reddit r/MachineLearning

デジタルヒューマンのためのインタラクティブ・インテリジェンスへ

要点

関連記事

次世代LLM推論技術: Flash-MoE から Gemini Flash-Lite、そしてローカルGPU活用へ

オープンソースAIの波とセキュリティへの投資: Qwen、Microsoft、Google の動向

AIモデルがクリエイティブな文章を書けないのは初期モデルに見られた創造性や独創性を抑制してビジネス用途に特化させたせいだという指摘

RLax、JAX、Haiku、Optax を用いてスクラッチから Deep Q-Learning（DQN）を実装し、カートポール環境の強化学習エージェントを訓練する

［D］SQLのみで分類器を訓練する（反復的最適化なし）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer