Inter-1を紹介：動画・音声・テキストから社会的シグナルを検出するマルチモーダルモデル

Reddit r/artificial / 2026/4/16

📰 ニュースSignals & Early TrendsModels & Research

原文を読む →

共有:

要点

Inter-1はInterhuman AIから新たにリリースされたマルチモーダルモデルで、動画・音声・テキストを時間的に整合させながら分析することで、「何が言われたか」以上の行動パターンを捉え、12の社会的シグナルを検出します。
そのアプローチは、単純な感情カテゴリのラベリングから離れ、行動科学に基づくオントロジーを採用します。観測可能な非言語／パラ言語の手がかり（例：視線、姿勢、ボーカルプロソディ、発話リズム、語彙の選び方）を用います。
検出された各シグナルについて、Inter-1は確率スコアに加えて、どの手がかりとモダリティが予測を支えたのかを示す、人が確認できる根拠（rationales）を提供します。
行動科学の専門家によるブラインド評価では、同モデルの根拠が、最先端のマルチモーダルモデルの出力よりも83%の割合で選好されました。
本モデルは、インタビュー分析、トレーニング、営業（セールス）コールなど、コミュニケーションの力学が内容と同じくらい重要になる実務用途に向けて位置付けられています。

Introducing Inter-1, multimodal model detecting social signals from video, audio & text

こんにちは。Interhuman AIのフィリップです。私たちは、この1年間かけて開発してきたモデル「Inter-1」を、ついに公開しました。

どんなことに直面しながらこれを作ったのか、その一部を共有したいと思いました。というのも、この課題領域は多くの人が考えている以上に面白いからです。

なぜこれを作ったのか（短く言うと）

GPTやGeminiに、誰かが話している動画を見せて「何が起きているか」を教えてもらうと、ほとんどの場合、その人の発言内容を要約するだけになります。
その人が答える直前にアイコンタクトを外したこと、発話の途中で2秒間止まったこと、特定のトピックが出てきたときに姿勢を変えたことなどは見落とされます。

たとえマルチモーダルの最前線モデルであっても、行動パターンを拾えるような形で、動画と音声を時間的に整列して処理できていないため、こうしたことはできていません。
これは、何が起きているかだけでなく「どういうふうに」重要になる、インタビュー、トレーニング、営業（セールス）の通話を分析したい場合にとても重要です。

行動科学 vs 感情AI

この領域の多くのモデルは、喜び、悲しみ、怒り、驚きなどの基本的な感情カテゴリで学習されています。これらは、はっきりしていて強烈で、意図して作られた表情を前提に設計されています。
しかし、そうしたものは、職場の場面で人が実際にどのようにコミュニケーションしているかにうまく対応していません。
私たちは別のオントロジー（分類体系）を作りました。行動科学の研究に基づく12の社会的シグナルです。それぞれは、モダリティをまたいだ特定の観測可能な手がかりによって定義されます。顔の表情、視線、姿勢、ボーカルプロソディ（声の抑揚）、発話のリズム、語の選び方。合計で100以上の個別の行動的手がかりがあり、そのうち半分以上が非言語および準言語（paraverbal）です。

モデルは自分自身を説明する

Inter-1が検出する各シグナルについて、確率スコアと根拠を出力します。そこには、どの手がかりを観測したか、どのモダリティから来たか、そして予測されたシグナルにどう対応づけられるかが含まれます。
つまり、「不確実性：高い」といったものを受け取るだけではなく、例えば次のようになります。
「話し手は言語的なヘッジ（『たぶん』、『あなたもわかるでしょう』など）を使い、細部を思い出すときは視線を外し、フィラー語や繰り返しによって発話が途切れている――これらは、内容に対する不確実性と一致しています。」

さらに、モデルの推論が動画で見えている内容と合っているかどうかを実際に確かめられます。行動科学の専門家によるブラインド評価を実施したところ、彼らは最前線モデルの出力よりも、私たちの根拠を83％の頻度で好みました。

ベンチマーク

私たちは約15のモデルをテストしました。小規模なオープンウェイトから、最新のクローズドな最前線システムまでさまざまです。Inter-1は、ほぼリアルタイムの速度で、最も高い検出精度を示しました。
ギャップが最も大きかったのは、難しいシグナル――関心、懐疑、ストレス、不確実性――の領域です。そこでは、訓練を受けた人間のアノテータでさえ、互いに意見が一致しないことがあります。
そうしたケースでは、最も近い最前線モデルに対して平均で10ポイント以上上回りました。

データセットの問題

感情（affective）コンピューティングの既存データセットは、基本的な感情、偏りのある少数の属性（狭いデモグラフィ）、限られた録画状況を前提に作られています。私たちはそれを使えなかったので、自分たちで作りました。大規模で目的に特化しており、野外（in-the-wild）の動画と合成データを組み合わせています。すべてのサンプルは、専門の行動科学者と、訓練を受けたクラウドのアノテータの両方によって、並行して注釈付けされました。

データセットの構築は、オントロジーと並んで、これまでで最も大変な作業でした。

次に何をするか

現時点では、フレーム内に1人の話者（single-speaker-in-frame）に対応しています。これは、ほとんどのインタビュー／プレゼン／会議のシナリオをカバーします。次は複数人の相互作用です。また、リアルタイムのためのストリーミング推論にも取り組んでいます。

ここで質問があれば喜んでお答えします :)

submitted by /u/Sardzoski
[link] [comments]