| こんにちは。Interhuman AIのフィリップです。私たちは、この1年間かけて開発してきたモデル「Inter-1」を、ついに公開しました。 どんなことに直面しながらこれを作ったのか、その一部を共有したいと思いました。というのも、この課題領域は多くの人が考えている以上に面白いからです。 なぜこれを作ったのか(短く言うと) GPTやGeminiに、誰かが話している動画を見せて「何が起きているか」を教えてもらうと、ほとんどの場合、その人の発言内容を要約するだけになります。 たとえマルチモーダルの最前線モデルであっても、行動パターンを拾えるような形で、動画と音声を時間的に整列して処理できていないため、こうしたことはできていません。 行動科学 vs 感情AI この領域の多くのモデルは、喜び、悲しみ、怒り、驚きなどの基本的な感情カテゴリで学習されています。これらは、はっきりしていて強烈で、意図して作られた表情を前提に設計されています。 モデルは自分自身を説明する Inter-1が検出する各シグナルについて、確率スコアと根拠を出力します。そこには、どの手がかりを観測したか、どのモダリティから来たか、そして予測されたシグナルにどう対応づけられるかが含まれます。 さらに、モデルの推論が動画で見えている内容と合っているかどうかを実際に確かめられます。行動科学の専門家によるブラインド評価を実施したところ、彼らは最前線モデルの出力よりも、私たちの根拠を83%の頻度で好みました。 ベンチマーク 私たちは約15のモデルをテストしました。小規模なオープンウェイトから、最新のクローズドな最前線システムまでさまざまです。Inter-1は、ほぼリアルタイムの速度で、最も高い検出精度を示しました。 データセットの問題 感情(affective)コンピューティングの既存データセットは、基本的な感情、偏りのある少数の属性(狭いデモグラフィ)、限られた録画状況を前提に作られています。私たちはそれを使えなかったので、自分たちで作りました。大規模で目的に特化しており、野外(in-the-wild)の動画と合成データを組み合わせています。すべてのサンプルは、専門の行動科学者と、訓練を受けたクラウドのアノテータの両方によって、並行して注釈付けされました。 データセットの構築は、オントロジーと並んで、これまでで最も大変な作業でした。 次に何をするか 現時点では、フレーム内に1人の話者(single-speaker-in-frame)に対応しています。これは、ほとんどのインタビュー/プレゼン/会議のシナリオをカバーします。次は複数人の相互作用です。また、リアルタイムのためのストリーミング推論にも取り組んでいます。 ここで質問があれば喜んでお答えします :) [link] [comments] |
Inter-1を紹介:動画・音声・テキストから社会的シグナルを検出するマルチモーダルモデル
Reddit r/artificial / 2026/4/16
📰 ニュースSignals & Early TrendsModels & Research
要点
- Inter-1はInterhuman AIから新たにリリースされたマルチモーダルモデルで、動画・音声・テキストを時間的に整合させながら分析することで、「何が言われたか」以上の行動パターンを捉え、12の社会的シグナルを検出します。
- そのアプローチは、単純な感情カテゴリのラベリングから離れ、行動科学に基づくオントロジーを採用します。観測可能な非言語/パラ言語の手がかり(例:視線、姿勢、ボーカルプロソディ、発話リズム、語彙の選び方)を用います。
- 検出された各シグナルについて、Inter-1は確率スコアに加えて、どの手がかりとモダリティが予測を支えたのかを示す、人が確認できる根拠(rationales)を提供します。
- 行動科学の専門家によるブラインド評価では、同モデルの根拠が、最先端のマルチモーダルモデルの出力よりも83%の割合で選好されました。
- 本モデルは、インタビュー分析、トレーニング、営業(セールス)コールなど、コミュニケーションの力学が内容と同じくらい重要になる実務用途に向けて位置付けられています。




