教室にいる学生の注意レベルを検出する、という問題設定があります。基本的には、その学生が(取り組んでいる/混乱している/退屈している)どれに当てはまるかを出力することになっています。そこで、どのアプローチを選ぶべきかを探しています。基本的には、顔面ランドマークのアプローチについて説明します。これが私のクロードの言うことです:
顔面ランドマークとは、顔の主要な特徴を対応付ける特定の座標点(x, y)のことです。標準的なモデルでは68点を用いて、あごの輪郭、眉、目、鼻、口をなぞります。このアプローチは伝統的なコンピュータビジョンにルーツがあり、ピクセルのパターンというよりは幾何学的な計測に基づいています。
この最近の論文に基づくものです: [The first look: a biometric analysis of emotion recognition using key facial features](https://www.frontiersin.org/journals/computer-science/articles/10.3389/fcomp.2025.1554320/full)
この論文では、感情を認識するときに人間が実際に見ている顔の領域を科学的に特定するために、**30人の参加者による眼球追跡(eye-tracking)**を用いました:
- **発見:** 人々は主に目に注目します(特に最初に左目)そして口にも注目します
- **革新:** 標準的な68のランドマークを、わずか**24の重要点(eyes + mouth)**にまで削減しました
もう一つ:ディープラーニング(ResNet/CNN)
- 顔の感情認識のためのResNetモデル
- 生の顔画像を入力 → CNNが処理 → 感情の分類を出力。
[リンク] [コメント]
![[Boost]](/_next/image?url=https%3A%2F%2Fmedia2.dev.to%2Fdynamic%2Fimage%2Fwidth%3D800%252Cheight%3D%252Cfit%3Dscale-down%252Cgravity%3Dauto%252Cformat%3Dauto%2Fhttps%253A%252F%252Fdev-to-uploads.s3.amazonaws.com%252Fuploads%252Fuser%252Fprofile_image%252F3618325%252F470cf6d0-e54c-4ddf-8d83-e3db9f829f2b.jpg&w=3840&q=75)
