スキルベースの行動プロファイル注釈の探究と検証:スキーマ駆動実行下における人間の運用可能性とLLMの実現可能性

arXiv cs.CL / 2026/4/17

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 本論文は行動プロファイル(BP)注釈を「1つのタスク」ではなく複数の注釈スキルの集合として捉え、LLM支援注釈をスキーマに導かれたスキル駆動パイプラインで評価します。
  • 14特徴量のBPスキーマと3,134本の中国語コーパスの一致行を用い、2ラウンドのスキーマのみプロトコルで各スキルが「直接運用可能」「重点的な再注釈で回復可能」「構造的に不足(未特定)」のいずれかに分類されます。
  • GPT-5.4は保たれたスキルの一部を高い信頼性で実行できます(accuracy=0.678、κ=0.665、weighted F1=0.695)が、実現可能性は選択的であり、全面的な人間代替を意味しません。
  • スキルレベルでは人間とGPTの難しさが強く一致します(r=0.881)が、インスタンスレベル(r=0.016)や語彙項目レベル(r=-0.142)では一致しないため、「共有される分類(タクソノミー)」と「独立した実行」の性質が示唆されます。
  • オープンソースの失敗は主にスキーマからスキルへの実行に起因するとされ、自動注釈の評価はタスク単位の自動化ではなく「スキルの実現可能性」で行うべきだと結論づけています。