スキルベースの行動プロファイル注釈の探究と検証：スキーマ駆動実行下における人間の運用可能性とLLMの実現可能性

arXiv cs.CL / 2026/4/17

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は行動プロファイル（BP）注釈を「1つのタスク」ではなく複数の注釈スキルの集合として捉え、LLM支援注釈をスキーマに導かれたスキル駆動パイプラインで評価します。
14特徴量のBPスキーマと3,134本の中国語コーパスの一致行を用い、2ラウンドのスキーマのみプロトコルで各スキルが「直接運用可能」「重点的な再注釈で回復可能」「構造的に不足（未特定）」のいずれかに分類されます。
GPT-5.4は保たれたスキルの一部を高い信頼性で実行できます（accuracy=0.678、κ=0.665、weighted F1=0.695）が、実現可能性は選択的であり、全面的な人間代替を意味しません。
スキルレベルでは人間とGPTの難しさが強く一致します（r=0.881）が、インスタンスレベル（r=0.016）や語彙項目レベル（r=-0.142）では一致しないため、「共有される分類（タクソノミー）」と「独立した実行」の性質が示唆されます。
オープンソースの失敗は主にスキーマからスキルへの実行に起因するとされ、自動注釈の評価はタスク単位の自動化ではなく「スキルの実現可能性」で行うべきだと結論づけています。