生成AIによるアウトバウンド(SDRスタイルのメールに加えてフォローアップ)の評価をいくつかやっているのですが、変な問題にぶつかっています。誰もが「より良いパーソナライズ」や「返信率の向上」の話をしますが、実際に品質をベンチマークしようとすると、すぐに話がややこしくなります。
私たちが見てきたことはいくつかあります。
a)返信率(明白ですが、遅延したシグナルでノイズが乗りやすい)
b)ポジティブ返信 vs ネガティブ返信(大規模にクリーンにラベル付けするのが難しい)
c)見込み客/会社に関する事実の正確さ
d)送信する前に人間がどれだけ編集する必要があるか
e)スパムレーダーに引っかからないほど十分に人間っぽいかどうか
少なくとも私にとっての問題は、これらがどれも「これは良いアウトバウンドメッセージだ」とは完全には捉えきれていないことです。返信率について最適化すればクリックベイト的なナンセンスに行き着くことがあります。正確さについて最適化すれば、技術的には正しいのに完全に死んでいる(反応がない)ものになります。今のところ、社内で最も実用的な指標は、おそらく人間のレビュー手順の後に承認/送信するまでの時間ですが、それは本質というより代理指標に感じます。もしここで適切なベンチマークを作らなければならないなら、何を最適化しますか?これは「指標は重要じゃない」とみんなが言うタイプの問題の一つに見えますが、それでも核心となる要素のように思えます。
- 単一指標か、複合指標か?
- オフライン評価か、ライブのキャンペーンデータか?
[link] [comments]




