私はAIによる読解(詳細は後ほど)を軸にしたプロダクトを構築していて、主要なLLM間での要約品質に関する調査結果を共有したいと思いました。
ニュース、研究論文、ブログ記事、技術ドキュメントの計50本の記事でテストしました。
Claude(Sonnet/Haiku):
- ニュアンスを最も良く保持し、過度な単純化を避けるのが得意
- 学術コンテンツが最も強い
- 「要点を失わずにこれを説明して」といった用途に非常に優れている
GPT-4:
- 最速で要約でき、たいてい最も簡潔
- 重要な文脈を落とすことがある
- ニュースには良いが、学術は弱め
Gemini:
- 最も強力な出典の引用
- 元の情報にない情報を追加しがち
- 事実ベースには良いが、創作コンテンツには慎重に対応
最も意外だった発見:バイアス検出の精度。Claudeはテスト記事の78%で、含みのある言い回しや構成(フレーミング)を正しく指摘しました。GPTは64%。Geminiは51%。
他にも似た比較をしている人はいますか? あなたが見ている結果もぜひ聞きたいです。
[link] [comments]



