要旨: 大規模言語モデルの急速な進歩により、それらの多言語・多文化能力を体系的に評価することの重要性が高まっています。これまでの文化評価ベンチマークは、主に言語的形式に符号化できる基本的な文化知識に焦点を当ててきました。ここで、嗅覚と味覚に深く根ざした領域であるソムリエの専門性を評価する多言語ベンチマーク、SommBench を提案します。言語モデルは感覚的性質を文字情報の記述を通じて学習しますが、このテキスト的基盤だけで専門家レベルの感覚判断を再現できるかを検証します。SommBench は Wine Theory Question Answering (WTQA)、Wine Feature Completion (WFC)、Food-Wine Pairing (FWP) の3つの主要タスクで構成されています。SommBench は英語、スロバキア語、スウェーデン語、フィンランド語、ドイツ語、デンマーク語、イタリア語、スペイン語の複数の言語で利用可能です。これは、言語モデルのワイン専門知識を言語能力から分離するのに役立ちます。ベンチマークのデータセットは、専門のソムリエと各言語のネイティブスピーカーと密接に協力して開発され、結果として 1,024 のワイン理論質問回答、1,000 のワイン特徴完成の例、1,000 の食品-ワインペアリングの例が作成されました。我々は、Gemini 2.5 のような閉源モデル、GPT-OSS および Qwen 3 のようなオープンウェイトモデルを含む、最も人気のある言語モデルの結果を提供します。我々の結果は、最も有能なモデルがワイン理論の質問回答で高い性能を示す(閉源モデルで最大 97% 正解)、しかし特徴完成がピークで 65%、食品-ワインペアリングは(MCC が 0 から 0.39 の間)より難しいことを示します。これらの結果は、SommBench を言語モデルのソムリエ専門性を評価する興味深く挑戦的なベンチマークとして位置づけます。ベンチマークは公開されており、https://github.com/sommify/sommbench にあります。
SommBench: 言語モデルのソムリエ能力を評価する
arXiv cs.CL / 2026/3/13
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- SommBench は、言語間でソムリエの専門性を評価する多言語ベンチマークであり、ワイン知識を一般的な言語能力から分離することを目指します。
- 3 つのタスク、Wine Theory Question Answering (WTQA)、Wine Feature Completion (WFC)、Food-Wine Pairing (FWP) を含み、データセットは英語、スロバキア語、スウェーデン語、フィンランド語、ドイツ語、デンマーク語、イタリア語、スペイン語で収集された 1,024 の WTQA 質問、1,000 の WFC サンプル、1,000 の FWP インスタンスから成ります。
- 実現には専門ソムリエとネイティブスピーカーの協力を得て現実性と語用範囲を担保し、言語間のワイン専門知識と基盤の比較を可能にしました。
- 結果は、WTQA に対して一部のモデルで強い性能を示す(閉源モデルで最大 97% の正解率)一方、WFC では著しく低い性能(ピークは約 65%)および食品-ワインペアリングは MCC が 0 から 0.39 の間であり、感覚に基づく推論のギャップを浮き彫りにします。
- SommBench は GitHub で公開されており、Gemini 2.5、GPT-OSS、Qwen 3 などのモデルの報告結果があり、言語モデルのソムリエ風推論を評価する難易度の高いベンチマークとして位置づけられています。




