大規模言語モデルの嗅覚知覚を評価するためのベンチマーク

arXiv cs.AI / 2026/4/2

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

提案された「Olfactory Perception（OP）ベンチマーク」は、LLMが匂い（嗅覚）を推論できるかを評価するための1,010問・8カテゴリのベンチマークである。
課題は匂いの分類、主要記述語の特定、強度・心地よさ判断、混合の類似性、受容体活性推定、実世界の匂い源からの同定など多岐にわたる。
21のモデル構成の評価から、化合物名プロンプトの方が異性体SMILES表現より常に高性能で、改善幅は+2.4〜+18.9ポイント（平均約+7ポイント）となり、現状の知識獲得は構造的な分子推論より語彙的関連に依存する可能性が示唆された。
最良モデルは全体精度64.4%を達成した一方で、嗅覚推論には大きなギャップが残ること、また21言語の部分評価では言語横断の予測集約が有効でAUROC=0.86（最良の言語アンサンブル）と報告されている。

抽象: ここでは、嗅覚知覚（OP）ベンチマークを導入します。このベンチマークは、大規模言語モデル（LLM）が匂いについて推論する能力を評価するために設計されています。ベンチマークには、8つのタスクカテゴリにわたって計1,010問が含まれており、以下を扱います：匂いの分類、一次の記述子（プライマリ記述子）の同定、強度と心地よさの判断、多記述子の予測、混合物の類似性、嗅覚受容体の活性化、そして実世界の匂い源からの匂いの同定。各問題は、分子表現の効果を評価するために、2つのプロンプト形式（化合物名と異性体SMILES）で提示されます。主要なモデル系統にわたって21のモデル構成を評価した結果、化合物名プロンプトは異性体SMILESに対して一貫して優れており、向上幅は +2.4 から +18.9 パーセンテージポイント（平均約 +7ポイント）です。これは、現在のLLMが構造的な分子推論ではなく、主として語彙的な関連によって嗅覚知識にアクセスしていることを示唆します。最も良い性能のモデルは全体精度 64.4\% に到達しており、嗅覚推論における新たな能力と、なお大きく残るギャップの両方が浮き彫りになります。さらに、21言語にまたがるOPの一部を評価し、言語間で予測を集約すると嗅覚予測が改善することを確認します。最良の言語アンサンブルモデルでは AUROC = 0.86 です。LLMは、視覚的または聴覚的情報だけでなく、嗅覚情報も扱えるはずです。