Benchmark for Assessing Olfactory Perception of Large Language Models
arXiv cs.AI / 4/2/2026
💬 OpinionIdeas & Deep AnalysisModels & Research
Key Points
- 提案された「Olfactory Perception (OP) benchmark」は、LLMが匂い(嗅覚)を推論できるかを評価するための1,010問・8カテゴリのベンチマークである。
- 課題は匂いの分類、主要記述語の特定、強度・心地よさ判断、混合の類似性、受容体活性推定、実世界の匂い源からの同定など多岐にわたる。
- 21のモデル構成の評価から、化合物名プロンプトの方が異性体SMILES表現より常に高性能で、改善幅は+2.4〜+18.9ポイント(平均約+7ポイント)となり、現状の知識獲得は構造的な分子推論より語彙的関連に依存する可能性が示唆された。
- 最良モデルは全体精度64.4%を達成した一方で、嗅覚推論には大きなギャップが残ること、また21言語の部分評価では言語横断の予測集約が有効でAUROC=0.86(最良の言語アンサンブル)と報告されている。
Related Articles

Benchmarking Batch Deep Reinforcement Learning Algorithms
Dev.to

Qwen3.6-Plus: Alibaba's Quiet Giant in the AI Race Delivers a Million-Token Enterprise Powerhouse
Dev.to

How To Leverage AI for Back-Office Headcount Optimization
Dev.to
Is 1-bit and TurboQuant the future of OSS? A simulation for Qwen3.5 models.
Reddit r/LocalLLaMA
SOTA Language Models Under 14B?
Reddit r/LocalLLaMA