Omanic: 大規模言語モデルにおける多段階推論の段階的評価に向けて

arXiv cs.CL / 2026/3/18

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

Omanicは、推論を段階的に分析できるよう、分解されたサブ質問と中間解答を備えたオープンドメインのマルチホップQAリソースを導入する。
このデータセットは、推論プロセスを診断することを目的として、OmanicSynth（10,296件の機械生成の訓練データ）とOmanicBench（967件の専門家がレビューした評価データ）で構成されている。
最先端の大規模言語モデルは、OmanicBenchで73.11%の多肢選択型の正解率を達成しており、タスクの難易度と段階レベルの注釈の必要性を示している。
OmanicSynthに対する教師ありファインチューニングは、6つの推論および数学のベンチマークにおいて顕著な転移性能の向上をもたらし、推論能力の転移に対するデータセットの有用性を裏付けている。
データとコードは公開されている（https://huggingface.co/datasets/li-lab/Omanic、https://github.com/XiaojieGu/Omanic）。

要旨：推論に焦点を当てた大規模言語モデル（LLMs）は多くのNLPタスクで進歩していますが、その評価は依然として難しいです。最終回答だけでは中間の推論過程を露呈せず、モデルが本当に正しく推論しているか、どこで失敗が発生しているかを判断するのが難しくなります。一方、既存のマルチホップQAベンチマークには推論の失敗を診断するための手順レベルの注釈が欠如しています。このギャップに対処するため、推論プロセスを分析するための構造的注釈として、分解されたサブ質問と中間回答を提供するオープンドメインのマルチホップQAリソース「Omanic」を提案します。それは10,296件の機械生成訓練例（OmanicSynth）と967件の専門家が精査した人間注釈付き評価例（OmanicBench）を含みます。体系的な評価は、最先端のLLMsがOmanicBenchで73.11%の多肢選択正解率しか達成しておらず、その難易度の高さを裏付けていることを示しています。ステップバイステップの分析は、CoTのパフォーマンスが事実の完全性にかかっており、知識のギャップの下でその利得が薄れ、後半の跳躍で誤りが拡大することを示しています。さらに、OmanicSynthに対する教師ありファインチューニングは、推論と数学の6つのベンチマークにおいて大きな転移効果（平均7.41ポイント）をもたらし、データセットの品質を検証するとともに、推論能力転移の監督としてのOmanicSynthの有効性をさらに支持しています。私たちはデータをhttps://huggingface.co/datasets/li-lab/Omanicで、コードをhttps://github.com/XiaojieGu/Omanicで公開します。」}/* End of translation */ бессервенный

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

Dev.to

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

Dev.to

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

Dev.to

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

Dev.to

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

Dev.to

Omanic: 大規模言語モデルにおける多段階推論の段階的評価に向けて

要点

関連記事

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer