未言の真意をめぐる議論：役割アンカー付きマルチエージェント推論による「半真実」検出

arXiv cs.CL / 2026/4/22

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、明確な誤りだけでなく省略された文脈に注目して「半真実」を検出するための役割アンカー付きマルチエージェント討論フレームワークRADARを提案しています。
RADARは、対立する「政治家」役と「科学者」役が同じ取得（retrieved）エビデンスをもとに推論し、最終判断を中立の「裁定者（Judge）」が行うという3要素で構成されます。
現実的なノイズのある取得を想定しつつ、二重しきい値の早期終了コントローラにより、十分な推論が得られた時点で討論を打ち切って効率化を狙います。
実験では、RADARがデータセットとモデルバックボーンを通じて、強力な単一エージェントおよびマルチエージェントのベースラインを一貫して上回り、省略検出の精度向上と推論コスト削減の両立が示されています。
著者らはRADARのコードを公開しており、他の研究者が再現や発展的な検討を行えるようにしています。

要旨: 事実として正しいにもかかわらず、文脈が省略されているために誤解を招く「半分だけ本当の主張」は、明示的な虚偽に焦点を当てた事実検証システムにとって盲点のまま残っている。このような省略に基づく操作に対処するには、「何が言われているか」だけでなく、「何が言われずに残されているか」についても推論する必要がある。私たちは、現実的でノイズのある検索（リトリーブ）のもとで、省略を意識した事実検証を行うための、役割に基づくマルチエージェント討論フレームワークRADARを提案する。RADARは、政治家と科学者に補完的な役割を割り当て、共有された検索済みの証拠について中立の審判（Judge）が司会しながら、敵対的に推論する。さらに、二重閾値の早期終了コントローラが、十分な推論が行われたかどうかを適応的に判断し、判定を下すタイミングを決定する。実験の結果、RADARはデータセットおよびバックボーンにわたって、強力な単一エージェントおよびマルチエージェントのベースラインを一貫して上回り、省略の検出精度を向上させつつ推論コストを削減することが示された。これらの結果は、適応的な制御を備えた、役割に基づき検索に根ざす討論が、事実検証における欠落した文脈を明らかにするための効果的でスケーラブルな枠組みであることを示している。コードは https://github.com/tangyixuan/RADAR で公開されている。

視覚におけるオートエンコーダと表現学習

Dev.to

Google Stitch 2.0：数秒でシニア級UIを生成できるが、編集はまだ壊れる

Dev.to

AIエージェントにおけるコンテキスト肥大（Context Bloat）

Dev.to

プロダクトを開発するAI開発チームをオープンソース化しました

Dev.to

Qwen 3.6 35B A3B と Qwen 3.5 122B A10B の比較：自分では後者の方が大きく優れる

Reddit r/LocalLLaMA

未言の真意をめぐる議論：役割アンカー付きマルチエージェント推論による「半真実」検出

要点

関連記事

視覚におけるオートエンコーダと表現学習

Google Stitch 2.0：数秒でシニア級UIを生成できるが、編集はまだ壊れる

AIエージェントにおけるコンテキスト肥大（Context Bloat）

プロダクトを開発するAI開発チームをオープンソース化しました

Qwen 3.6 35B A3B と Qwen 3.5 122B A10B の比較：自分では後者の方が大きく優れる

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer