Deep-Reporter: 根拠に基づくマルチモーダル長文生成のための深いリサーチ

arXiv cs.CL / 2026/4/14

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、既存の深いリサーチシステムのテキスト中心の限界に対処する、根拠に基づくマルチモーダル長文生成を目的としたエージェント型フレームワークであるDeep-Reporterを提案する。

要旨: 近年のエージェント型サーチの枠組みにより、反復的な計画と検索によって深い調査が可能になり、幻覚を抑制し、事実に基づく根拠付けを強化できるようになってきました。しかし、これらは依然としてテキスト中心であり、現実世界の専門家レポートを特徴づけるマルチモーダルな証拠を見落としています。私たちは、差し迫った課題として「マルチモーダルな長文生成」を提起します。それに基づき、Deep-Reporter を、根拠に基づくマルチモーダル長文生成のための統一されたエージェント型フレームワークとして提案します。これは次を統括します: (i) エージェント型マルチモーダル検索とフィルタリングにより、テキストの段落と情報密度の高いビジュアルを取得し、フィルタリングすること; (ii) チェックリストに導かれた漸進的統合により、画像とテキストの統合の一貫性を保証し、最適な引用箇所を配置すること; そして (iii) 長距離の一貫性と局所的な流暢さのバランスを取るための、反復的なコンテキスト管理。モデル最適化のために、8K の高品質なエージェント型トレースを生成する、厳密なキュレーションのパイプラインを開発します。さらに、M2LongBench を導入します。これは、9つの領域にまたがる247の研究タスクから成る包括的なテストベッドと、安定したマルチモーダル・サンドボックスを備えています。大規模な実験の結果、長文のマルチモーダル生成は非常に難しい課題であり、特にマルチモーダルの選択と統合が難所であることが示されます。そして、効果的な事後学習によって、そのギャップを埋められることを示します。

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

日経XTECH

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

日経XTECH

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵

日経XTECH

SBGの特許が2年連続1万件超公開、AIが変えた「発明」のつくり方

日経XTECH

新卒ビジネス職を1カ月で技術者へ転換、TOKIUM AI時代は皆「越境人材」

日経XTECH

Deep-Reporter: 根拠に基づくマルチモーダル長文生成のための深いリサーチ

要点

関連記事

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵

SBGの特許が2年連続1万件超公開、AIが変えた「発明」のつくり方

新卒ビジネス職を1カ月で技術者へ転換、TOKIUM AI時代は皆「越境人材」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

テスラのE2E自動運転技術FSD、オランダ承認 「欧州初」一般道で手放し

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

ソフトバンクなど3社、フィジカルAIへの通信 ロボとMECの連係が鍵

SBGの特許が2年連続1万件超公開、AIが変えた「発明」のつくり方

新卒ビジネス職を1カ月で技術者へ転換、TOKIUM AI時代は皆「越境人材」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵