要約: Image Restoration (IR) エージェントは、マルチモーダル大規模言語モデルを活用して劣化を知覚し復元ツールを呼び出すことで、IRタスクの自動化に有望であることを示しています。
しかし、既存のIRエージェントは過去の相互作用を洞察として要約する機構を通常欠いており、最適なIRツールを探索するための網羅的な探索につながります。
この制限に対処するため、PaAgentと名付けられた肖像認識対応のIRエージェントを提案します。PaAgentはIRツールの自己進化的肖像バンクと、入力に適したIRツールを選択する Retrieval-Augmented Generation (RAG) を組み込んでいます。
具体的には、肖像バンクを構築・進化させるため、PaAgentは復元画像、選択されたIRツール、および劣化画像を用いて様々なIRツールの特徴を要約し、継続的にそれを豊かにします。
さらに、肖像バンクから関連する洞察を取得することによって、入力画像に最適なIRツールを選択するためにRAGを用います。
さらに、複雑な場面での劣化をPaAgentの知覚能力を高めるため、主観的・客観的報酬を考慮した強化学習戦略を提案します。これは報酬生成に画像品質スコアと意味的洞察の両方を考慮し、部分的かつ非一様な劣化下でも正確に劣化情報を提供します。
8つのIRベンチマークにわたる広範な実験は、6つの単一劣化シナリオと8つの混合劣化シナリオを含み、複雑なIRタスクに対するPaAgentの優位性を検証します。
私たちのプロジェクトページは \href{https://wyjgr.github.io/PaAgent.html}{PaAgent} です。
PaAgent: 主観-客観強化学習による肖像を意識した画像復元エージェント
arXiv cs.CV / 2026/3/19
💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- PaAgentは、肖像を意識した画像復元エージェントで、自己進化する肖像バンクと検索拡張生成を用いて、与えられた入力に最適なIRツールを選択します。劣化を認識するためにマルチモーダルモデルを活用します。
- 肖像データベースは、復元画像、選択されたツール、および劣化入力を用いて、さまざまなIRツールの特徴を要約することで進化し、検索を介して将来のツール選択に情報を提供します。
- 主観-客観の強化学習フレームワークは、画像品質スコアと意味的洞察を組み合わせ、正確な劣化認識を報酬として与えることで、部分的・非均一な劣化の頑健な処理を可能にします。
- 8つのIRベンチマークを対象とした実験には、6つの単一劣化シナリオと8つの混合劣化シナリオが含まれ、複雑なIRタスクに対するPaAgentの優位性が検証されます。PaAgentのプロジェクトページは公式サイトに掲載されています。
関連記事
「Google AI Studio」がFirebaseのバックエンドとAntigravityのコーディングエージェントを搭載、プロンプトだけで高度なフルスタックアプリケーションを生成可能に
Publickey
AIエージェントがコマンドラインでブラウザを自動操作できる「Browser Use CLI 2.0」リリース。Chrome DevToolsへの接続などで操作速度が2倍に
Publickey
半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る
Qiita
エッジコンピューティングとローカル処理への大規模な移行
Dev.to
仕様駆動開発における自己改良エージェント
Dev.to