ARACHで話す前に要約する: グローバルアテンション再配置による学習不要の推論時プラグインでLLMsを強化

arXiv cs.AI / 2026/3/13

💬 オピニオンTools & Practical UsageModels & Research

共有:

要点

ARACHは、訓練不要の推論時プラグインで、適応的なコンテキストハブを用いてコンテキストを集約し、重みを更新せずにアテンションを再割り当てします。
コンテキストを統合しアテンションを再割り当てることでアテンションサンク現象を緩和する新しい内部計算介入手法を提供します。これはプロンプト設計や訓練ベースのポストトレーニング手法とは異なります。
複数の言語モデリングタスクにまたがる実験は、推論オーバーヘッドが控えめでパラメータ更新なしにも一貫した改善を示しました。
本研究は、推論時にLLMの内部計算へ介入することで、従来の入力/出力レベルの手法を超える利得をもたらし、モデル性能向上のツールボックスを拡張します。

大規模言語モデル（LLMs）は卓越した性能を発揮しますが、さらなる向上にはしばしば高価な訓練が必要です。これにより、更新せずに推論時にモデルを改善する訓練後の手法、特に訓練不要アプローチへの関心が高まっています。ほとんどの訓練不要法はモデルをブラックボックスとして扱い、出力を改善するための入力/出力レベルの介入、例えばプロンプト設計、反復サンプリングを通じたテスト時スケーリング、再ランク付け/検証、検索などを行います。対照的に、内部計算へ介入するためのプラグアンドプレイの機構を提供することは稀です。我々はARACH（Adaptive Context Hubによるアテンション再割り当て）を提案します。訓練不要の推論時プラグインで、適応的なコンテキストハブを備えたLLMsを拡張し、コンテキストを集約してアテンションを再割り当てます。複数の言語モデリングタスクにわたる広範な実験は、推論オーバーヘッドが控えめで、パラメータ更新なしでも一貫した改善を示しました。アテンション分析は、ARACHがアテンションサンク現象を緩和することを示唆します。これらの結果は、モデルの内部計算を推論時に設計することが、プロンプトベースのテスト時手法と訓練ベースのポストトレーニング手法の両方とは異なる推論時戦略を提供することを示しています。

パイプラインを使用してワークフローを調整する

Azure OpenAI Service ドキュメント

Speculative Decodingで27Bが逆に遅くなった

Qiita

言語処理学会第32回年次大会(NLP2026) 参加報告

Qiita

Sakana ChatのフェッチをサーバーログとASN照合で特定した

Qiita

スマホでポチポチ？「寝ている間に完成」は本当か。AIだけでWEBサービスを作ってみてわかったこと

note

ARACHで話す前に要約する: グローバルアテンション再配置による学習不要の推論時プラグインでLLMsを強化

要点

関連記事

パイプラインを使用してワークフローを調整する

Speculative Decodingで27Bが逆に遅くなった

言語処理学会第32回年次大会(NLP2026) 参加報告

Sakana ChatのフェッチをサーバーログとASN照合で特定した

スマホでポチポチ？「寝ている間に完成」は本当か。AIだけでWEBサービスを作ってみてわかったこと

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

パイプラインを使用してワークフローを調整する

Speculative Decodingで27Bが逆に遅くなった

言語処理学会第32回年次大会(NLP2026) 参加報告

Sakana ChatのフェッチをサーバーログとASN照合で特定した

スマホでポチポチ？ 「寝ている間に完成」は本当か。AIだけでWEBサービスを作ってみてわかったこと

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

スマホでポチポチ？「寝ている間に完成」は本当か。AIだけでWEBサービスを作ってみてわかったこと