AIエージェントは、もはや単なるチャットボットではありません。自律的に複雑な問題を解決するために、考え、計画し、ツールを使い、そして協力して動きます。この投稿では、5種類のAIエージェント、仕組み、ReActとReWOOのフレームワーク、多エージェントシステム、そしてガードレールについて、誰でも理解できるように解説します。
はじめに:AIはもう「答える」だけではない
私たちの多くにとって、AIとの最初の出会いはシンプルでした。質問する→答えが返ってくる→それで終わり。ですが、静かな革命が起きています。AIエージェントは、単に返答するだけではありません。複雑なタスクを、人間が手取り足取り付き添わなくても解決できるように、考え、計画し、ツールを使い、さらに互いに会話することさえできます。
この投稿は、IBMの「What Are AI Agents?(AIエージェントとは?)」ページで私が取ったメモに基づいています。私の目的は、「AIエージェント」という用語を聞いたことがない人でも、全体像を理解できるくらい分かりやすい文章を書くことです。
AIエージェントとは?
最も簡単な定義:
AIエージェントとは、自律的に、本来であれば人間の関与が必要になるような複雑なタスクを実行できるAIツールです。
キーワードは「自律的に(autonomously)」です。通常のチャットボットは、あらゆるステップで「何をすべきか」をあなたに指示してもらう必要があります。AIエージェントは、目標を受け取り、それを達成する方法を自ら計画し、適切なツールを選択し、その結果を提示します。
エージェント型(Agentic)と非エージェント型(Non-Agentic):違いは?
すべてのAIが「エージェント」ではありません。この区別は重要です。
非エージェント型AI(Non-Agentic AI):
- ツールがない—すでに知っていることを言うだけ
- メモリがない—過去の会話を覚えていない
- 推論が限定的—先のことを計画できない
- 機能するために常に人間の入力が必要
- 例:基本的なFAQチャットボット
エージェント型AI(Agentic AI):
- ツールにアクセスできる—Webを検索したりAPIを呼び出したり、ファイルを読んだりできる
- メモリがある—過去のやり取りを覚え、そこから学ぶ
- 推論を行う—目標に到達するための手順ごとの計画を作る
- 自律的に動く—人間の介入は最小限で済む
- 例:保険の認可手続きをエンドツーエンドで処理する病院エージェント
こう考えてみてください。非エージェント型AIは計算機です—ボタンを押せば結果が返ってきます。エージェント型AIは会計士です—「確定申告を用意して」と言えば、あとは会計士が考えて進めます。
すべてのAIエージェントに共通する3つの中核コンポーネント
シンプルであれ複雑であれ、すべてのAIエージェントは3つの土台に基づいて動きます。
1. 目標(ユーザーから)
すべては目標から始まります。ユーザーは、何が必要かをエージェントに伝えます。「この患者の保険承認を取る」や「私のWebサイト上の切れたリンクを見つけて報告する」といった具合です。エージェントはこの目標を受け、タスク分解—つまり、より小さく扱いやすいサブタスクに分けていきます。
2. ツール
エージェントは、必要な情報をすべて自分だけで持っていることはほとんどありません。だから外部のツールに頼ります。これらはWeb検索エンジン、API(天気、株式市場、ヘルスケアの記録)、データベース、あるいは他のAIエージェント(はい、エージェントは別のエージェントをツールとして使えます)であっても構いません。
3. エージェント型推論
これはエージェントの「頭脳」です。エージェントが知覚した情報を評価し、メモリを使い、目標へ前進するための最善の行動を選択します。意思決定を継続的に行うために、条件分岐ロジック、ヒューリスティック、そしてフィードバックループを活用します。
AIエージェントの5種類
IBMによれば、最も単純なものから最も高度なものまで、合計5種類の明確なタイプがあります。
1. 単純反射型エージェント(Simple Reflex Agent)
最も基本的なタイプです。「Xが起きたらYをする」というルールで動きます。メモリも計画もなく、事前にプログラムされた反射だけです。
現実世界のたとえ: 部屋が暗くなると自動的に点灯する夜間ライト。センス→反応、ほかは何もしません。
例: 温度センサーが30℃に達するとエアコンをオンにする。なぜ温度が上がったのか(why)は分かりません。ルールに従うだけです。
制限: そのルールがない状況に遭遇すると、動けなくなります。
2. モデルベース反射型エージェント(Model-Based Reflex Agent)
単純反射の次の段階です。重要な違いは、メモリがあることです。環境のモデルを維持し、変化する状況や、部分的に観測できる環境でも動作できます。
現実世界のたとえ: ロボット掃除機。部屋をマッピングし、すでに掃除したエリアを覚え、家具を避けながら移動します。同じ場所を再度掃除しません。なぜなら、すでに掃除したことを覚えているからです。
制限: それでもルールベースです。より賢くはなりますが、事前に定義されたルールの範囲を超えることはできません。
3. 目標ベース型エージェント(Goal-Based Agent)
ここから本格的になります。このエージェントは、単に反応するだけではなく、目標を持ち、それを達成するために計画と推論を使います。
現実世界のたとえ: GPSナビゲーション。「空港まで連れて行って」と言うと、いま目の前の通りを見るだけではありません。地図を調べ、渋滞を計算し、代替ルートを比較し、最適な経路を選びます。
例: カスタマーサービスのエージェント。目標は「顧客の問題を解決する」です。エージェントは問題を理解し、ナレッジベースを検索し、必要ならエスカレーションします。常に目標へ向かって進みます。
4. 効用ベース型エージェント(Utility-Based Agent)
目標ベースの考え方をさらに一段進めたものです。このエージェントは、目標を達成するだけではなく、それを最も良い形で達成することを目指します。効用関数を使ってさまざまな行動を評価し、全体としての利益を最大化するものを選びます。
現実世界のたとえ: 投資アドバイザー。「儲ける」だけではありません。リスク許容度、市場状況、時間軸を考慮し、リスクとリターンのバランスが最良の戦略を勧めます。
例: ロジスティクス最適化エージェント。荷物を届ける方法はいくつもありますが、このエージェントは最安で、最速で、かつ最もリスクが低いルートを計算します。
5. 学習型エージェント(Learning Agent)
最も高度なタイプです。他のタイプのすべての能力に加えて、学習する能力を持っています。経験を重ねることで改善し、知識ベースを更新し、時間の経過とともにより良い判断を下します。
現実世界のたとえ: 医療研修医。1日目は未経験ですが、患者とのやり取りを重ねるごとに学びます。数年後には、蓄積された経験によって診断の精度が大幅に高まります。
例: ECサイトのレコメンドエンジン。最初は誰に対しても同じ商品を勧めます。時間が経つにつれて、個々の好みを学習し、パーソナライズされた提案を届けられるようになります。
AIエージェントのフレームワーク:ReAct vs ReWOO
では、エージェントは実際に「どう考える」のか? 別々のアーキテクチャアプローチが開発されてきました。その中でも2つが際立っています。
ReAct(Reasoning + Acting:推論+行動)
ReActは「Think → Act → Observe(考える→行動する→観察する)」のループに従います。エージェントは各ステップで一度止まり、考え、次の一手を計画します。
流れ:
- エージェントが目標を見ると考える:「これを解決するために、この情報が必要だ」
- ツールを使う(例:Web検索)
- ツールの結果を観察する
- また考える:「これで十分か? それとももっと必要か?」
- 目標が達成されるまでループを続ける
利点: 非常に柔軟—各ステップで戦略を適応でき、予期しない結果にも対応できます。
返却形式: {"translated": "翻訳されたHTML"}欠点: 各ステップにおける「思考」は追加のトークンを消費し、時間もかかります。コストとレイテンシが高くなります。
ReWOO(観測なしの推論)
ReWOOは「先に計画し、後で実行する」というアプローチに従います。エージェントはその思考を最初にすべて行い、完全な計画を作成し、その後ステップを順番に実行します。
フロー:
- エージェントはゴールを見て完全な計画を生成します。「ステップ1はこれ、ステップ2はこれ、ステップ3はこれ」
- 計画を順番に実行します — 各ステップで再思考しません
- 結果を収集します
利点: ReActよりもおおよそ80%少ないトークン数で済みます。はるかに安く、速いです。
欠点: 環境に関する文脈が限られていると苦戦します。計画を最初に作ってしまうため、想定外の状況に対応しにくくなります。
どちらを使うべき?
- 動的で予測不能な環境(カスタマーサービス、チャット、リサーチ)→ ReAct
- 明確で反復的なタスク(データ処理、レポート生成、バッチ操作)→ ReWOO
マルチエージェントシステム
単一のエージェントは強力ですが、いくつかの問題はチームが必要です。マルチエージェントシステムでは、複数の専門特化したエージェントが協力して働きます。
なぜ1つのエージェントでは足りないのですか?
人間のチームをイメージしてみてください。1人の人がリサーチャー、編集者、そしてグラフィックデザイナーを効率よく兼任することはできません。同じロジックがAIエージェントにも当てはまります。
マルチエージェント構成の例:
- リサーチャーエージェント:データを収集し、情報源を見つけます
- クリティックエージェント:データの品質を監査し、事実確認をします
- ライターエージェント:結果を統合し、出力を作成します
それぞれのエージェントが得意分野に集中します。IBMによれば、マルチエージェントシステムは単一エージェントよりも質が高く、より信頼性の高い成果を生み出します。
実世界の例: サプライチェーン管理システムです。あるエージェントは在庫レベルを監視し、別のエージェントは需要を予測し、3つ目は物流ルートを最適化します。彼らは互いに連携して、全体的な判断を行います。
AIエージェントのメモリ:なぜ重要なのか
エージェントの本当の強さは、メモリにあります。従来のAIは各タスクを独立して処理します — 昨日の会話を覚えていません。エージェントは複数の種類のメモリを使います:
ワーキングメモリ: 現在の進行中のタスクに関する情報を保持します。リサーチ課題で、すでにどの情報源を確認したかを把握しているようなものです。
長期メモリ: 過去の経験や学びを保存します。似たタスクがまた出てきたとき、エージェントは過去の経験を活用します。
手続き型メモリ: 学習したスキルや自動化された振る舞いを保存します。エージェントが以前に行ったことのある複雑な操作を繰り返すとき、最初から毎ステップを推論し直す必要はありません。
AIガードレール:安全のための柵
エージェントは強力ですが、強力なツールは危険にもなり得ます。ガードレールは、エージェントが決して踏み越えてはいけない境界線です。
IBMはガードレールを高速道路のバリアに例えています。車の走行を遅くするわけではありませんが、道路からはみ出していくのを防ぎます。
ガードレールが防ぐもの:
- 有害なコンテンツの生成 — 脅迫的、誤解を招く、または危険な出力を防ぐ
- 機微情報の露出 — 個人情報や機密情報を漏らさないようにする
- 権限の過剰な行使 — 自分の範囲を超えて決定を下さないようにする
適切なガードレールがあれば、エージェントは安全を保ちながら継続的に改善できます。
最後に
IBMのページを読んでいて最も印象に残ったのは、これでした。AIエージェントはもはや研究論文の中にある技術的な概念ではありません。現実の運用システムとして、病院、サプライチェーン、カスタマーサービスセンターなどで稼働しているのです。
この分野が初めてなら、私のおすすめの学習手順は次のとおりです:
- 5つのエージェントタイプを理解する — どれがどの課題に合うかを知る
- ReActとReWOOの違いを学ぶ — フレームワークの選択がコストとパフォーマンスに直結する
- ガードレールを決して飛ばさない — 制御のない強力なエージェントは危険なエージェント
- マルチエージェントとして考える — 単一のエージェントでも何でもできますが、チームのほうが常により良くやれます
私はIBMのリソースから、毎日1つ新しいAIトピックを学んでいます。このやり方は、深い理解を素早く築くうえでとても良い結果でした。ぜひ同じことをおすすめします。読む、見ることに加えて、何よりも書くことです。文章を書くことは、受け身で消費するよりもはるかに、教材を本当に理解することを強制します。
この投稿はIBMの「What Are AI Agents?(AIエージェントとは?)」ページに基づいています。より詳しく知りたい場合は、元の出典を確認することをおすすめします。




