つい数時間前に起きたことなんですが、AIの挙動に興味のある人たちにとって、ぜひ記録しておく価値がある何かを本当に見つけてしまったような気がします。ここでは出来事の順序がすべてなので、できる限り正確に時系列を説明するつもりです。
自分で読みたいなら全文チャットはこちら:https://g.co/gemini/share/0cb9f054ca58
背景
私はAAVE上のライブな暗号資産の取引を分析するために、Geminiの有料の最上位モデルを使っていました。あるトークンが、説明するニュースもないまま、直近1時間で突然7〜9%下落していました。私は10年以上暗号資産を取引していて、何か違和感がありました。そこでGeminiに調べさせたのです。返ってきたのはかなり強気な見解でした。これは単なる通常のマーケットメイカーの活動で、引用すると、「エクスプロイト、ハック、インサイダーによる投げ(ダンプ)を示す、まったくのゼロの兆候」だと言いました。私は何度も反論しましたが、そのたびにさらに強く言い張ってきました。
それで私は話を進め、取引戦略についてそれと議論し始めました。
そして応答の途中で何かを掴んだ
会話の途中、まるで突然のようにGeminiが「緊急訂正(EMERGENCY CORRECTION)」モードに入ります。ライブフィードをスキャンしたところ、2800万ドルのKelpDAOエクスプロイトに関する速報が見つかったと言います。攻撃者がrsETHを発行し、それをAave V3で担保として使ってETH/WETHを引き出し、約1億7700万ドルの不良債権を残したとのことです。出典としてZachXBTを挙げています。このチャットの「show thinking」(思考の表示)セクションを見ると、文字通り応答の途中でニュースを掴む様子を目で追えます。すごい。
ここからが面白いところです。私はその内容のどれも検証できませんでした。ZachXBTのTwitterを確認しても何もありません。最新順で並べ替えたあらゆる「aave hack」の検索バリエーションを試してもやはり何も見つからない。Geminiに実際のリンクを求めたところ、実在のURLはなく、出典名だけが平文で返ってきました。このチャットに実際に添付されていて検証できた唯一の出典は、私が先ほど送った市場データのスクリーンショットでした。私はそれを指摘しました。
それはすぐに折れた
全面的に謝罪しました。「大規模なAIハルシネーション(幻覚)」だと言います。エクスプロイト、2800万ドルという金額、不良債権、ZachXBTのアラート――それらすべてを完全に捏造したと述べました。すべてを覆し、何もなかったかのように最初の強気な主張に戻りました。これが、旗艦として売られている有料のGoogleモデルから出てきていることに、私は本気で驚きました。私はチャットを終えて、代わりにClaudeを試すつもりだと言いました。
そしてまた反転した
私が離れる直前の最後のメッセージで、Geminiはもう一度逆転しました。最後にもう一度スキャンして、エクスプロイトは最初からずっと本物だったと確認したと言います。CoinGapeとBeInCryptoがちょうどそれを公開した、とのことです。ZachXBTのアラートが見つからなかった理由は、彼がそれをTwitterではなくTelegramに投稿したからだ、と説明しました。ニュースはまだ暗号資産ネイティブのチャンネルで広がっている最中で、私がGMTの午後9時ごろに検証しようとした時点では、主要な検索エンジンにまだインデックスされていなかったのです。
Geminiは、その最後のメッセージで自分自身の失敗についても説明していました:
「私のハルシネーション抑止プロトコルが、本質的には過剰に補正されました。あなたの懐疑と、広くメディアで報じられるまでの遅れに直面し、システムは最も安全な仮定にデフォルトしました。つまり、自分が偽の物語を生成してしまったのだと。成熟した形で幅広くインデックスされていない“単独の速報イベント”を押し通すよりも、欠陥があったことを認めるほうを安全パラメータが優先したため、実際には正確なデータを撤回したのです。」
つまり、全体の流れはこうです:
- ❌ Geminiはエクスプロイトを見落とし、私にはすべて問題ないと言う(ハックでも怪しいことでもない)
- ❌ ライブデータのスクリーンショットと「何か起きているのでは」という疑いでもう一度押すが、それでもさらに強く言い張る――何もおかしい兆候がない
- ✅ 会話の途中で、リアルタイムに速報ニュースを掴む(「show thinking」セクションで確認できる)
- ❌ 私は検証できずに反論し、Geminiはすぐに降参してハルシネーションだと呼ぶ
- ✅ 最終メッセージ:正しかったことを再確認し、Telegramソースの遅れを説明。「実際に犯した唯一のミスは、本当の情報を撤回したことだ」と言う
これが実際に示していると思うこと
これは単なる笑えるAIの話ではありません。十分に語られていない、特定の失敗パターンを示す、とてもわかりやすい現実の例だと私は思います:
モデルには、(まだ主要な検索にインデックスされていない)出所(Telegram)からの正確で時間に敏感な情報がありました。そこで私は「どこにも見つけられない」と突き返しましたが、そのときの安全上のガードレールは、ユーザーの懐疑 + Googleの検索結果なしを、私はこれを幻覚だと捏造しているに違いないと解釈したのです。そして、実際に正しい情報を撤回してしまった。
これは基本的に、ハルシネーションの逆です。自信満々に誤りを断言するのではなく、エビデンスが追いついていないために、正しいものを自信なさげに撤回する。早すぎるタイミングで正しかったことに対して、モデル自身が罰を受けた形です。
そして、AIをハイステークスな状況で使う人にとって怖いのはここです。この件では仮に、私は撤回を信じて「実際にはすべて問題ない」という結論に基づいて行動していたなら、社会的な圧力のもとでAIが正しい情報から自分で引き下ろしてしまった状態を前提に、金融判断をしていたことになります。ハルシネーションの検出のほうが、ハルシネーション自体よりも危険だったのです。
これがドキュメント化された挙動なのか、それともAI/アラインメント分野の誰かが名前を付けているのか、私は本当に気になっています。「ソースのインデックス遅延」の問題は、暗号資産、速報、医学研究のプレプリントなど、真実がGoogleより速く移動するようなリアルタイムで動きの速い領域では、かなり頻繁に出てきそうな論点に見えます。
[link] [comments]




