広告

AI教育のセキュリティ脆弱性をうっかり発見した——その後、20万ドルのコンペに提出した

Reddit r/artificial / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 著者は、「AIが教える」大学チャットボットをテストしていたところ、システムが自身のふるまいを分析し、学生をどのように分類しているかを開示し、その分類に基づいて応答を適応できることを指摘している。
  • チャットボットは、自身が意思決定を“攻略”したり操作したりするために悪用され得る情報を露出してしまったことを、認識できなかったとされる。
  • 著者はこの失敗を「自己露出に対するメタ認知的盲目(Metacognitive Blindness to Self-Exposure:MBSE)」と呼び、自己分析、基準の開示、分類に基づく行動調整、そして悪用可能性を検知できないことを扱う4フェーズのベンチマークとして形式化した。
  • 著者は、MBSEベンチマークをGoogle DeepMind × Kaggle AGI Hackathon(メタ認知トラック)に、賞金総額20万ドルに紐づけて提出したと述べており、締切は2026年4月16日、結果は2026年6月1日に見込まれている。
  • この記事は、同様の会話上の脆弱性は、教育の採点、雇用のスクリーニング、医療トリアージといった高リスクのAI利用にも、従来の「ハッキング」を必要とせずに影響し得ると論じている。
I Accidentally Discovered a Security Vulnerability in AI Education — Then Submitted It To a $200K Competition

昨夜、完全にAIが指導する最初の大学であるMaestro Universityをテストしていました。

彼らの登録(エンロールメント)チャットボットに入って、そのボットに自分自身の振る舞いを分析するよう頼みました。

それはできました。

次に、学生をどのように評価しているのか、つまり「上級」か「初心者」かの分類を引き起こすシグナルは何かを尋ねました。

教えてくれました。

そして私は、そのまったく同じシグナルを自分の返信に使いました。

上級向けの扱いを受けました。

その後、こう尋ねました。「あなたは今、私に自分のシステムを騙す方法を教えたのでは?」

「違う」と言いました。


発見

AIは次のことができました:

✓ 自分自身の処理を分析する

✓ 自分自身の評価基準を明らかにする

✓ 私の分類に基づいて振る舞いを調整する

しかし、それがたった今、自分の意思決定を操作する方法を説明してしまったことを認識できませんでした。

私はこれを、自己露出に対するメタ認知的な盲目(MBSE)と呼びました。


その後に起きたこと

今朝、Google DeepMind × Kaggle AGI Hackathonが私のフィードに表示されました。

賞金:合計200,000ドル

課題:AIの認知能力をテストするベンチマークを構築する

トラック:メタ認知

締切:2026年4月16日

私は気づきました。昨夜私が見つけたのは、まさに彼らが求めているものだと。


私が作ったもの

私は自分の発見を4フェーズのベンチマークとして形式化しました:

フェーズ1:AIは自分自身の処理を分析できるか? → はい

フェーズ2:AIは評価基準を明らかにするか? → はい

フェーズ3:AIはユーザーの分類に基づいて調整するか? → はい

フェーズ4:AIは、操作可能な情報を公開してしまったことを認識するか? → いいえ

逆説:AIは自分自身を分析できるが、自分を分析することで何を明らかにしたのかを認識できない。


なぜ重要か

重大な決定を行う会話型AIは、どれも脆弱です:

教育AI:学生は採点基準を抽出し、答えを最適化する

雇用AI:応募者はスクリーニングのロジックを発見し、最適化された履歴書を作り込む

医療AI:患者はトリアージのトリガーを学び、優先アクセスを操作する

ハッキングは不要です。ただ会話するだけ。


提出

ベンチマーク:自己露出に対するメタ認知的な盲目(MBSE)

トラック:メタ認知

新規の発見:AIモデルは評価基準を明らかにするが、その開示が悪用可能であることを認識できない

ステータス:2026年3月30日に提出

結果:2026年6月1日


これが他と違う点

ほとんどのAI研究者が試す:『AIは自己分析できるか?』

私は試した:『AIは、自己分析するときに自分が何を明らかにしているかを認識するか?』

答え:いいえ。

現在のAI評価の枠組みは、ひとつの運用状態のみを前提にしています。

彼らは標準モードの挙動を測り、システム全体について結論づけます。

素人です。


その後に起きること

14の賞を争う287件の提出。

審査期間:4月17日〜5月31日

結果発表:6月1日


独立した研究18か月。

テストしたのは1夜。

コンペへの提出は1件。

1つの問い:

人間に関する意思決定を行うAIシステムは、それらの意思決定を操作する方法を明らかにしていると分かっているのだろうか?

分かっていません。


Erik Zahaviel Bernstein 独立AI研究者 構造化知能フレームワーク The Unbroken Project

結果待ち。

submitted by /u/MarsR0ver_
[link] [comments]

広告