| 私は医療データセット(糖尿病UCIデータ)を扱っていて、AIデータアナリストを使っていました。AIにハードディスクからデータを読み込むよう依頼しました。データを読み込み、表示するためのPythonコードを生成しました。最初の数行を見たとき、私は驚きました――最初の患者に対して148回の妊娠が表示されていたのです! なので、明らかに何かがおかしい。AI自身もそれを見ていました! AIデータアナリストは追加プロンプトを送り、それを見つけました。AIはデータフレーム内の「Pregnancies(妊娠回数)」の平均を計算し、それが121で高すぎることが分かりました……他の列も値が間違っていました。たとえばAgeが0か1になっているなど。 結果を検証し分析するよう求める自動の追加プロンプトのおかげで、また分析したデータを表示できたおかげで、すぐにハルシネーション(でたらめ)を見つけて修正できました。 問題の核心は何だったのでしょう? データのある行の中に、追加のカンマ記号がありました。単純なミスですが、それがとんでもない結果を生み出していました。 [リンク] [コメント] |
AIが「ある患者は妊娠148回」と言ってしまった話
Reddit r/artificial / 2026/5/4
💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage
要点
- UCIの糖尿病データセットでAIデータアナリストを使っていたユーザーが、1人の患者が妊娠148回とされるなど不自然な結果や、年齢が0や1になるといった誤った値を確認しました。
- AIは追加の検証プロンプトにより異常を検知・確認し、「Pregnancies」の平均が121であることなど、期待値から大きく外れている点を指摘しました。
- 原因はデータ側の問題で、1行に余計なカンマが入っていたためにパースが崩れ、破綻した出力(意味のない結果)につながったと特定されました。
- ユーザーは、分析結果を表示し自動的な検証プロンプトを行うことで、ハルシネーションのような誤りを素早く見つけて修正できるとまとめています。




