公的データでAIを支える英国の壮大な計画は、正念場を迎える
公式な情報源が磨かれない限り、エージェントは別の場所の情報を探すことになる
英国は、国家データ・ライブラリ(NDL)で最先端のAI開発とアプリケーションを後押しできるとの期待を抱いているが、データをより使いやすくしない限り、その計画は頓挫しかねない。
誤解を招くタイトルや存在しないメタデータのため、現在利用可能なデータでは有意義な分析を支えることができないことが、Open Data Institute(ODI)の調査で判明した。
2024年秋の予算(Autumn Budget)で政府はNDLの計画を確認し、研究者や企業に対して「より良い公共サービスと最先端のイノベーション(AIを含む)を通じて、成長を促し、人々の生活の質を変革する強力な洞察」を約束した。1月には「最新情報」を公開し、この計画は、2028/29年までの間に、科学・イノベーション・技術省(DSIT)へ19億ポンドのうちの一部として拠出される1億ポンドの投資によって支えられていると述べた。
DSITは、公共部門全体にわたって「最大の機会と優先事項」を特定し、「システム改革に向けたアプローチを検証する」ための、大規模な調査フェーズを完了したと述べた。
しかしODIは、10万件超の公共データセットにアクセスできる「NDL-Lite」プロトタイプを公開している。同機関は、データ.gov.uk上のデータセットの一部は、ラベル付けがひどく不適切で、古くなっている、あるいはAIツールから事実上見えない状態だと分かった。権威あるデータにアクセスしづらいと、AIシステムはニュース記事や商用データなどの別の情報源に頼るようになり、常に正確な情報が得られるとは限らない、とODIは警告している。
このプロトタイプは、6つの公共セクターの情報源から38GBのデータを収集し、10万件超のファイルを処理・標準化して、単一のリソースにまとめ上げた。調査は、NDLが比較的低コストで構築できることを示した一方で、データをAI対応(AI-ready)にするために必要な作業も浮き彫りにした。
返却形式: {"translated": "翻訳されたHTML"}この調査では、「犯罪」のような広い用語でさえ、適切に分析したり追跡したりするのが難しいことが分かった。そのラベルが付いた一部のデータセットは、共通の基準がないため統合できない自治体当局の統計リリースだった。全国規模のデータセットも古い、またはアクセスできない状態だった。主要な内務省(Home Office)の犯罪データセットは2018年以降更新されていない。更新版は存在するものの、国家統計局(ONS)が提供するAPI経由ではアクセスできない。
- GOV.UKのチャットボットはLLMの進歩で賢くなるが遅くもなる
- AIチャットボットがGOV.UKの問い合わせであれこれ話しすぎ、その後「黙って」と言われると事実を間違える
- 皮肉だが朗報:Anthropicが求職者向けチャットボットを英国政府に構築支援
- ONSのデータ共有構想が、予算削減と3つの競合プラットフォームでどう終わったか
ODIの研究ディレクターであるエレナ・シンペル教授は、調査結果は「利用可能な公共データの量」と「実際の使いやすさ」の間に開きが広がっていることを浮き彫りにするとThe Registerに語った。
「犯罪統計については、AIエージェントが次に、どこか別の場所から犯罪統計を探そうとしました。データを更新していなかったり、メタデータの品質がよくなくて欠損値がたくさんあったりすると、私たちが構築したAIエージェントでの実験から見えてきたのは、利用可能なデータをただ回避して別のところへ行ってしまう、ということでした。ソーシャルメディアなど別の場所に向かい、どこかのレポートにその情報が載っていないか探すんです。なぜなら、彼らにとってはそのほうがずっと簡単だからです」と彼女は述べた。
「政府のナショナル・データ・ライブラリ(NDL)には大きな可能性がありますが、そこで依拠することになるデータの多くは、まだ最新のAIシステムで使える状態になっていません。これが変わらないなら、AIツールが、最も信頼できる情報源ではなく、アクセスしやすい情報源にますます依存するリスクがあります。」
政府のスポークスマンは、サービスを「より効率化し、経済を成長させる」ために、「公共部門のデータの恩恵を最大化したい」と私たちに語った。
「こうした調査結果を踏まえ、私たちは現代的なデジタル政府のためのロードマップを通じて、英国のデジタルな公共インフラをすでに作り替えています。
「これには、公共部門のデータがより共有され、より簡単に使われるよう配慮した上で、ナショナル・データ・ライブラリのような新しいインフラを構築すること、時代遅れになったシステムのアップグレード、そして公共データの安全で倫理的な利用に向けた新たなガイダンスを整備することが含まれます。」
ナショナル・データ・ライブラリ(NDL)は、研究者やデータサイエンティストが必要とする、公開されている保有データをすべて見つけることを支援するために設計された最新のプロジェクトだ。2004年に開始されたセキュア・リサーチ・サービス(SRS)は、認定研究者に対して、厳選された研究用途のデータセットを提供している。
2020年、政府はこれをONSの統合データサービス(IDS)で置き換える計画だった。しかし、総額2億4,080万ポンドの予算の一部は—英国財務省(His Majesty's Treasury)の承認のもと—ONSがレガシー(旧式)ITシステムから脱却するのに苦戦していることを背景に、より一般的な技術・データ関連コストの資金に充てられた。IDSへの資金は、3月に実質的に削減された一方で、既存のサービスは主にONS内で利用可能な状態が続く。これにより、大きな目標の一つが達成されなかった。
NDLは、研究、機械学習、そしてAIを支えるための、国内におけるデータ共有に関する新たな計画だ。ODIの調査は、もう一つの「見逃された機会」にならないために必要な作業を示している。®
関連するより狭いテーマ
- AIOps
- 内閣府(Cabinet Office)
- 競争・市場当局(Competition and Markets Authority)
- 英国コンピューター不正利用法(Computer Misuse Act)
- 国境を越えたデータの流れ
- DCMS
- DeepSeek
- GCHQ
- Gemini
- Google AI
- GPT-3
- GPT-4
- Grafana
- HMRC
- 内務省(Home Office)
- ICO
- 大規模言語モデル
- 機械学習
- MCubed
- NCSC
- ニューラルネットワーク
- NHS
- NLP
- リトリーバル拡張生成
- RPA
- スター・ウォーズ
- テンソル処理装置(Tensor Processing Unit)
- TOPS
関連記事
より狭いトピック
- AIOps
- 内閣官房(Cabinet Office)
- 公正取引・市場監督当局(Competition and Markets Authority)
- 1990年コンピュータ不正使用法(Computer Misuse Act)
- 国境をまたぐデータ流通
- DCMS
- DeepSeek
- GCHQ
- Gemini
- Google AI
- GPT-3
- GPT-4
- Grafana
- HMRC
- 内務省(Home Office)
- ICO
- 大規模言語モデル
- 機械学習
- MCubed
- NCSC
- ニューラルネットワーク
- NHS
- NLP
- 取得拡張生成(Retrieval Augmented Generation)
- RPA
- スター・ウォーズ
- テンソル処理ユニット
- TOPS



