Veltrixエンジンの災害:AIを「宝物」として扱った結果、混乱が生まれた経緯

Dev.to / 2026/5/24

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • Veltrixの「Treasure Hunt Engine」は、AIを“宝物”のように扱い製品として急ぐ一方で、実際のコード基盤が混沌としており、複数のAIフレームワークが競合し、ドキュメントも不十分だったことが問題だった。
  • 初期の実装ではTensorFlowとPyTorchを組み合わせたが、状態管理と動的計算グラフの設計の違いが災いし、不確実なクラッシュやデータ破損、そしてエラー率の悪化につながった。
  • 立て直しのためアーキテクチャを見直した結果、多フレームワーク方式から、Hugging Face Transformersを用いたシンプルなシングルスレッド・ステートフル設計へ切り替えた。
  • この変更は大規模なコード書き換えと、チーム全体の新しいツールへの再トレーニングを伴ったが、信頼性と性能が改善し、レイテンシを30%削減し、エラー率を50%低下させた。
  • ロールアウト後はクラッシュ率の大幅な減少、ユーザーからの苦情が80%減少、さらにシステム安定化によるユーザーエンゲージメントの向上が確認された。

私たちが実際に解こうとしていた問題

私がVeltrixに入社したとき、会社は好調の波に乗っていました。投資家たちは、いわゆる革新的なAI搭載のゲーム・プラットフォームである「Treasure Hunt Engine」を熱心に求めていました。アイデア自体はシンプルです。ユーザーは没入型の仮想世界で隠された宝を探し、AIが生成するパズルや乗り越えるべき障害に直面する、というものです。面白そうですよね? ただ、分かりにくかったのは、開発チームがコードの混沌とした“ごった煮”の上で動かしていたことです。複数の競合するAIフレームワークが使われ、ドキュメントも不完全でした。

オペレーターとしての私は、開発チームが次々と機能を追加していっても、システムが稼働し続けることを保証する役割を担っていました。これは絶え間ない“ハエ叩き”のようなもので、新しいエラーやバグが、ちょうど最も都合の悪いタイミングで現れるたびに対処が必要でした。チームは問題の規模を過小評価していました。AIシステムこそが成功の鍵だと信じ切っていたのです。私はそうは思っていませんでした。

最初に試したこと(そして失敗した理由)

Treasure Hunt Engineを実装する最初の試みでは、TensorFlowとPyTorchを組み合わせました。各フレームワークの強みを活かして、堅牢で機敏なシステムを作ろうという考えです。ところが、結果は“災厄へのレシピ”そのものでした。TensorFlowの巨大な状態管理システムが、PyTorchの動的グラフ・アーキテクチャと衝突し、予測不能なクラッシュやデータの破損につながったのです。チームは対処療法としてワークアラウンドやハックで覆い隠そうとしましたが、明らかに病気ではなく症状を扱っているだけでした。

オペレーターとして私は、恐ろしくなるほどの速さでシステムが機能する状態から不安定な状態へと変わっていくのを見ていました。エラー率は急上昇し、アップデートのたびに、システムが失敗する新しくて創造的な方法が次々と追加されるようになりました。雨漏りするバケツに水を入れ続けようとするようなものです。どれほど頑張っても、問題は積み上がっていくばかりでした。

アーキテクチャの判断

ようやく私がチームに一歩立ち止まって、これまでの方針を見直すよう説得できたとき、私たちは根本的に異なるアーキテクチャにたどり着きました。複数フレームワークのゴチャゴチャを捨て、Hugging FaceのTransformersを使った、単一スレッドで状態を持つアーキテクチャへ切り替えたのです。これは、それまでの会話を支配していた“流行りの、ニューラルネット中心”の設計思想からの脱却でした。シンプルでよく理解された設計に焦点を当てたことで、レイテンシを30%削減し、エラー率を50%下げることができました。

この決断は決して簡単ではありません。つまり、大規模なコードの書き直しと、ツール群の新しいセットに対してチーム全体を再トレーニングすることを意味していました。それでも、最終的にはやる価値がありました。私たちのシステムは安定し、速くなり、そして何より信頼できるようになったのです。

導入後に数字が語ったこと

展開(ロールアウト)後、私たちはシステムのパフォーマンスに大きな改善が現れるのを確認し始めました。クラッシュ率は急降下し、ユーザーからの不満の数は驚くほど80%減少しました。さらに、ユーザーのエンゲージメントにも定量的な改善が見られるようになり、見つけた宝や乗り越えた障害の数は以前より25%高いペースで達成されるようになりました。これは、システムを単純化し、安定させるという判断がはっきりと正しかったことの裏付けでした。

私なら次はこうする

振り返ってみれば、初期設計においてもっと強くデータ駆動型のアプローチを推していたはずです。私たちはAIの可能性に寄りすぎており、当時の最先端技術にすっかり魅了されていました。警告サインを無視し、過去のシステムが教えてくれた教訓も無視していたのです。より慎重で、エビデンスに基づいたアプローチを取っていれば、結果として起きた混乱や混乱の大部分は避けられたのではないかと考えています。

結局のところ、私たちの物語は警戒心と謙虚さの話です。AIは万能の“銀の弾丸”ではありません。その可能性を過大に持ち上げると、災害につながり得ます。理論上で聞こえが良いものではなく、実運用で本当に機能することに焦点を当てることで、私たちは速くて信頼でき、そして最も重要なのは—信頼に足るシステムを構築できます。