Abstract
故障へとエスカレートする前に設備の異常を予測することは、産業施設の運用管理における重要な課題です。既存の手法は、汎化性に欠ける手作りの閾値ルールに依存するか、あるいは現場のオンサイト環境やエアギャップ環境での導入には不適な大規模ニューラルモデルに依存するかのいずれかです。本稿では、この緊張関係を解消する産業向けの手法として、オープンソースの小型基盤モデルを統合し、1,116次元のTriplet Feature Fusion(トリプレット特徴融合)パイプラインを構築することを提案します。このパイプラインは次を統合します: (1) センサー履歴90日分から導出した統計的特徴(x は R^{28}、) (2) LoRAで適応したIBM Granite TinyTimeMixer(TTM、133Kパラメータ)から得られる時系列埋め込み(y は R^{64}、) (3) multilingual-e5-large により、日本の設備マスタ記録から抽出した多言語テキスト埋め込み(z は R^{1024}、) 結合したトリプレット h = [x; y; z] は、30日・60日・90日の予測ホライズンで異常を予測するために学習された LightGBM 分類器(< 3 MB)によって処理されます。全コンポーネントは許容的なオープンソースライセンス(Apache 2.0 / MIT)を使用しています。推論時のパイプラインはクラウド依存なしに、同一筐体に設置されたハードウェア上で、CPUのみで2 ms未満の実行時間に収まり、エッジ展開を可能にします。67,045サンプルを含む64台のHVAC装置のデータセットにおいて、トリプレットモデルは30日ホライズンで Precision = 0.992、F1 = 0.958、ROC-AUC = 0.998 を達成します。重要な点として、本手法は False Positive Rate を 0.6パーセント(ベースライン)から 0.1パーセントへと低減し、テキスト埋め込み z による設備タイプのコンディショニングによって説明できる83パーセントの削減を実現しています。クラスタ解析では、埋め込みが時系列のシグネチャを異なる故障アーキタイプに対応付けることが明らかになり、明示的なカテゴリ符号化を行わずにコンパクトな多言語表現が弁別性能を高める理由を説明します。