欠損データをクレンジングし、欠損値を補完し、未知のフィールドを予測するAIツールを作った [P]

Reddit r/MachineLearning / 2026/4/14

💬 オピニオンSignals & Early TrendsTools & Practical Usage

原文を読む →

共有:

要点

この記事では、簡易な補完手法ではなく機械学習モデルを使って欠損値を埋める、実世界のデータセットをクリーンアップするためのStreamlitベースのAIツールについて説明しています。
利用可能な他の列（n-1の入力）を用いて、1列全体の欠損値を推定／予測できます。
ツールには、データ品質や要因（ドライバー）を理解するための異常検知に加え、相関関係と特徴量重要度のレポート機能も含まれています。
利用者はUIのスクリーンショットを確認し、ビフォー／アフターのCSV出力を比較でき、ツールが生成したクリーン済みデータセットをダウンロードできます。
著者はGitHub上でプロジェクトを共有し、モデリング手法と精度に関するフィードバックを求めており、改善案の提案を歓迎しています。

データセットをクリーンアップし、欠損値を補完し、不明なフィールドを予測するAIツールを作りました [P]

StreamlitベースのAIデータ分析ツールを作りました。主な機能は以下です：

• MLモデルを使って欠損値を補完（平均/中央値だけではありません）

• n-1個の入力から、任意の欠損列を予測

• 異常値を検出

• 相関関係と特徴量の重要度を表示

• 更新されたデータセットをダウンロード可能（添付画像はUIと、サンプルCSVがGitHubページで利用可能であること、また達成した性能指標を示す画像や、修正前と修正後のCSVファイルの比較を含みます）

実際の不完全なデータセットに対して、どれくらいうまく動くのかを試したかったです。

以下についてフィードバックをいただけると嬉しいです：

- モデルのアプローチ

- 精度の問題

- 追加で改善すべき点

GitHub: https://github.com/WALKER00058/ML-data-analysis/tree/main

投稿者 /u/walker98417
[リンク] [コメント]

Black Hat USA

AI Business

Black Hat Asia

AI Business

CloudflareがAIエージェントへの最適化を目指し、全サービスに対応するCLIの開発を表明

Publickey

日本三大秘境の現場で最先端技術の活用、建機の遠隔・自律操作

日経XTECH

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

日経XTECH

欠損データをクレンジングし、欠損値を補完し、未知のフィールドを予測するAIツールを作った [P]

要点

関連記事

Black Hat USA

Black Hat Asia

CloudflareがAIエージェントへの最適化を目指し、全サービスに対応するCLIの開発を表明

日本三大秘境の現場で最先端技術の活用、建機の遠隔・自律操作

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat USA

Black Hat Asia

CloudflareがAIエージェントへの最適化を目指し、全サービスに対応するCLIの開発を表明

日本三大秘境の現場で最先端技術の活用、建機の遠隔・自律操作

テスラのE2E自動運転技術FSD、オランダ承認 「欧州初」一般道で手放し

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し