欠損データをクレンジングし、欠損値を補完し、未知のフィールドを予測するAIツールを作った [P]

Reddit r/MachineLearning / 2026/4/14

💬 オピニオンSignals & Early TrendsTools & Practical Usage

要点

  • この記事では、簡易な補完手法ではなく機械学習モデルを使って欠損値を埋める、実世界のデータセットをクリーンアップするためのStreamlitベースのAIツールについて説明しています。
  • 利用可能な他の列(n-1の入力)を用いて、1列全体の欠損値を推定/予測できます。
  • ツールには、データ品質や要因(ドライバー)を理解するための異常検知に加え、相関関係と特徴量重要度のレポート機能も含まれています。
  • 利用者はUIのスクリーンショットを確認し、ビフォー/アフターのCSV出力を比較でき、ツールが生成したクリーン済みデータセットをダウンロードできます。
  • 著者はGitHub上でプロジェクトを共有し、モデリング手法と精度に関するフィードバックを求めており、改善案の提案を歓迎しています。
データセットをクリーンアップし、欠損値を補完し、不明なフィールドを予測するAIツールを作りました [P]

StreamlitベースのAIデータ分析ツールを作りました。主な機能は以下です:

• MLモデルを使って欠損値を補完(平均/中央値だけではありません)

• n-1個の入力から、任意の欠損列を予測

• 異常値を検出

• 相関関係と特徴量の重要度を表示

• 更新されたデータセットをダウンロード可能(添付画像はUIと、サンプルCSVがGitHubページで利用可能であること、また達成した性能指標を示す画像や、修正前と修正後のCSVファイルの比較を含みます)

実際の不完全なデータセットに対して、どれくらいうまく動くのかを試したかったです。

以下についてフィードバックをいただけると嬉しいです:

- モデルのアプローチ

- 精度の問題

- 追加で改善すべき点

GitHub: https://github.com/WALKER00058/ML-data-analysis/tree/main

投稿者 /u/walker98417
[リンク] [コメント]

欠損データをクレンジングし、欠損値を補完し、未知のフィールドを予測するAIツールを作った [P] | AI Navigate