| StreamlitベースのAIデータ分析ツールを作りました。主な機能は以下です: • MLモデルを使って欠損値を補完(平均/中央値だけではありません) • n-1個の入力から、任意の欠損列を予測 • 異常値を検出 • 相関関係と特徴量の重要度を表示 • 更新されたデータセットをダウンロード可能(添付画像はUIと、サンプルCSVがGitHubページで利用可能であること、また達成した性能指標を示す画像や、修正前と修正後のCSVファイルの比較を含みます) 実際の不完全なデータセットに対して、どれくらいうまく動くのかを試したかったです。 以下についてフィードバックをいただけると嬉しいです: - モデルのアプローチ - 精度の問題 - 追加で改善すべき点 GitHub: https://github.com/WALKER00058/ML-data-analysis/tree/main [リンク] [コメント] |
欠損データをクレンジングし、欠損値を補完し、未知のフィールドを予測するAIツールを作った [P]
Reddit r/MachineLearning / 2026/4/14
💬 オピニオンSignals & Early TrendsTools & Practical Usage
要点
- この記事では、簡易な補完手法ではなく機械学習モデルを使って欠損値を埋める、実世界のデータセットをクリーンアップするためのStreamlitベースのAIツールについて説明しています。
- 利用可能な他の列(n-1の入力)を用いて、1列全体の欠損値を推定/予測できます。
- ツールには、データ品質や要因(ドライバー)を理解するための異常検知に加え、相関関係と特徴量重要度のレポート機能も含まれています。
- 利用者はUIのスクリーンショットを確認し、ビフォー/アフターのCSV出力を比較でき、ツールが生成したクリーン済みデータセットをダウンロードできます。
- 著者はGitHub上でプロジェクトを共有し、モデリング手法と精度に関するフィードバックを求めており、改善案の提案を歓迎しています。




