AI Navigate

ECサイトのスクレイピングで正規表現を使うのをやめよう。商品データを瞬時に正規化するAI APIを作りました。

Dev.to / 2026/3/17

📰 ニュースDeveloper Stack & InfrastructureTools & Practical Usage

要点

  • この記事は、構造化されていない商品データをスクレイピングする際の課題と、特に多言語入力における正規表現ベースの解析の欠点を強調しています。
  • 著者は Node.js、Express、GPT-4o-mini を用いたバックエンドを構築し、属性を標準化するために厳格な JSON スキーマを通じてデータを出力します。
  • AI ベースのシステムは乱雑なテキストを読み取り、それを標準英語に翻訳し、ブランド、モデル、カテゴリ、サイズ、カラー、素材などの定義済みの EC フィールドにマッピングします。
  • このソリューションは RapidAPI 上のプラグアンドプレイ API として提供され、Shopify のインポーター、自動カタログ、または Python/Zapier のワークフローでの利用を可能にします。
  • 無料ティアが利用可能(月に50回の呼び出し)で、RapidAPI プレイグラウンドで直接 API をテストできます。

スクレーパー、ドロップシッピング用のインポーター、またはPIM(Product Information Management)システムを作ったことがあるなら、構造化されていない製品データを扱う際の地獄のような経験を知っているでしょう。

サプライヤーのウェブサイトをスクレイプして、サイズとカラーが揃ったきれいな表を期待しますが、代わりにこの生のテキスト文字列が返ってきます:

"Nike Air Max メンズ スニーカー サイズ 42 ブルー 合成素材"

あるいはさらに悪いことに、それは外国語です:

"Zapatillas de running Nike Air Max uomo blu taglia 42"

古い方法: 正規表現の悪夢 ❌
歴史的には、"Size"、"SZ"、"Taglia" のバリエーションを捕捉したり、50 種類のカラー名を標準の英語リストにマッピングしたりするために、数十個の正規表現を書く必要がありました。サプライヤーの1つのタイポでスクリプトが壊れ、あなたの Shopify カタログには Color: blu scuro impermeabile のような奇妙なタグが表示されます。

新しい方法: 構造化された AI 出力 ✅
壊れたパーサを修正するのに疲れたので、厳格な JSON スキーマを持つ Node.js、Express、GPT-4o-mini を用いた専用バックエンドを構築しました。

キーワードを探す代わりに、LLM は文脈を読み取り、すべてを標準英語に翻訳し、それを特定のEC 属性にマッピングします。

上記の乱雑なテキストを送信すると、API はこの正確な JSON 構造を返します:

json
{
"success": true,
"data": {
"brand": "Nike",
"model": "Air Max",
"category": "スニーカー",
"gender": "男性",
"size": "42",
"color": "青",
"material": "合成素材",
"pack_size": null,
"normalized_title": "Nike Air Max スニーカー メンズ ブルー サイズ 42"
}
}
I wrapped it into a public API
Since building the prompt logic, handling LLM latency, and hosting the infrastructure takes a lot of time, I wrapped the whole logic into a plug-and-play API.

If you are building an automated Shopify importer, doing local SEO catalogs, or just formatting messy supplier CSVs with Python or Zapier, you can use it right now.

👉 RapidAPI で E-commerce Product Normalizer (AI) をチェックしてください

無料プランがあります(月に50回)ので、RapidAPI のプレイグラウンドで何の契約もなく直接テストできます。

ご意見をお聞かせください!現在、クライアントやサプライヤーからの乱雑な製品フィードを、皆さんは現在どのように処理していますか?