スクレーパー、ドロップシッピング用のインポーター、またはPIM(Product Information Management)システムを作ったことがあるなら、構造化されていない製品データを扱う際の地獄のような経験を知っているでしょう。
サプライヤーのウェブサイトをスクレイプして、サイズとカラーが揃ったきれいな表を期待しますが、代わりにこの生のテキスト文字列が返ってきます:
"Nike Air Max メンズ スニーカー サイズ 42 ブルー 合成素材"
あるいはさらに悪いことに、それは外国語です:
"Zapatillas de running Nike Air Max uomo blu taglia 42"
古い方法: 正規表現の悪夢 ❌
歴史的には、"Size"、"SZ"、"Taglia" のバリエーションを捕捉したり、50 種類のカラー名を標準の英語リストにマッピングしたりするために、数十個の正規表現を書く必要がありました。サプライヤーの1つのタイポでスクリプトが壊れ、あなたの Shopify カタログには Color: blu scuro impermeabile のような奇妙なタグが表示されます。
新しい方法: 構造化された AI 出力 ✅
壊れたパーサを修正するのに疲れたので、厳格な JSON スキーマを持つ Node.js、Express、GPT-4o-mini を用いた専用バックエンドを構築しました。
キーワードを探す代わりに、LLM は文脈を読み取り、すべてを標準英語に翻訳し、それを特定のEC 属性にマッピングします。
上記の乱雑なテキストを送信すると、API はこの正確な JSON 構造を返します:
json
{
"success": true,
"data": {
"brand": "Nike",
"model": "Air Max",
"category": "スニーカー",
"gender": "男性",
"size": "42",
"color": "青",
"material": "合成素材",
"pack_size": null,
"normalized_title": "Nike Air Max スニーカー メンズ ブルー サイズ 42"
}
}
I wrapped it into a public API
Since building the prompt logic, handling LLM latency, and hosting the infrastructure takes a lot of time, I wrapped the whole logic into a plug-and-play API.
If you are building an automated Shopify importer, doing local SEO catalogs, or just formatting messy supplier CSVs with Python or Zapier, you can use it right now.
👉 RapidAPI で E-commerce Product Normalizer (AI) をチェックしてください
無料プランがあります(月に50回)ので、RapidAPI のプレイグラウンドで何の契約もなく直接テストできます。
ご意見をお聞かせください!現在、クライアントやサプライヤーからの乱雑な製品フィードを、皆さんは現在どのように処理していますか?
