Item Master 商品主檔建置專案

📌 啟動日期: 2026-03-11📌 狀態: Phase 2 通路爬蟲完成,Master 已建置📌 擁有者: CEO📌 最後更新: 2026-03-25

問題定義

擁有大量 user 授權/上傳的發票明細,但:

  1. 通路及 POS 未清楚揭露品牌,品名格式不一致
  2. 同商品在不同通路有不同名稱,難以連結
  3. 想用 barcode-發票明細對應建立 Item Master 主檔
  4. Barcode 對應有多對多/不唯一問題

目標品類(FMCG 為主)

菸酒、碳酸飲料、即飲茶、即飲咖啡、機能性飲料、瓶裝水、運動飲料、 泡麵、鹹味零食、巧克力、餅乾、糖果、冰品、食用油、醬油、 衛生紙、面紙、濕紙巾、廚房紙巾、衛生用品、成人尿布、嬰兒尿布、 牙膏、牙刷、漱口水、洗髮精、潤髮乳、沐浴乳、洗面乳、 臉部保養、化妝品、體香劑、染髮劑、 清潔劑、家用清潔劑、液體肥皂、殺蟲劑、 感冒藥、止痛藥、眼藥水、維他命、葡萄糖胺、 嬰兒配方奶粉、奶粉、健康食品、精華飲料、寵物食品、 刮鬍刀、保險套、電池、加熱不燃燒菸草

目標通路

便利商店

7-Eleven, 全家, 萊爾富, OK

超市/量販

全聯 PX-Mart, 大潤發 RT-Mart, 家樂福量販, 家樂福超市, 愛買, 大買家, 美廉社, 台糖超市, 楓康

藥妝/日用

屈臣氏, 康是美, 寶雅, 小北百貨, 日藥本舖, 松本清, Tomods, 86小舖, 佳瑪, 大樂, MIA CBON

藥局

大樹藥局, 杏一, 佑全/健康人生, 維康, 丁丁, 啄木鳥, 躍獅, 富康, 長青, 德昌, 弘安, 正光, 全球連鎖大藥局, 春天, 福倫, 專品, 安德, 真善美, 合康, 新資生, 唯新婦嬰, 台安, 美康, 全成國際

電商

PChome, Momo, 東森購物, 神坊資訊, Coupang

酒類

橡木桶, 酒條通, 買酒網, 洋酒城, 利百加, 全球菸酒行, 加賀洋行, 寶檳洋酒, 亦欣洋行

嬰童

卡多摩, 安琪兒, 宜兒樂, 媽媽好, 樂兒屋

Phase 2: 通路爬蟲 Channel Master(2026-03-25 rebuild)

Channel Master 現況

指標 數值
紀錄總數 2,490,077
有國際條碼(GTIN) 440,414
471 台灣碼 93,331
不重複條碼(L3) 361,222(GTIN 164K + ISBN 197K)
471 不重複 65,026
跨 2+ 通路條碼 61,558
有圖片 2,239,234
有價格 2,467,469
有品牌 1,546,368
通路數 91(已完成 64 / 進行中 5 / 暫停 1 / 待開發 14 / 不可行 7)
FMCG 合計 462,289 筆、199,472 valid GTIN (43.1%)

通路詳細狀態、技術備忘、平台對照表見 crawlers/CHANNELS.md(single source of truth)。

主要里程碑

關鍵教訓

  1. 91APP barcode 因店而異:同平台,日藥 93% barcode、康是美 30%、杏一 0%。取決於賣家資料填寫。
  2. Barcode 不只看 JSON-LD:樂天的 EAN 藏在 JS Redux state + HTML spec table,JSON-LD gtin8 永遠是 "N/A"。
  3. 動工前必做完整評估:API/JSON-LD/spec table/JS data/meta/URL/OCR/多品類驗證。
  4. async 爬蟲要保守:91APP WAF 敏感,CONC=3 + 3s delay + jitter 是安全上限。
  5. 沒有 barcode 也有價值:品名/價格/分類/圖片仍可用於 PN 對應。
  6. 樂天市場有通路子店:屈臣氏/愛買/杏一各自獨立,愛買 100% BC 是意外高價值來源。
  7. Enrichment 效益因平台而異:家樂福 SFCC EAN 欄位混放內部碼,enrichment 後僅 49.2% 為合格 EAN。

核心發現

1. 電子發票無 Barcode 欄位

台灣電子發票 MIG 4.1 的商品明細只有:品名(M)、數量(M)、單價(M)、金額(M)。 RelateNumber 是選填(O),可能有零售商填入 GTIN 但不確定,且公開 API 不回傳此欄位。

2. 公開 Barcode DB 對台灣覆蓋率 = 0%

實測 Open Food Facts / UPCitemdb / Go-UPC:台灣 471 前綴 20 個常見商品全部查無。 Open Food Facts 標記 Taiwan 的 2,425 筆幾乎都是國際品牌。

3. 眾包是唯一可行的 Barcode 收集路徑

App 用戶拍商品條碼 → 建立 (barcode, 通路品名, 統編, 價格) 配對。這是護城河。

4. 可用的公開資料(詳見 data/open-data-sources-survey.md)

見 DECISIONS.md 的資料源清單。