Channel Master 品質複檢

📌 ⚠ Snapshot 聲明: 本文反映 2026-03-19 pre-P0/pre-P1 版本的檢核結果...📌 2026-03-25 post-rebuild 對照: Master 已重建至 2,490,077 筆(+66 通路),440,4...

2026-03-25 post-rebuild 對照:Master 已重建至 2,490,077 筆(+66 通路),440,414 有 barcode (17%),361,222 不重複條碼。新增通路含 ETMall (455K)、iHerb (51.5K, 100% BC)、家樂福 enrichment (29.3K valid EAN) 等。本文分析邏輯與建議仍適用,但數字已非最新;最新數字見 crawlers/CHANNELS.md L1/L2/L3 統計。

1. 摘要

2. 方法

3. 整體量化結果

下表所有數值皆由 channel_master.csv 直接計算。

指標 數值 說明
總筆數 1,389,934 全部通路整合後資料列
有條碼筆數 127,032 9.1%
不重複條碼 94,101 barcode 去重
多來源條碼 21,552 出現在 >=2 個來源
名稱衝突條碼 23,878 同一條碼對應多個品名
格式錯碼 0 本次複檢未發現
471 prefix 73,237 佔條碼列 57.7%,是台灣主體
200 prefix 1,002 佔條碼列 0.8%,疑似店內/零售碼
978/979 prefix 5,856 佔條碼列 4.6%,幾乎全為書碼
全零碼 38 目前集中於 treebuy

欄位完整度

下表反映最終整合檔內容,不代表上游網站一定有更完整欄位。

欄位 完整度
source_url 100.0%
image_url 99.8%
price 99.2%
category 95.5%
source_sku 92.9%
brand 48.7%
spec 24.1%

條碼長度分布

非空 barcode 全數通過長度與 校驗碼,但合法格式不等於語義正確。

長度 筆數
13 123,577
12 2,988
8 453
14 14

4. 來源別評估

下表聚焦 barcode 相關的重要來源,而非所有 51 個來源。

來源 資料列 條碼列 條碼率 不重複條碼 來源內衝突率 評語
pxgo 9,906 9,901 99.9% 9,901 0.0% 最乾淨的核心來源之一
pxmart_mega 10,200 10,198 100.0% 10,198 0.0% 高覆蓋且穩定
tomods 5,707 5,676 99.5% 5,675 0.0% 非常強
jpmed 5,161 4,818 93.4% 4,815 0.1% 強,但少量福利品/命名差異
carrefour 15,116 5,297 35.0% 5,236 0.8% 整合後可用,但上游 原始資料 很髒
pxbox 191,674 51,219 26.7% 46,871 7.1% 規模最大,但 組合包/組合包污染明顯
yourchance 1,846 1,828 99.0% 1,686 8.4% 覆蓋高,但有明顯品名/贈品文案污染
ckcare 1,322 1,155 87.4% 999 13.4% 單一來源內衝突最高
dingding 4,451 4,413 99.1% 4,241 4.0% 覆蓋強,但箱購/倍量文案常共用 barcode
rakuten-amart 5,838 5,838 100.0% 5,838 0.0% 覆蓋高,但 200 prefix 異常集中
cosmed 18,711 5,810 31.1% 5,785 0.4% barcode 大多為 ISBN,不宜直接視為 FMCG 條碼成果
costco 8,866 461 5.2% 461 0.0% 覆蓋低,暫不宜作為 barcode 主力來源

5. 主要發現

5.1 格式品質高,但語義品質仍需治理

5.2 200 prefix 是第一個必須加閘的風險群

5.3 978/979 prefix 幾乎都是 ISBN,尤其集中在 cosmed

5.4 全零 placeholder 代表目前清洗規則仍有漏洞

5.5 來源內衝突主要由 組合包、箱購、贈品與 variant 文案造成

5.6 多來源重疊是優勢,但不能直接等同 canonical seed

6. 異常樣本

以下樣本皆直接取自 channel_master.csv 或其來源抽查。

類型 條碼 來源 樣本 判讀
200 店內或零售碼 2009001047258 rakuten-amart 白蘭氏雞精 6 入組 疑似零售商碼,不宜直接當消費品 GTIN
ISBN 9789864187560 cosmed 新編實用國語辭典 合法碼,但屬書籍 ISBN 池
規格污染 4710054532117 ckcare 同時對到 XL38片*4包NB56片*4包/箱 同碼多規格,需人工或規則化清洗
組合包文案污染 4710054513512 ckcare 同碼對到單包與箱購促銷文案 應優先保留單品正式名稱
Placeholder 條碼 00000000 treebuy 多個不相關商品共用 全零碼應直接隔離
正向共識樣本 4903301240990 8 個來源 獅王趣淨洗手慕斯 250ml 適合當高可信高可信正式候選

7. 結論

8. 建議動作

  1. 先在整合層新增閘門:預設隔離 200978/979 與全零 placeholder,必要時再依品類例外放行。
  2. ckcareyourchancepxboxdingding 建立組合包、箱購、贈品文案規則,將 x4包多件優惠 類字樣與單品正式名稱分離。
  3. cosmed 建立 ISBN 專池,不要與 FMCG 條碼混用。
  4. 不要把 >=3 來源重疊直接當成正式 seed;較務實的條件應至少包含非風險 prefix、可信來源先驗、名稱 alias 清洗,必要時再加人工覆核。
  5. 後續若要讓 confidence 變成真正可用欄位,應改為「來源可信度 + prefix 類型 + 跨來源共識 + 衝突率」的組合分數,而不是固定來源權重。

9. 依據檔案