2026-03-25 post-rebuild 對照:Master 已重建至 2,490,077 筆(+66 通路),440,414 有 barcode (17%),361,222 不重複條碼。新增通路含 ETMall (455K)、iHerb (51.5K, 100% BC)、家樂福 enrichment (29.3K valid EAN) 等。本文分析邏輯與建議仍適用,但數字已非最新;最新數字見
crawlers/CHANNELS.mdL1/L2/L3 統計。
output/channel_master.csv 與其建置邏輯
build/build_channel_master.pychannel_master
的整體可用性、barcode 品質、來源差異與高風險區段channel_master 共 1,389,934
筆資料,其中 127,032 筆有條碼,佔 9.1%;共有
94,101 個不重複條碼。0。1,002 筆為
200 prefix 疑似店內碼或零售商碼,5,856 筆為
978/979 書碼,另有 38 筆全零 placeholder
條碼。23,878 個條碼對應到多個不同品名;其中
21,552 個條碼出現在 2 個以上來源。channel_master
可作為廣覆蓋通路商品池與候選條碼池,但若要當正式 item master,至少還需要
prefix 閘門、組合包/箱購過濾,以及條碼名稱正規化。channel_master.csv
為單一事實基礎,直接對最終整合輸出做統計,不以各 crawler
自述覆蓋率代替結果。channel_master 的條碼清洗邏輯目前來自
build_channel_master.py 中的
clean_barcode(),規則為只保留數字、長度
8/12/13/14、且通過校驗碼。confidence
欄位目前仍是整合腳本以來源規則直接指定的固定值或簡單條件值,並非由跨來源共識動態計算。下表所有數值皆由
channel_master.csv直接計算。
| 指標 | 數值 | 說明 |
|---|---|---|
| 總筆數 | 1,389,934 | 全部通路整合後資料列 |
| 有條碼筆數 | 127,032 | 佔 9.1% |
| 不重複條碼 | 94,101 | 以 barcode 去重 |
| 多來源條碼 | 21,552 | 出現在 >=2 個來源 |
| 名稱衝突條碼 | 23,878 | 同一條碼對應多個品名 |
| 格式錯碼 | 0 | 本次複檢未發現 |
471 prefix |
73,237 | 佔條碼列 57.7%,是台灣主體 |
200 prefix |
1,002 | 佔條碼列 0.8%,疑似店內/零售碼 |
978/979 prefix |
5,856 | 佔條碼列 4.6%,幾乎全為書碼 |
| 全零碼 | 38 | 目前集中於 treebuy |
下表反映最終整合檔內容,不代表上游網站一定有更完整欄位。
| 欄位 | 完整度 |
|---|---|
source_url |
100.0% |
image_url |
99.8% |
price |
99.2% |
category |
95.5% |
source_sku |
92.9% |
brand |
48.7% |
spec |
24.1% |
非空 barcode 全數通過長度與 校驗碼,但合法格式不等於語義正確。
| 長度 | 筆數 |
|---|---|
| 13 | 123,577 |
| 12 | 2,988 |
| 8 | 453 |
| 14 | 14 |
下表聚焦 barcode 相關的重要來源,而非所有 51 個來源。
| 來源 | 資料列 | 條碼列 | 條碼率 | 不重複條碼 | 來源內衝突率 | 評語 |
|---|---|---|---|---|---|---|
pxgo |
9,906 | 9,901 | 99.9% | 9,901 | 0.0% | 最乾淨的核心來源之一 |
pxmart_mega |
10,200 | 10,198 | 100.0% | 10,198 | 0.0% | 高覆蓋且穩定 |
tomods |
5,707 | 5,676 | 99.5% | 5,675 | 0.0% | 非常強 |
jpmed |
5,161 | 4,818 | 93.4% | 4,815 | 0.1% | 強,但少量福利品/命名差異 |
carrefour |
15,116 | 5,297 | 35.0% | 5,236 | 0.8% | 整合後可用,但上游 原始資料 很髒 |
pxbox |
191,674 | 51,219 | 26.7% | 46,871 | 7.1% | 規模最大,但 組合包/組合包污染明顯 |
yourchance |
1,846 | 1,828 | 99.0% | 1,686 | 8.4% | 覆蓋高,但有明顯品名/贈品文案污染 |
ckcare |
1,322 | 1,155 | 87.4% | 999 | 13.4% | 單一來源內衝突最高 |
dingding |
4,451 | 4,413 | 99.1% | 4,241 | 4.0% | 覆蓋強,但箱購/倍量文案常共用 barcode |
rakuten-amart |
5,838 | 5,838 | 100.0% | 5,838 | 0.0% | 覆蓋高,但 200 prefix 異常集中 |
cosmed |
18,711 | 5,810 | 31.1% | 5,785 | 0.4% | barcode 大多為 ISBN,不宜直接視為 FMCG 條碼成果 |
costco |
8,866 | 461 | 5.2% | 461 | 0.0% | 覆蓋低,暫不宜作為 barcode 主力來源 |
channel_master 中保留下來的 127,032
筆條碼全部通過格式複驗。200
prefix 是第一個必須加閘的風險群200 prefix 共 1,002 筆,來源集中在
rakuten-amart (913)、carrefour (45)、tomods (22)、rakuten (12)。2009001047258 對應白蘭氏雞精 6 入組。200 prefix
應預設列為隔離池,而不是直接進正式條碼池。978/979 prefix 幾乎都是 ISBN,尤其集中在
cosmed978/979 共 5,856 筆,其中
5,810 筆來自 cosmed。978/979
與一般消費品條碼分池管理。channel_master 目前保留了 38
筆全零碼,值為 00000000 與
0000000000000,且都來自 treebuy。ckcare 來源內衝突率最高,為
13.4%;yourchance 為
8.4%;pxbox 為
7.1%;dingding 為 4.0%。4710054532117 在 ckcare
同時對到 XL38片*4包 與
NB56片*4包/箱;4710054513512 在
ckcare 同時對到單包與箱購促銷敘述。21,552 個 barcode
至少出現在兩個來源,4,536 個 barcode 至少出現在三個來源。 /
21,552 barcodes appear in at least two channels, and
4,536 appear in at least three.4903301240990 在
jpmed、pxbox、pxmart_mega、dingding、tomods、weixinrx、rakuten、rakuten-amart
都指向同一支獅王洗手慕斯。>=3 來源 +
本次簡單名稱標準化後僅 1 個名稱」條件,實際只剩 2
個條碼。以下樣本皆直接取自
channel_master.csv或其來源抽查。
| 類型 | 條碼 | 來源 | 樣本 | 判讀 |
|---|---|---|---|---|
200 店內或零售碼 |
2009001047258 |
rakuten-amart |
白蘭氏雞精 6 入組 |
疑似零售商碼,不宜直接當消費品 GTIN |
| ISBN | 9789864187560 |
cosmed |
新編實用國語辭典 | 合法碼,但屬書籍 ISBN 池 |
| 規格污染 | 4710054532117 |
ckcare |
同時對到 XL38片*4包 與 NB56片*4包/箱 |
同碼多規格,需人工或規則化清洗 |
| 組合包文案污染 | 4710054513512 |
ckcare |
同碼對到單包與箱購促銷文案 | 應優先保留單品正式名稱 |
| Placeholder 條碼 | 00000000 |
treebuy |
多個不相關商品共用 | 全零碼應直接隔離 |
| 正向共識樣本 | 4903301240990 |
8 個來源 | 獅王趣淨洗手慕斯 250ml | 適合當高可信高可信正式候選 |
channel_master,條碼的格式品質已經足夠好,因為保留下來的值全部通過校驗碼與長度複驗。200 prefix
零售碼、978/979 ISBN、全零 placeholder,以及 GTIN
被重用在組合包、箱購或多規格頁。channel_master
適合拿來做探索、候選比對與來源覆蓋盤點;若要做正式 item
master,還不能直接把所有非空條碼視為同等可信。200、978/979
與全零 placeholder,必要時再依品類例外放行。ckcare、yourchance、pxbox、dingding
建立組合包、箱購、贈品文案規則,將
箱、x4包、贈、多件優惠
類字樣與單品正式名稱分離。cosmed 建立 ISBN 專池,不要與 FMCG 條碼混用。>=3 來源重疊直接當成正式
seed;較務實的條件應至少包含非風險 prefix、可信來源先驗、名稱 alias
清洗,必要時再加人工覆核。confidence
變成真正可用欄位,應改為「來源可信度 + prefix 類型 + 跨來源共識 +
衝突率」的組合分數,而不是固定來源權重。output/channel_master.csvoutput/channel_master.jsonbuild/build_channel_master.pydocs/R01-barcode.mdcrawlers/{pxgo,pxmart_mega,pxbox,carrefour,cosmed,jpmed,ckcare,yourchance,rakuten,rakuten-amart,tomods,weixinrx,costco}/data/*.json