2026-03-25 post-rebuild 對照:Master 已重建至 2,490,077 筆(66 通路),440,414 有 barcode (17%),361,222 不重複條碼,65,026 不重複 471 台灣碼,跨 2+ 通路條碼 61,558。新增高價值通路含 iHerb (51,484 barcode, 100% UPC/EAN)、家樂福 enrichment (+29,289 valid EAN)。本文分析框架仍適用,但數字已非最新;最新數字見
crawlers/CHANNELS.mdL1/L2/L3 統計及output/category_stats.md。
output/channel_master.csvchannel_master
產出一份可單獨引用的條碼數量文件,聚焦列層級、去重後層級、prefix、風險碼、來源別、重疊與衝突分布。channel_master 共有 1,389,934 筆資料,其中
127,032 筆有條碼,整體條碼覆蓋率為 9.14%;對應
94,101 個不重複條碼。5 個來源已占全部條碼列的
67.83%,前 10 個來源占
88.31%。22 個來源實際提供條碼,另有 29
個來源目前在最終整合檔中為 0 條碼;後者合計
1,044,578 筆資料,占全檔 75.15%,其中
pchome 一個來源就有 980,061 筆。13 位碼為主,列層級佔
97.28%,去重後層級佔 96.93%;12
位 UPC-A 為 2,988 筆,8 位 EAN-8 為
453 筆,14 位 GTIN-14 僅 14
筆。471 為主體,共 73,237
筆;另有 1,002 筆 200
prefix、5,856 筆 978/979、以及 38
筆全零 placeholder。72,549
個條碼只出現在單一來源,佔不重複條碼
77.10%;標準化名稱完全不衝突的條碼為 70,226
個,佔 74.63%。channel_master
的條碼池已有足夠規模做候選比對,但若要進一步作為正式 item master
seed,仍必須把 200、978/979、全零 placeholder
與高衝突來源分池治理。output/channel_master.csv
計算,不引用 crawler 自述覆蓋率,也不以舊報表取代現況。列層級 指資料列數;去重後層級 指以
barcode 去重後的不重複條碼數。978/979
在風險池中合併呈現,但 prefix 表會保留單獨列示。下表所有數值皆直接由
channel_master.csv計算。
| 指標 | 數值 | 說明 |
|---|---|---|
| 總筆數 | 1,389,934 | 整份 channel_master.csv 的資料列 |
| 有條碼筆數 | 127,032 | 佔全部資料 9.14% |
| 無條碼筆數 | 1,262,902 | 佔全部資料 90.86% |
| 不重複條碼 | 94,101 | 以 barcode 去重 |
| 平均每個條碼對應資料列 | 1.35 | 列層級重複密度 |
| 至少 2 來源條碼 | 21,552 | 佔不重複條碼 22.90% |
| 至少 3 來源條碼 | 4,536 | 佔不重複條碼 4.82% |
| 標準化名稱衝突條碼 | 23,875 | 佔不重複條碼 25.37% |
| 22 個有條碼來源的資料列 | 345,356 | 佔全部資料 24.85%;這 22 個來源內的條碼覆蓋率為
36.78% |
| 29 個 0 條碼來源的資料列 | 1,044,578 | 佔全部資料 75.15%;其中 pchome 單一來源為
980,061 筆 |
下表同時呈現列層級與去重後層級的長度分布。
| 長度 | 筆數 | 筆數佔比 | 不重複條碼數 | 不重複條碼佔比 |
|---|---|---|---|---|
| 13 | 123,577 | 97.28% | 91,214 | 96.93% |
| 12 | 2,988 | 2.35% | 2,540 | 2.70% |
| 8 | 453 | 0.36% | 335 | 0.36% |
| 14 | 14 | 0.01% | 12 | 0.01% |
558 個不同前三位 prefix;前
20 個 prefix 已占全部條碼列的 83.81%。978 與 979 在 prefix
表中分開計,但在風險池統計中合併為 978/979。下表列出前
20個 prefix。
| Prefix | 筆數 | 筆數佔比 | 不重複條碼數 | 備註 |
|---|---|---|---|---|
| 471 | 73,237 | 57.652% | 51,692 | 台灣主體 |
| 490 | 5,937 | 4.674% | 3,602 | 日本群 |
| 978 | 5,854 | 4.608% | 5,829 | ISBN 書碼 |
| 880 | 4,311 | 3.394% | 3,286 | 韓國群 |
| 497 | 2,490 | 1.960% | 1,891 | 日本群 |
| 489 | 1,650 | 1.299% | 1,190 | 香港群 |
| 498 | 1,492 | 1.175% | 828 | 日本群 |
| 885 | 1,460 | 1.149% | 910 | 泰國群 |
| 400 | 1,165 | 0.917% | 829 | |
| 501 | 1,033 | 0.813% | 970 | |
| 200 | 1,002 | 0.789% | 999 | 零售/店內碼風險群 |
| 697 | 983 | 0.774% | 876 | 中國群 |
| 888 | 964 | 0.759% | 701 | |
| 692 | 860 | 0.677% | 607 | 中國群 |
| 690 | 773 | 0.609% | 355 | 中國群 |
| 694 | 768 | 0.605% | 688 | 中國群 |
| 458 | 633 | 0.498% | 538 | |
| 800 | 633 | 0.498% | 478 | |
| 454 | 620 | 0.488% | 450 | |
| 455 | 595 | 0.468% | 345 |
下表中的風險碼池彼此不是互斥集合;例如全零碼同時也屬於同數字重複模式。
| 類型 | 筆數 | 筆數佔比 | 不重複條碼數 | 不重複條碼佔比 | 說明 |
|---|---|---|---|---|---|
prefix 471 |
73,237 | 57.65% | 51,692 | 54.93% | 目前最主要條碼池 |
prefix 200 |
1,002 | 0.79% | 999 | 1.06% | 建議隔離 |
prefix 978/979 |
5,856 | 4.61% | 5,831 | 6.20% | 幾乎全是 ISBN |
| 12 位 UPC-A | 2,988 | 2.35% | 2,540 | 2.70% | 主要集中於 pxbox、costco |
| 8 位 EAN-8 | 453 | 0.36% | 335 | 0.36% | 主要集中於
angelbaby、pxbox、pxgo |
| 14 位 GTIN-14 | 14 | 0.01% | 12 | 0.01% | 極少量 |
| 全零 placeholder | 38 | 0.03% | 2 | 0.00% | 全部來自 treebuy |
| 同數字重複碼 | 38 | 0.03% | 2 | 0.00% | 與全零碼重合 |
200 prefix 的 1,002 筆資料主要集中在
rakuten-amart (913)、carrefour (45)、tomods (22)、rakuten (12)。978/979 的 5,856 筆資料幾乎全由
cosmed (5,810) 構成,其餘分散於
angelbaby (27)、dingding (10)、rakuten-amart (6)、pxbox (3)。2,988 筆 12 位 UPC-A 主要來自
pxbox (1,764)、costco (460)、pxgo (179)、rakuten (163)、babyez (147)、pxmart_mega (113)。453 筆 8 位 EAN-8 主要來自
angelbaby (190)、pxbox (70)、pxgo (58)、tomods (41)、treebuy (39)。38 筆,但全部集中在
treebuy,且實際只有 2
個不同值:00000000 與 0000000000000。51 個來源;其中 22
個來源有保留條碼,29 個來源目前為 0
條碼。15 個條碼來源已占全部條碼列的
97.50%。下表按
barcode_rows由高到低排列。
| 來源 | 總列 | 條碼列 | 條碼率 | 不重複條碼 | 來源內衝突率 | 200 列數 |
978/979 列數 |
全零列數 |
|---|---|---|---|---|---|---|---|---|
pxbox |
191,674 | 51,219 | 26.72% | 46,871 | 7.10% | 4 | 3 | 0 |
pxmart_mega |
10,200 | 10,198 | 99.98% | 10,198 | 0.00% | 0 | 0 | 0 |
pxgo |
9,906 | 9,901 | 99.95% | 9,901 | 0.00% | 0 | 0 | 0 |
rakuten |
13,463 | 9,013 | 66.95% | 9,012 | 0.01% | 12 | 0 | 0 |
rakuten-amart |
5,838 | 5,838 | 100.00% | 5,838 | 0.00% | 913 | 6 | 0 |
cosmed |
18,711 | 5,810 | 31.05% | 5,785 | 0.41% | 0 | 5,810 | 0 |
tomods |
5,707 | 5,676 | 99.46% | 5,675 | 0.02% | 22 | 0 | 0 |
carrefour |
15,116 | 5,297 | 35.04% | 5,236 | 0.82% | 45 | 0 | 0 |
jpmed |
5,161 | 4,818 | 93.35% | 4,815 | 0.06% | 0 | 0 | 0 |
dingding |
4,451 | 4,413 | 99.15% | 4,241 | 4.03% | 0 | 10 | 0 |
libaga |
4,092 | 3,570 | 87.24% | 3,505 | 1.83% | 1 | 0 | 0 |
homeda |
2,924 | 2,688 | 91.93% | 2,652 | 1.21% | 0 | 0 | 0 |
treebuy |
28,675 | 2,436 | 8.50% | 2,287 | 4.59% | 2 | 0 | 38 |
yourchance |
1,846 | 1,828 | 99.02% | 1,686 | 8.42% | 0 | 0 | 0 |
ckcare |
1,322 | 1,155 | 87.37% | 999 | 13.41% | 0 | 0 | 0 |
angelbaby |
5,472 | 1,153 | 21.07% | 1,145 | 0.61% | 2 | 27 | 0 |
weixinrx |
1,932 | 796 | 41.20% | 792 | 0.13% | 0 | 0 | 0 |
matsukiyo |
705 | 529 | 75.04% | 527 | 0.38% | 0 | 0 | 0 |
costco |
8,866 | 461 | 5.20% | 461 | 0.00% | 1 | 0 | 0 |
babyez |
1,782 | 173 | 9.71% | 168 | 1.79% | 0 | 0 | 0 |
foodpanda |
5,606 | 55 | 0.98% | 55 | 0.00% | 0 | 0 | 0 |
wholecome |
1,907 | 5 | 0.26% | 5 | 0.00% | 0 | 0 | 0 |
下表按總列數由高到低排列。
| 來源 | 總列 | 條碼列 | 條碼率 |
|---|---|---|---|
pchome |
980,061 | 0 | 0.00% |
seven11 |
12,645 | 0 | 0.00% |
greattree |
10,689 | 0 | 0.00% |
savesafe |
7,315 | 0 | 0.00% |
shopee_cosmed |
4,258 | 0 | 0.00% |
my9 |
2,939 | 0 | 0.00% |
yixin |
2,191 | 0 | 0.00% |
shopee_watsons |
2,164 | 0 | 0.00% |
medfirst |
2,082 | 0 | 0.00% |
rakuten-medfirst |
1,923 | 0 | 0.00% |
9city |
1,839 | 0 | 0.00% |
ubereats |
1,659 | 0 | 0.00% |
showba |
1,613 | 0 | 0.00% |
globaldrinks |
1,519 | 0 | 0.00% |
609 |
1,362 | 0 | 0.00% |
familymart |
1,299 | 0 | 0.00% |
baopin |
1,227 | 0 | 0.00% |
miacbon |
1,068 | 0 | 0.00% |
shopee_kodomoshops |
1,010 | 0 | 0.00% |
shopee |
1,000 | 0 | 0.00% |
drinks |
961 | 0 | 0.00% |
fukang |
830 | 0 | 0.00% |
jiaho |
807 | 0 | 0.00% |
wellcare |
659 | 0 | 0.00% |
ccdrugstore |
622 | 0 | 0.00% |
ego888 |
429 | 0 | 0.00% |
techang |
210 | 0 | 0.00% |
andebio |
188 | 0 | 0.00% |
kingbaby |
9 | 0 | 0.00% |
111
個條碼同時滿足「>=2 來源且只有 1
個標準化名稱」;若再加上 >=3 來源,僅剩 2
個。| 來源數區間 | 不重複條碼數 | 佔比 |
|---|---|---|
| 1 個來源 | 72,549 | 77.10% |
| 2 個來源 | 17,016 | 18.08% |
| 3 個來源 | 3,286 | 3.49% |
| 4-5 個來源 | 1,176 | 1.25% |
| 6+ 個來源 | 74 | 0.08% |
| 名稱數區間 | 不重複條碼數 | 佔比 |
|---|---|---|
| 1 個名稱 | 70,226 | 74.63% |
| 2 個名稱 | 17,940 | 19.06% |
| 3-4 個名稱 | 5,353 | 5.69% |
| 5+ 個名稱 | 582 | 0.62% |
| 列數區間 | 不重複條碼數 | 佔比 |
|---|---|---|
| 1 列 | 70,114 | 74.51% |
| 2 列 | 17,871 | 18.99% |
| 3 列 | 4,242 | 4.51% |
| 4-5 列 | 1,685 | 1.79% |
| 6+ 列 | 189 | 0.20% |
channel_master
裡到底有多少條碼、分布在哪裡」,不是「哪些條碼已可直接當正式真值」。471
主池、200 隔離池、978/979 ISBN
池,以及高衝突來源池。9.14%,不代表條碼抽取能力只剩
9.14%;更準確地說,是因為 75.15%
的整合資料列來自目前 0 條碼的來源。77.10%
的不重複條碼只出現在單一來源,任何要拿條碼直接當主鍵的做法,都應預期還需要額外證據層。output/channel_master.csvbuild/build_channel_master.pydocs/R01-barcode.mddocs/Q01-channel-qc.md