Channel Master 條碼數量盤點

📌 ⚠ Snapshot 聲明: 本文反映 2026-03-19 pre-P0/pre-P1 版本的盤點結果...📌 2026-03-25 post-rebuild 對照: Master 已重建至 2,490,077 筆(66 通路),440,41...

2026-03-25 post-rebuild 對照:Master 已重建至 2,490,077 筆(66 通路),440,414 有 barcode (17%),361,222 不重複條碼,65,026 不重複 471 台灣碼,跨 2+ 通路條碼 61,558。新增高價值通路含 iHerb (51,484 barcode, 100% UPC/EAN)、家樂福 enrichment (+29,289 valid EAN)。本文分析框架仍適用,但數字已非最新;最新數字見 crawlers/CHANNELS.md L1/L2/L3 統計及 output/category_stats.md

1. 摘要

2. 方法與定義

3. 核心數量

下表所有數值皆直接由 channel_master.csv 計算。

指標 數值 說明
總筆數 1,389,934 整份 channel_master.csv 的資料列
有條碼筆數 127,032 佔全部資料 9.14%
無條碼筆數 1,262,902 佔全部資料 90.86%
不重複條碼 94,101 barcode 去重
平均每個條碼對應資料列 1.35 列層級重複密度
至少 2 來源條碼 21,552 佔不重複條碼 22.90%
至少 3 來源條碼 4,536 佔不重複條碼 4.82%
標準化名稱衝突條碼 23,875 佔不重複條碼 25.37%
22 個有條碼來源的資料列 345,356 佔全部資料 24.85%;這 22 個來源內的條碼覆蓋率為 36.78%
29 個 0 條碼來源的資料列 1,044,578 佔全部資料 75.15%;其中 pchome 單一來源為 980,061

4. 格式與長度盤點

下表同時呈現列層級與去重後層級的長度分布。

長度 筆數 筆數佔比 不重複條碼數 不重複條碼佔比
13 123,577 97.28% 91,214 96.93%
12 2,988 2.35% 2,540 2.70%
8 453 0.36% 335 0.36%
14 14 0.01% 12 0.01%

5. Prefix 盤點

下表列出前 20 個 prefix。

Prefix 筆數 筆數佔比 不重複條碼數 備註
471 73,237 57.652% 51,692 台灣主體
490 5,937 4.674% 3,602 日本群
978 5,854 4.608% 5,829 ISBN 書碼
880 4,311 3.394% 3,286 韓國群
497 2,490 1.960% 1,891 日本群
489 1,650 1.299% 1,190 香港群
498 1,492 1.175% 828 日本群
885 1,460 1.149% 910 泰國群
400 1,165 0.917% 829
501 1,033 0.813% 970
200 1,002 0.789% 999 零售/店內碼風險群
697 983 0.774% 876 中國群
888 964 0.759% 701
692 860 0.677% 607 中國群
690 773 0.609% 355 中國群
694 768 0.605% 688 中國群
458 633 0.498% 538
800 633 0.498% 478
454 620 0.488% 450
455 595 0.468% 345

6. 風險碼與特殊碼盤點

下表中的風險碼池彼此不是互斥集合;例如全零碼同時也屬於同數字重複模式。

類型 筆數 筆數佔比 不重複條碼數 不重複條碼佔比 說明
prefix 471 73,237 57.65% 51,692 54.93% 目前最主要條碼池
prefix 200 1,002 0.79% 999 1.06% 建議隔離
prefix 978/979 5,856 4.61% 5,831 6.20% 幾乎全是 ISBN
12 位 UPC-A 2,988 2.35% 2,540 2.70% 主要集中於 pxboxcostco
8 位 EAN-8 453 0.36% 335 0.36% 主要集中於 angelbabypxboxpxgo
14 位 GTIN-14 14 0.01% 12 0.01% 極少量
全零 placeholder 38 0.03% 2 0.00% 全部來自 treebuy
同數字重複碼 38 0.03% 2 0.00% 與全零碼重合

7. 來源別數量盤點

7.1 有條碼的 22 個來源

下表按 barcode_rows 由高到低排列。

來源 總列 條碼列 條碼率 不重複條碼 來源內衝突率 200 列數 978/979 列數 全零列數
pxbox 191,674 51,219 26.72% 46,871 7.10% 4 3 0
pxmart_mega 10,200 10,198 99.98% 10,198 0.00% 0 0 0
pxgo 9,906 9,901 99.95% 9,901 0.00% 0 0 0
rakuten 13,463 9,013 66.95% 9,012 0.01% 12 0 0
rakuten-amart 5,838 5,838 100.00% 5,838 0.00% 913 6 0
cosmed 18,711 5,810 31.05% 5,785 0.41% 0 5,810 0
tomods 5,707 5,676 99.46% 5,675 0.02% 22 0 0
carrefour 15,116 5,297 35.04% 5,236 0.82% 45 0 0
jpmed 5,161 4,818 93.35% 4,815 0.06% 0 0 0
dingding 4,451 4,413 99.15% 4,241 4.03% 0 10 0
libaga 4,092 3,570 87.24% 3,505 1.83% 1 0 0
homeda 2,924 2,688 91.93% 2,652 1.21% 0 0 0
treebuy 28,675 2,436 8.50% 2,287 4.59% 2 0 38
yourchance 1,846 1,828 99.02% 1,686 8.42% 0 0 0
ckcare 1,322 1,155 87.37% 999 13.41% 0 0 0
angelbaby 5,472 1,153 21.07% 1,145 0.61% 2 27 0
weixinrx 1,932 796 41.20% 792 0.13% 0 0 0
matsukiyo 705 529 75.04% 527 0.38% 0 0 0
costco 8,866 461 5.20% 461 0.00% 1 0 0
babyez 1,782 173 9.71% 168 1.79% 0 0 0
foodpanda 5,606 55 0.98% 55 0.00% 0 0 0
wholecome 1,907 5 0.26% 5 0.00% 0 0 0

7.2 目前為 0 條碼的 29 個來源

下表按總列數由高到低排列。

來源 總列 條碼列 條碼率
pchome 980,061 0 0.00%
seven11 12,645 0 0.00%
greattree 10,689 0 0.00%
savesafe 7,315 0 0.00%
shopee_cosmed 4,258 0 0.00%
my9 2,939 0 0.00%
yixin 2,191 0 0.00%
shopee_watsons 2,164 0 0.00%
medfirst 2,082 0 0.00%
rakuten-medfirst 1,923 0 0.00%
9city 1,839 0 0.00%
ubereats 1,659 0 0.00%
showba 1,613 0 0.00%
globaldrinks 1,519 0 0.00%
609 1,362 0 0.00%
familymart 1,299 0 0.00%
baopin 1,227 0 0.00%
miacbon 1,068 0 0.00%
shopee_kodomoshops 1,010 0 0.00%
shopee 1,000 0 0.00%
drinks 961 0 0.00%
fukang 830 0 0.00%
jiaho 807 0 0.00%
wellcare 659 0 0.00%
ccdrugstore 622 0 0.00%
ego888 429 0 0.00%
techang 210 0 0.00%
andebio 188 0 0.00%
kingbaby 9 0 0.00%

8. 重疊、命名與重複分布

8.1 來源重疊分布

來源數區間 不重複條碼數 佔比
1 個來源 72,549 77.10%
2 個來源 17,016 18.08%
3 個來源 3,286 3.49%
4-5 個來源 1,176 1.25%
6+ 個來源 74 0.08%

8.2 名稱數分布

名稱數區間 不重複條碼數 佔比
1 個名稱 70,226 74.63%
2 個名稱 17,940 19.06%
3-4 個名稱 5,353 5.69%
5+ 個名稱 582 0.62%

8.3 每個條碼對應列數分布

列數區間 不重複條碼數 佔比
1 列 70,114 74.51%
2 列 17,871 18.99%
3 列 4,242 4.51%
4-5 列 1,685 1.79%
6+ 列 189 0.20%

9. 讀法與限制

10. 依據檔案