Databricks 導入與運作規格

日期：2026-03-20 目的：說明 item master 如何對應到 Databricks 的 medallion 分層、Unity Catalog、資料品質規則、表清單、job 切法與發布流程。相關文件：

1. 先講結論

Databricks 的 Bronze / Silver / Gold 很適合套在這個專案，但要分清楚：

Bronze / Silver / Gold
- 是表層級
- 回答資料走到哪一層
item_tier / mapping_tier
- 是記錄層級
- 回答商品或 mapping 成熟到什麼程度

所以正確切法是：

Bronze / Silver / Gold = 表層級
BI / SI = 身份層級
item_tier / mapping_tier = 成熟度層級

2. 建議的 Unity Catalog 結構

第一版建議先用一個 catalog：

item_master

底下三個 schema：

item_master.bronze
item_master.silver
item_master.gold

第一版不要再切太細。
等流程穩定後，再考慮細分成：

item_master.bronze_raw
item_master.silver_core
item_master.silver_review
item_master.gold_master
item_master.gold_serving

3. 各層應該放什麼

3.1 Bronze

Bronze 只放原始資料，不做最終判斷。

建議表：

raw_invoice_lines
raw_channel_master
raw_crowd_submissions
raw_brand_taxonomy
raw_category_taxonomy

原則：

append-only
保留來源欄位與時間欄位
不直接覆蓋舊資料
最多只補 ingestion metadata

3.2 Silver

Silver 是主要工作層。

建議表：

invoice_lines
invoice_name_clusters
cluster_members
evidence_observations
mapping_candidates
candidate_evidence_links
review_tasks
review_answers

這層開始做：

名稱正規化
商家範圍聚類
條碼風險標記
候選生成
證據整合
proposed_mapping_tier
review 任務同步

3.3 Gold

Gold 才放正式可用結果。

建議表：

base_items
sellable_items
item_barcodes
sellable_item_images
mapping_decisions

建議 view：

vw_confirmed_invoice_mapping
vw_sellable_item_master
vw_base_item_master

4. 表責任邊界

4.1 Bronze 的責任

接原始資料
保留來源與時間
不做身份裁決

4.2 Silver 的責任

正規化
聚類
候選生成
提議分級
生成審核任務

4.3 Gold 的責任

管正式商品主檔
管正式 mapping
對外發布

5. `item_tier / mapping_tier` 放在哪層

5.1 Bronze

不建議在 Bronze 正式標 item_tier / mapping_tier。

5.2 Silver

最適合開始標：

mapping_candidates.proposed_mapping_tier

也就是：

規則引擎提議的 tier
AI 提議的 tier
crowd 結果換算後的提議 tier

在 Silver：

mapping_tier 值得先導入
item_tier 可先維持 銅級

5.3 Gold

正式放：

mapping_decisions.mapping_tier
base_items.item_tier
sellable_items.item_tier

6. Data Quality 規則

Databricks expectations 建議分三種處理：

warn
drop
fail

6.1 Bronze

規則	建議處理
非關鍵欄位缺漏	`warn`
`raw_pn` 為空	`warn`
品牌或分類缺失	`warn`
`raw_payload` 無法解析	`fail`
完全沒有來源識別欄位	`fail`

Bronze 原則：

能收就先收
不因內容可疑就過早丟棄

6.2 Silver

規則	建議處理
`normalized_pn` 過短或無意義	`warn`
`brand_hint`、`category_hint` 缺失	`warn`
全零碼、placeholder barcode	`drop`
明確非法條碼格式	`drop`
`cluster_id` 不唯一	`fail`
`candidate_id` 無法連回 cluster	`fail`
`review_answer` 無對應 task	`fail`

6.3 Gold

規則	建議處理
`BI / SI` 代碼格式不合法	`fail`
`item_tier` 非法	`fail`
`mapping_tier` 非法	`fail`
`mapping_decisions` 無對應 `SI`	`fail`
`mapping_tier = bronze`	不發布
高風險條碼未解除阻擋旗標	不發布

7. 發布邊界

不是所有 Gold 表資料都要對外釋出。
建議切兩層：

gold 基礎表
gold serving view

第一版 serving 條件建議：

mapping_tier IN ('silver', 'gold')
sellable_items.status = 'active'
item_tier IN ('silver', 'gold')
無未解除的高風險 blocking_flags

若對外要更保守，可收斂成：

mapping_tier = 'gold'
item_tier IN ('silver', 'gold')

8. Job 切法

第一版不建議做成一個超大 job。
建議拆成 5 類：

Bronze 匯入 job
Silver 正規化與聚類 job
Silver 候選與審核任務 job
Gold 發布 job
監控與稽核 job

若要更明確，建議先建這 8 個 job：

bronze_invoice_ingest
bronze_channel_master_ingest
bronze_crowd_ingest
silver_invoice_prepare
silver_candidate_build
silver_review_sync
gold_master_publish
ops_job_monitor

9. 建議的 task DAG

9.1 主流程

bronze_invoice_ingest
  ↓
silver_invoice_prepare
  ↓
silver_candidate_build
  ↓
silver_review_sync
  ↓
gold_master_publish

9.2 旁路流程

bronze_channel_master_ingest
  ↓
silver_candidate_build

bronze_crowd_ingest
  ↓
silver_candidate_build
  ↓
silver_review_sync

9.3 監控流程

all jobs
  ↓
ops_job_monitor

10. 各 job 的主要責任

10.1 `bronze_invoice_ingest`

寫入 bronze.raw_invoice_lines
不做 cluster
不做候選

10.2 `bronze_channel_master_ingest`

寫入 bronze.raw_channel_master
每次 crawler 主批次完成後觸發或每日一次

10.3 `bronze_crowd_ingest`

寫入 bronze.raw_crowd_submissions
事件驅動或每 15 分鐘批次

10.4 `silver_invoice_prepare`

建 invoice_lines
建 invoice_name_clusters
建 cluster_members
補 brand_hint、category_hint

10.5 `silver_candidate_build`

建 evidence_observations
產生候選 SI
打分
寫 proposed_mapping_tier

10.6 `silver_review_sync`

建立 review task
匯入 AI、crowd、human 回答
更新候選狀態與 backlog

10.7 `gold_master_publish`

寫正式 mapping_decisions
必要時建立或更新 BI / SI
刷新 serving view

10.8 `ops_job_monitor`

監控 job 成功率、延遲、repair run 與 backlog

11. 排程、重跑與回填

11.1 適合排程跑的

bronze_invoice_ingest
bronze_channel_master_ingest
silver_invoice_prepare
silver_candidate_build
gold_master_publish
ops_job_monitor

11.2 適合事件驅動的

bronze_crowd_ingest
silver_review_sync

11.3 重跑原則

每批資料都要有 source_batch_id 或等價批號
Silver 與 Gold 都要做 idempotent 寫入
失敗後優先用 Databricks 的 repair run
不用人工直接改表補資料

11.4 回填分三種

來源回填：先進 Bronze，再跑指定時間窗 Silver
規則回填：不重吃 Bronze，直接重跑受影響的 Silver / Gold
主檔回填：只重跑 gold_master_publish 與 serving view

12. SLA 與監控

第一版可先用保守目標：

發票進 Bronze：T+1h
發票 cluster 更新：T+4h
候選生成完成：T+8h
review answer 反映到候選：T+1h
已確認 mapping 發布到 Gold：T+24h

監控至少要看：

job 成功率
task 成功率
repair run 次數
新增 cluster 數
新增候選數
待審核 queue 大小
新增 Gold mapping 數
mapping_tier 分布
crowd / AI / human 答案衝突率

13. 最小上線組合

如果第一版不想做太大，最少先建：

Bronze

raw_invoice_lines
raw_channel_master

Silver

invoice_name_clusters
evidence_observations
mapping_candidates

Gold

sellable_items
mapping_decisions

這樣已經能開始跑：

發票聚類
候選生成
審核
正式 mapping 發布

14. Unity Catalog、AI 與眾包的角色

14.1 Unity Catalog

最值得用在：

權限
Lineage
審計
資產目錄
標籤與分類

14.2 AI

AI 最適合放在 Silver：

產生候選
提議 mapping_tier
產出 reasons 與 blocking_flags

但 AI 的結果不要直接跳到 Gold。

14.3 眾包

眾包結果也應先落 Silver：

review_tasks
review_answers
evidence_observations

最後由規則與人工推進到 Gold。

15. 官方參考

Medallion architecture
https://docs.databricks.com/aws/en/lakehouse/medallion
Unity Catalog
https://docs.databricks.com/en/data-governance/unity-catalog/index.html
Unity Catalog lineage
https://docs.databricks.com/en/data-governance/unity-catalog/data-lineage.html
Lakeflow Jobs
https://docs.databricks.com/aws/en/jobs/
Configure and edit Lakeflow Jobs
https://docs.databricks.com/aws/en/jobs/configure-job
Configure and edit tasks in Lakeflow Jobs
https://docs.databricks.com/aws/en/jobs/configure-task
Control flow in Lakeflow Jobs
https://docs.databricks.com/aws/en/jobs/control-flow
Jobs system table reference
https://docs.databricks.com/en/admin/system-tables/jobs.html
Databricks Asset Bundles workspace tutorial
https://docs.databricks.com/aws/en/dev-tools/bundles/workspace-tutorial

16. 一句話收尾

這份文件現在同時負責 Databricks 的架構、表、品質規則與 job 切法。
如果要把 item master 落到 Databricks，先看這份就夠了。

Databricks 導入與運作規格

1. 先講結論

2. 建議的 Unity Catalog 結構

3. 各層應該放什麼

3.1 Bronze

3.2 Silver

3.3 Gold

4. 表責任邊界

4.1 Bronze 的責任

4.2 Silver 的責任

4.3 Gold 的責任

5. item_tier / mapping_tier 放在哪層

5.1 Bronze

5.2 Silver

5.3 Gold

6. Data Quality 規則

6.1 Bronze

6.2 Silver

6.3 Gold

7. 發布邊界

8. Job 切法

9. 建議的 task DAG

9.1 主流程

9.2 旁路流程

9.3 監控流程

10. 各 job 的主要責任

10.1 bronze_invoice_ingest

10.2 bronze_channel_master_ingest

10.3 bronze_crowd_ingest

10.4 silver_invoice_prepare

10.5 silver_candidate_build

10.6 silver_review_sync

10.7 gold_master_publish

10.8 ops_job_monitor

11. 排程、重跑與回填

11.1 適合排程跑的

11.2 適合事件驅動的

11.3 重跑原則

11.4 回填分三種

12. SLA 與監控

13. 最小上線組合

Bronze

Silver

Gold

14. Unity Catalog、AI 與眾包的角色

14.1 Unity Catalog

14.2 AI

14.3 眾包

15. 官方參考

16. 一句話收尾

5. `item_tier / mapping_tier` 放在哪層

10.1 `bronze_invoice_ingest`

10.2 `bronze_channel_master_ingest`

10.3 `bronze_crowd_ingest`

10.4 `silver_invoice_prepare`

10.5 `silver_candidate_build`

10.6 `silver_review_sync`

10.7 `gold_master_publish`

10.8 `ops_job_monitor`