商業智慧 (Business Intelligence) 簡介-2 資料匯整階段

資料匯整階段

此階段主要是執行ETL流程與資料倉儲資料之累積。
ETL ( Extract-Transform-Load ) 是建置或累積資料倉儲內容時,對於所需之資料進行擷取、轉換、載入的處理過程,參閱ETL 簡介。而本階段之資料架構有ODS (Operational Data Store) 與資料倉儲,分別說明之:
1. ODS
ODS資料庫之功用為收集前端來源資料,可視為資料經ETL而儲存於資料倉儲的中介過程,原則上可省略。ODS基本上不對資料加工 (由後續ETL執行),亦不執行累積;其功能主要是提供ETL過程之資料來源原貌,以供驗證之用。
2. Data Warehouse
資料倉儲是依據特定目標 (如銀行作業風險管理) 設計、具整合性、資料相對穩定且反映歷史變化的特化資料庫。這樣說明很抽象,也常有人分不清資料倉儲與一般線上交易 (OLTP,On-Line Transaction Processing) 應用系統資料庫之差異,以下列表將二者作一比較,讀友就能對資料倉儲資料庫有較清晰的概念。 
項目
OLTP
操作型資料庫
Data Warehouse
分析型資料庫
 
 
目標
特定的業務應用,如進銷存、人資作業型CRM系統等;
可視為企業前端資料之輸入、處理與保存 (企業「資料-->資訊」的過程)。
將企業OLTP資料庫整合而執行特定的分析應用,如分析型CRM、作業風險管理等;
可視為對企業前端資料所作之後端整合 (企業「資訊-->智慧」的過程)。
 
整合性
通常是每套系統各自管理所屬之資料庫,視需要與其他系統作資料交換。 通常是整合至少數個OLTP或其他資料源,以便後續進行分析。
 
 
資料異動
與累積
各系統持續更新線上資料,並累積一段 (較短) 時間。
其功能為保持線上資料於該時段之「現貌」。
持續累積各資料源資料,並保存較長之時間。基本上資料載入後即不再修改。
其功能為反映資料之「異動歷史」 (例如某資料採日累積,連續10年,資料倉儲即呈現了該資料10年之每日異動紀錄)。
 
運作特性
小量資料之頻繁即時異動;
交易型資料庫。
通常是採批次方式將資料載入或讀取,處理之資料量大;
分析型資料庫。

由上表之比較可知,OLTP資料庫需負擔7x24大量小資料之頻繁I/O,重點在即時回應;而資料倉儲資料庫則是要於設定時段一次處理大量資料,重點在巨量資料之處理效能。因此為因應巨量資料的處理,有別於multi-purpose OLTP應用,市場上有資料倉儲專業資料庫產品推出,例如知名的Teradata。

資料倉儲的規模並無標準,可大可小;若經專業評估後,為免維護數個資料倉儲,理論上企業也可以建置單一整合的企業資料倉儲 (EDW,Enterprise Data Warehouse)。

Back to > BI系統架構

Go to > 資料分析階段

Go to > 資料呈現階段與BI應用