資料品質白皮書
隨著企業的逐漸成長,資料的種類與數量也逐步成長,而從資料中萃取出有用資訊的過程也越來越複雜。而其中資料品質的控管成敗與否,是後端的分析、報表、以及各種指標準確與否的最重要關鍵,我們幾乎可以說,「Garbage-in, garbage-out」這句老話,依然是衡量資料品質的圭臬。 
 
資訊的生命週期

一般而言,資訊的生命週期約莫可以分成下列6個時期: 
 1. 計畫取得:
       這是計畫取得某份資訊的步驟,包括設計欲取得資訊的整體架構(通常是一份Schema)、每個資料表格及資料欄位的清楚定義、設計相關的應用系統、資料庫、資料轉換程序、決定資料歸屬單位等等。
 2. 取得:
正式取得資料,可能的方式包括開始建立資料紀錄、對外購買資訊、或是載入外部檔案。
3. 儲存並分享:
資料儲存起來並供給使用單位使用。最常見的儲存方式是電子式的儲存媒體,或是以檔案夾的方式整理紙本資料;而資料分享的方式,簡單一點的就是透過電子郵件,或是最普遍的,透過網路分享。
4. 維護:
這裡是指資料取得的過程中,需要更新、變更、或是修整;更常見的是需要根據預先設定好的規則去清理或是校正資料,還有根據預先訂好的轉換規則將資料轉換成一致的樣貌;有時候還需要將幾份資料做資料匹配,找出其中的不一致;或是將不同來源卻格式一樣的資料,做必要的合併等等。
5. 應用:
這裡指應用資訊做後續的發揮,如完成某個交易、製作報表或分析、形成KPI或是評分來協助決策、甚至因此啟動某些應變的程序等等。
6. 拋棄:
這部份是指資訊如果已經過期,可能需要將過期資訊存檔備用,有時候甚至要考慮將過期或是錯誤的資訊刪除。

 因此,我們觀察這個資訊的生命週期,有一個非常關鍵的地方,就是資料品質的維持,是資訊是否有還有利用價值的重要因素!而如何具體的賡續執行一個資料品質的計畫,就變成了資料維護單位很重要的課題。

 管制資料品質的步驟

 基本上,我們認為維護資料品質,有以下的步驟:

1. 資料現況描述(Data Profiling)
i、瞭解資料需求以及取得方式:此部分在了解所需資料原有的商業需求為何,並成立專案組織以進行瞭解資料的位置、格式、規格欄位等,以及存取資料的方式。
ii、分析資訊的環境:這裡是要確定所分析的資料與原訂的商業目標相關,並針對資料的來源以及其中可能的轉換進行調查,並確定提供資料以及使用資料的單位及人員,最後建立資料擷取以及後續評估資料品質的計畫。
iii、評估資料品質與影響層面:此部分包含具體評估資料每個欄位的分布狀況以及資料品質,包含:
> 重複性
> 正確性
> 一致性與同步的頻率
> 即時性與可用程度
> 易用性以及可維護性
> 在整體資料庫的涵蓋幅度
> 損壞程度
> 與商業行為的互動程度
另外並在評估資料引進後,對初期/新增的儲存空間的估算,以及對硬體/網路的負載衝擊,甚至對現有資料產出流程的影響等,以評估是否要投入資源進行改善或擴充。
2. 資料稽核(Data Auditing)
i、找出根因:針對不符合原來資料規則的資料,須調查其原因,是否為原有規則已經過期,或是前端的應用系統對資料的把關不嚴。
ii、發展改善計畫:針對已經找到的問題,研擬改善計畫,如更新原有的資料規則,或是修改前端應用系統,針對來源資料的品質做更嚴格的管制。
3. 資料清理(Data Cleansing)
解決問題:這是實際清理目前現有資料中的問題的步驟。根據前述步驟所找出的問題和解決方案,實際以資料轉置(ETL)程序,將資料清理的步驟實做出來,清理出不合規則的資料,交由資料的擁有者(Owner)決定如何更正資料,或透過先期的協調結果,更正錯誤的資料。
4. 資料品質持續監控(Data Quality Monitoring)
設計控制機制:在實做了一輪的資料品質專案後,後續的工作就是持續監控資料品質是否有偏移出原有規則的設定,這需要有特定功能的工具,可以針對欲監控的資料,設定監控規則,針對資料的健康狀況,定期做出報告。
 
以上的作法,可以說是因應資料生命週期標準作法,但是要如何有效率且有效益的執行,除了專職的工作團隊之外,最重要的就是一個擁有以上諸般功能的工具,能讓工作團隊能夠輕鬆的執行資料監控的作業,隨時保持資料的純淨度,才能提高所有報表及分析的可用度和可靠度。