資料探勘 (Data Mining) 簡介-2 Data Mining的技術與應用
資料探勘Data Mining的技術與工具

有一點很重要的是,沒有一種 Data Mining 的工具可以應付所有的要求。對於某一種問題,資料本身的特性會影響你所選用的工具,所以可能會需要用到許多不同的工具以及技術從資料中找到最佳的模式。Classification 模式是最常使用的模式,所以在這裡我們就來介紹建立這種模式的一些常見的方法。

Classification 通常會牽涉到兩種統計方法:Logistic Regression 以及 Discriminant Analysis。然而因為 Data Mining 已漸普遍,所以 Neural Nets 以及 Decision Tree 也漸漸受到採用。雖然這些統計方法本身都十分複雜,但使用者並不會牽涉到這些繁雜的統計。

Neural Nets 使用許多參數(每個參數代表 Net 上的一個 Node)來建立一個模式,這個模式接受一組輸入值來預測出一個連續值或分類值。每一個節點(Node)都是一個函數,這個函數是使用輸入該節點的相鄰節點值的加權總和(Weighted Sum)做運算。

在建立一個模式的過程中,我們要用一些資料來 '餵' 給這個網路,'訓練' 它來找到一組能夠產生最佳輸出結果的加權值(Weights)。有一種最常用的 '訓練法' 稱為 Back-Propagation,它是把輸出結果與一個已知的正確結果相比。每次相比之後就產生另一組調整過的 Weights,然後再產生一個新的輸出值再與該已知值相比。這個過程經過反覆的執行後,這個 Neural Net 就被 '訓練' 得能夠相當正確的做預測了。

可是 Neural Net 有兩個問題。首先,Neural Net 最受質疑的是它的 '曖昧不明 ' 的特性,也就是它做的預測所根據的因素並不明確。第二,Neural Net 對測試資料可以做相當正確的預測,但是對真實資料預測的準確性則較差。但是現在已經有一些新的技術可以改正這個缺點。 Decision Tree 則是利用一系列的規則來得到一個類別或數值。例如,你想把申請貸款的人歸類成 '風險高' 與 '風險低' 兩種,Fig. 2 顯示了一個可以解決這個問題的簡單的 Desicion Tree。有了這個 Desicion Tree,銀行的放款人員就可以審查申請人的條件,決定該人是屬於高風險或低風險群。例如 '收入高於40000' 而且 '高負債' 的人會被歸為高風險之類,而 '收入低於40000' 而且 '工作超過5年' 則會被歸為低風險之類。 Desicion Tree現在相當普遍,因為它所做的預測相當正確,而且又比 Neural Net 容易瞭解。 Desicion Tree 與 Neural Net 也可以用來做 Regression,某些種類的 Neural Net 甚至可以用來做 Clustering。IBM 的 Intelligent Miner 可支援 Decision Tree 以及 Neural Net。

 

資料探勘Data Mining的應用
Data Mining 對企業而言是策略性決策的一環,將之列為營運資訊而保護,故少有公司願意詳細公開其 Data Mining 過程。傳統上 Data Mining 的應用主要在市場推廣與客戶關係的管理。 
 
市場推廣基本上是精準行銷,包括Customer Profiling、Targeted Marketing以及 Market-Basket Analysis。在 Customer Profiling 方面,我們希望找出客戶的一些共同的特徵,藉此預測何者可能成為我們的客戶,以助鎖定正確的行銷對象。Targeted Marketing 可以從現有客戶資料中找出他們的特徵,再利用這些特徵到潛在客戶資料庫裡去篩選出可能成為我們客戶的名單,作為行銷人員推銷的對象;因為只針對這些名單寄發廣告資料,可以降低成本,也提高成功率。Market-Basket Analysis 主要是用來幫助零售業者瞭解客戶的消費行為,譬如哪些產品客戶會一起購買,或是客戶在買了某一樣產品之後,在多久之內會買另一樣產品等等。利用 Data Mining,零售業者可以更有效的決定進貨量或庫存量,或是在店裡要如何擺設貨品,同時也可以用來評估店裡的促銷活動的成效。

客戶關係管理包含忠誠度與客群流失管理等。我們可以由一些原本是我們的客戶,後來卻轉而成為我們競爭對手的客戶群中,分析他們的特徵,再根據這些特徵到現有客戶資料中找出有可能轉向的客戶,然後公司必須設計一些方法將他們留住,因為畢竟找一個 新客戶的成本要比留住一個原有客戶的成本要高出許多。

其實只要能夠建立有效的模型,Data Mining 可以達成許多不同面向的應用。因此近來電話、信用卡、保險公司對於詐欺行為的偵測 (Fraud Detection),財務金融業分析市場動向並預測個別公司的營運以及股價走向,醫療業預測疫情、照護資源或是流程控制的效率,以及各種產業所需的信用/作業風險評估等等。

Back to > Data Mining的功能與方法