有一點很重要的是,沒有一種 Data Mining 的工具可以應付所有的要求。對於某一種問題,資料本身的特性會影響你所選用的工具,所以可能會需要用到許多不同的工具以及技術從資料中找到最佳的模式。Classification 模式是最常使用的模式,所以在這裡我們就來介紹建立這種模式的一些常見的方法。
Neural Nets 使用許多參數(每個參數代表 Net 上的一個 Node)來建立一個模式,這個模式接受一組輸入值來預測出一個連續值或分類值。每一個節點(Node)都是一個函數,這個函數是使用輸入該節點的相鄰節點值的加權總和(Weighted Sum)做運算。
在建立一個模式的過程中,我們要用一些資料來 '餵' 給這個網路,'訓練' 它來找到一組能夠產生最佳輸出結果的加權值(Weights)。有一種最常用的 '訓練法' 稱為 Back-Propagation,它是把輸出結果與一個已知的正確結果相比。每次相比之後就產生另一組調整過的 Weights,然後再產生一個新的輸出值再與該已知值相比。這個過程經過反覆的執行後,這個 Neural Net 就被 '訓練' 得能夠相當正確的做預測了。
可是 Neural Net 有兩個問題。首先,Neural Net 最受質疑的是它的 '曖昧不明 ' 的特性,也就是它做的預測所根據的因素並不明確。第二,Neural Net 對測試資料可以做相當正確的預測,但是對真實資料預測的準確性則較差。但是現在已經有一些新的技術可以改正這個缺點。 Decision Tree 則是利用一系列的規則來得到一個類別或數值。例如,你想把申請貸款的人歸類成 '風險高' 與 '風險低' 兩種,Fig. 2 顯示了一個可以解決這個問題的簡單的 Desicion Tree。有了這個 Desicion Tree,銀行的放款人員就可以審查申請人的條件,決定該人是屬於高風險或低風險群。例如 '收入高於40000' 而且 '高負債' 的人會被歸為高風險之類,而 '收入低於40000' 而且 '工作超過5年' 則會被歸為低風險之類。 Desicion Tree現在相當普遍,因為它所做的預測相當正確,而且又比 Neural Net 容易瞭解。 Desicion Tree 與 Neural Net 也可以用來做 Regression,某些種類的 Neural Net 甚至可以用來做 Clustering。IBM 的 Intelligent Miner 可支援 Decision Tree 以及 Neural Net。
客戶關係管理包含忠誠度與客群流失管理等。我們可以由一些原本是我們的客戶,後來卻轉而成為我們競爭對手的客戶群中,分析他們的特徵,再根據這些特徵到現有客戶資料中找出有可能轉向的客戶,然後公司必須設計一些方法將他們留住,因為畢竟找一個 新客戶的成本要比留住一個原有客戶的成本要高出許多。
其實只要能夠建立有效的模型,Data Mining 可以達成許多不同面向的應用。因此近來電話、信用卡、保險公司對於詐欺行為的偵測 (Fraud Detection),財務金融業分析市場動向並預測個別公司的營運以及股價走向,醫療業預測疫情、照護資源或是流程控制的效率,以及各種產業所需的信用/作業風險評估等等。