Data Mining探索(下)

 

Data Mining的利器

根據上期在本刊所做的分析,Data mining是一個知識發現的重要過程,需要許多工具來支援。在產學界合作下,近二年有驚人的發展,而各種工具只在某些領域下有特別的效能,也就是說尚無適用所有業種、用途的工具問世。本文介紹一般常用的工具分類,列於表一:

  1. Case-Based Reasoning
  2. Data Visualization
  3. Fuzzy Query and Analysis
  4. Knowledge Discovery
  5. Neural Networks

表一 Data mining分析工具

Data mining tools 定義 代表性產品
Case-based Reasoning 在關聯式資料庫中提供一個Means找出record以發現類似規範的記錄或一般記錄
  1. CBR Express
  2. Esteen
  3. Kate-CBR
  4. The Easy Reasoner
Data Visualization

 

其目標是從不同的角度,讓資訊以圖形方式呈現,讓使用者容易和快速的使用。這工具把不同資料次集合,或不同彙總性資料,讓使使用者快速的了解。 1.Alterian

2.AVS/Express-3.Visualization Edition

4.Axum

5.Discovery

6.SPSS Diamond

7.Visual Insight

 

Fuzzy Query and Analysis 模糊理論積極的承認人主觀性問題的存在,進而以模糊集合來處理不易量化問題,故能找出意想不到的資訊。模糊理論發展的工具能使使用者容易導入既定的標準中,而此種工具最大用途是,當使用者要查核多重標準,以及要改變每一種標準時。
  1. CubiCalc
  2. FuziCalc
  3. FuzzyTECH for business
  4. Quest
Knowledge Discovery

 

這些工具特別設計以便確認那些已存在變數間的顯著關係,也就是當它們有可能多重關係時,特別有用。這些data mining工具能幫助指出巨量變數間的關係,發現盲點創造巨大的商機。
  • Aria
  • Answer tree
  • CART
  • DARWIN
  • Enterprise Miner

    10.DataEngine

Neural Networks

 

 

類神經網路技術的目標是發現與預測資料的關係,它與傳統統計方法的區別是,它可以訓練學習發現的關係,並且可適用於線性與非線性的情況,並可以彌補資料品質較差的情況,而處理出品質不錯的資訊來。
  1. BackPack
  2. BrainMaker
  3. Loadstone
  4. NeuFrame/NeuroFuzzy
  5. Neural network Browser
  6. Neural connection
  7. Neural network Utility
  8. Neuralyst For Excel

 

從表一可以發現資料挖掘技術的多樣化,從傳統分析工具,例如統計迴歸預測模型、資料庫分割、連接分析、偏差偵測等。但是,重要的是這些產品應用新的技術,如類神經網路、機器學習、專家系統等人工智慧的工具,使AI找到新的應用Domain。但是,近年浮現的新技術:遺傳演算法(Ggenetic algroithrms),卻無確切證據顯示在Data Mining工具產品中使用,本文認為遺傳演算法的特性,必然在Data Mining領域中有出色的演出。


遺傳演算法是一種全新的最佳化空間搜尋法,其最初概念是由
John Holland1975年提出,其主要目的如下:1.以嚴密而具象的科學方法解釋自然界中「物競天擇、適者生存」的演化過程。2.將生物界中基因演化重要機制以資訊科學軟體實作模擬。近年來,資訊科技的長足進步,在更快穩定的系統支援下,遺傳演算法被各領域廣泛應用。於是人工智慧領域中的自我學習機制、各類最佳化問題的快速求解,它提供了一種不同以往的思考模式,運用在Data Mining上,可以在巨量資料中快速搜尋、比對、演化出最佳點,並且具有學習機制,可在Data Mining領域綻放光芒。


遺傳演算法是應用演算法的適應函數來決定搜尋的方向,再運用一些擬生物化的人工運算過程,例如選擇
(selection)、複製(reproduction)、交配(crossover)和突變(mutation)等進行演化,週而復始地進行一代一代的演化,以求得一個最佳的結果。它具有強固性(robustness)與求值空間的獨立性(domain independence)。強固性使問題的限制條件降到最低,並大幅提高系統的容錯能力;而求值空間的獨立性則使遺傳演算法的設計單一化,且適用於多種不同性質、領域的問題。因此,利用它於Data Mining領域中,可以發掘出不同的資訊、別人看不出的資訊,必然帶給企業體巨大的商機。遺傳演算法實際運作,非本文主題,然可斷定它必然成為Data Mining的分析利器。


結語

從本文的分析,可知Data Mining技術的導入企業體,它的重點不是資料庫本身,而在於以企業領域為主。現代的企業體經常蒐集了大量資料,包括市場、客戶、供應商、競爭對手以及未來趨勢等重要資訊,但是資訊超載與無結構化,使得企業決策單位無法有效利用現存的資訊,甚至使決策行為產生混亂與誤用。如果能透過資料發掘技術,從巨量的資料庫中,發掘出不同的資訊與知識出來,作為決策支援之用,必能產生企業的競爭優勢。

本文認為人工智慧(AI)可以在Data Mining發揮最大功用。例如,以模糊理論建立推論庫,把企業知識建立決策法則,配合類神經網路具有學習功能,把一些環境變數導入,成為類神經網路的輸入變項,經過學習調整;使模糊決策法則庫能適應環境變遷而調整,則從資料中挖掘寶藏的機會精確度將提高。另外,遺傳演算法(genetic algorithms)的搜尋空間最佳化技術,可以利用它去找尋類神經網路之輸入變數,一決定多少輸入變數與多少網路層,會使網路學習、預測精確度最高。

總之,Data Mining是一個浮現中的新領域。企業應該把焦點集中在商業利益上,而學術界應集中在知識發掘技術與方法論上。企業界建立在投資報酬循環中,應保持資料的品質,設定實際的目標,而利用其淬取智慧有用的資訊,使用於企業過程中,以獲取利益,而這正是Data Mining發展的原動力。(全文完)


回上一頁