CTIMES- 擁有驚人預測能力的Data Mining :Data Mining

│新東西市集│東西講座│影音頻道│出版中心│智動化專區│

元件次系統自動控制

最新動態

【東西講座】1/10 智慧眼鏡風雲再起：重新認識光場顯示技術

產業快訊

整合創新X智造未來TIMTOS 2025 聚焦AI新商機

汽配及移動科技產業，參展熱烈報名中!

CTIMES / 文章 /

擁有驚人預測能力的Data Mining

【作者：程裕翔】 2004年01月15日星期四

瀏覽人次：【7907】

資料探勘（Data Mining）所涵蓋的意思為「從大型和複雜的資料庫中抽取出擁有預測性的隱藏資料」，目前許多企業紛紛開始嚐試著使用這項技術。Data Mining可以讓企業公司輕易地找到有用的資料，也是一項省時省力的技術。

Data Mining簡單說起來，是一個能夠預測未來的趨勢或行為的發展，讓企業能夠佔到先機，及啟動知識的一個工具。Data Mining最大的功用，是在於能夠自動地將資料庫裡過去的有用資料匯集起來，並成為一個個組合（Patterns）；而這些組合會讓系統有效率地預測一些未來所發生的狀況，如此也可使企業有個方向依循，並做出正確的判斷，而這些預測所得的結果往往都會令人感到驚奇不已。

Data Mining更可以安裝在新的產品或系統裡，並加強這些設備的效能。

當把Data Mining安裝在主從式架構的系統或是叢集裡，它能夠自動分析大型資料庫裡的複雜資料，並回答相關的問題，如「哪一個客戶最有可能回應我的廣告信件，為什麼？」等諸如此類的問題。

Data Mining所依靠的技術演化

雖然Data Mining的推出已經有幾年的歷史了，但最近才開始漸漸受到重視。Data Mining是由許多資料庫的技術演變而來，一直到了90年代，這項技術才真正地被Usama Fayyad推了出來。Data Mining並不是憑空出現的系統，而是經過三個過程演化而來，即傳統統計學、人工智慧（Artificial Intelligence，A.I.），及機器自我學習功能（Machine Learning），以下就簡單地介紹三個過程。

傳統統計學

傳統統計學可以說是Data Mining的根源，假如沒有傳統統計學的出現，那麼Data Mining便不可能出現。傳統統計學涵蓋了幾個重要的觀念，如回溯分析學、標準分配計算、標準偏差計算、標準變化計算、分辨分析學、叢集分析學，以及可靠的間隔分析學等。這些觀念不但造成日後進階統計學的出現，更重要的是，Data Mining的核心工具和技術都是以傳統統計學做為其依據。

A.I.

A.I.是Data Mining演化的第二個過程，不過A.I.與統計學的角度並不一樣。A.I.是以模仿人類的行為來計算出統計方面的問題，但因需要大量的電腦處理資源，所以這項技術真正開始大量應用與發展，應是在1980年以後。目前A.I.的技術已經應用到一些高階的產品，例如關聯性連結的資料庫系統（Relational Database Management Systems，RDBMS）

機器自我學習功能

機器自我學習功能簡單來說，就是統計學與A.I.的結合。不過由於A.I.的成本昂貴，且技術不甚純熟，相形之下，機器自我學習的功能就顯得有用許多。機器自我學習的功能比A.I.還多了一份優點，因為A.I.是需要被教導才會有成長的功能。機器自我學習功能則不一樣，它是利用過去的數據與資料來做自我的成長，爾後便能夠累積這些知識而做出令人訝異的分析。目前的Data Mining就是利用機器自我學習的功能來做為基礎。

表一　資料分析技術的演變過程＜資料來源：http://www.thearling.com/index.htm#wps＞

資料分析技術的演變過程

商業疑問範例

解決方案

解決方案的技術

資料蒐集（1960s）

我想知道公司三年來的總收入是多少？

電腦、磁帶、軟、硬碟

回尋檔案、提供簡易式資料

資料查詢（1980s）

我想知道公司於前年五月在美國加州所販售的物品是什麼？

關聯性連結的資料庫、架構性查詢語言（Structure

Query Language，SQL）、ODBC

回尋檔案、提供單層式動態性資料

資料倉儲與決策管理（1990s）

我想知道公司於去年十月在美國洛杉磯所販售的物品是什麼？在舊金山會不會有市場？

線上分析處理系統（On-line

Analytic Processing，OLAP）多重空間資料庫、資料倉儲

回尋檔案、

提供多層式動態性資料

Data Mining（目前）

我想知道公司於下個月在加州所販賣的物品會有何種情況發生？以及為什麼會發生這種情況？

進階數學運算技術、多處理器電腦、大型複雜資料庫

回尋檔案、提供未來式資料

Data Mining與機器自我學習的應用

因為機器能夠從過去的數據或資料來做一個自我學習的功能，而機器與人類不同的地方在於機器會永遠記住這些數據或資料，此後機器就能夠依靠這些數據或資料來對人、事、物做一個精準的分析。

舉例來說，當一間公司使用了Data Mining的技術後，所有職員習性、客戶習性、公司的營業狀況，甚至是整間公司的一舉一動，都會被機器（可能是電腦叢集，也有可能是大型主機或系統）一一記錄下來。

範例一：小王的行程

職員小王早上七點進公司後，馬上開啟電腦工作。小王上午每隔一小時就會休息五分鐘、中午十二點外出吃飯、下午一點回公司繼續上班、下午每一小時就會休息十分鐘，下午五點準時關電腦下班。

小王第一個月從上班到下班之前的所有動作都已被中央處理系統（電腦和資料庫的數據）詳細的記錄下來，並做自我學習的動作。到了第二個月，中央處理系統會使用Data Mining的技術，自動依照小王第一個月的習性來替小王的電腦做適當的規畫。

小王早上七點進公司後，中央處理系統會準時為他開啟電腦。每隔一個小時，中央處理系統就會自動撥放音樂或讓電腦連上新聞網站讓小王能夠輕鬆一下。到了中午十二點，中央處理系統會讓電腦自動進入休眠狀態，一直到下午一點才會再度開啟。下午五點，小王準時下班回家，中央處理系統此時會自動關掉電腦。

範例二：DM公司的規畫

DM是一家販賣化妝品的公司，目前要推出一款新的化妝品，所以公司在月底召開的董事會要決定下半年度所要主打的銷售區域。公司的目標有三個，分別是洛杉磯、紐約、台北。公司董事會透過Data Mining的分析後得知三個結果：

●洛杉磯在下半年度的銷售量會很慘淡，原因是洛杉磯下半年的天氣變得很冷。依照過去大部份的洛杉磯人的習性來看，他們都不太喜歡逛街，所以化妝品的銷售量也會相對地變差。

● 再來是紐約，紐約下半年天氣寒冷，紐約人並不喜歡在寒冷的天氣外出，所以商家的買氣平平，化妝品的銷售量並不會提高多少。

● 最後是台北，台北的天氣並不是那麼地寒冷，且又新成立許多新的商圈，依照台北人的習性來看，假日的買氣會非常地旺盛。所以下半年在台北推出新的化妝品，應該會有非常好的銷售量。

經過Data Mining的分析後，董事會決定主打台北的銷售市場。從一連串的決策過程看來，Data Mining的分析佔了百分之九十九的比例，而百分之一的比例是由董事會決定要或不要主打台北的市場而已。

範例三：小林的直銷客人

小林是一名果汁直銷商人，以前的銷售方法是亂槍打鳥，有客人就拉進來做，效率並不是很彰顯。不過自從小林引用了Data Mining的技術後，對直銷的事業有事半功倍的效果。

小林的做法是，把客戶的名單一一地鍵到資料庫後，再由電腦歸類出每位客戶的個人資料與習性，如住址、電話、年齡，甚至精細到飲食習慣、個人作息時間等。接下來小林再利用Data Mining的技術來預先知道那幾名客戶的成功率大於百分之九十，經過電腦的統計後，列出了可能性最高的客戶名單。於是小林便可依照這些名單來拜訪客戶，充份發揮Data Mining在市場上預知的功能。

由以上幾個例子我們看出Data Mining的技術不只可以做出精準的決策，甚至可以分析個人的習性到不可思議的地步。說不定再過不久，Data Mining完全發揮所有的功能後，所有的決策都只要靠電腦來訂定，完全不需要靠人類了。

《圖一　與現實生活環環相扣的Data Mining　》

資料來源：http://www.anc.ed.ac.uk/sdmiv/

Data Mining的原理

Data Mining的原意就是要在企業大型的資料庫裡找出有用的資料，如同在一座礦山裡，尋著礦脈找出有用的礦物。不過要達成這一個目標，就必須從兩方面著手。一是從廣大的資源中篩選出適當的資源，另一方面就是利用A.I.的能力將有用的資料精準地分析出來。

《圖二　Data Mining的路徑圖　》

資料來源：http://www.it-innovation.soton.ac.uk/research/decision_dm.shtml

模組的技術（Modeling）

這麼強而有力的技術到底是怎麼產生的呢？其實很簡單，這是利用一種被稱為模組（Modeling）的技術。那麼什麼是Modeling呢？Modeling就是將一些已知的資訊應用在未知的資訊上面。

舉例來說，某位探險家想要到百慕達三角尋找沉船的瑪麗皇后號。這名探險家輸入了其它沉船的資料，發現到許多相同噸位的郵輪都在同一地點失蹤，且這些郵輪的航線都差不多一樣，沉沒的日期也很相近。探險家再輸入其它沉船打撈出來的地點，發現到都是在附近的海岸找到沉船的殘骸。經過探險家輸入多項資料後，Modeling會模擬出瑪麗皇后號的路線與沉沒的地點，並畫出一個打撈的方向讓探險家有脈絡可尋。當然，越好的Modeling所繪出來的路線圖也就越精準。

資料倉儲的技術（Data Warehouse）

Data Mining除了需要Modeling做為核心技術外，Data Warehouse更是不可或缺的輔助工具。換句話說，一個完整的Data Mining，必須要整合Data Warehouse進而成為一個有互動功能的商業分析工具。

簡單來說，Data Warehouse是一個巨型的資料庫，國內譯為資料倉儲。目前的Data Mining技術是從外部來整合Data Warehouse，並需要額外的步驟來做資料的輸入、輸出與分析。Data Warehouse與Data Mining是需要做長期性的互動，兩者之間更是需要一個應用程式來簡化複雜的計算方式。Data Warehouse的功用不但能夠大量地儲存企業的資料，更可以提高企業的資料分析與決策能力，例如經營策略、商業騙子的預防，以及新產品的推出等。

線上分析系統（On-Line Analytical Processing，OLAP）

OLAP Server能夠讓終端使用者更容易搜尋Data Warehouse裡的資料。透過OLAP的分析，使用者能夠得到生產線、銷售區域和其它關鍵數據的總結。Data Mining Server則可以整合Data Warehouse和OLAP Server，產生出一個完整的資料分析架構，並透過查詢或顯示的終端軟體來讓使用者得知分析後的結果。假如將使用者換成電腦本身，那麼電腦便能夠利用得到的結果來預測使用者的下一步行動。利用上述，便能夠實現範例一與範例二的情境。

《圖三　Data Mining的架構　》

資料來源：http://www.thearling.com/index.htm#wps

總結

雖然巨型的資料倉儲替企業儲存許多有價與無價的資料，但是對於企業來說時間就是金錢，要是沒有一個好的資料查詢機制，再多的資料只是徒浪費時間罷了。OLAP和關聯性資料庫查詢系統對企業來說是個不錯的選擇，不過當一眛蠻橫地查詢巨型資料庫時，使用者往往都會被大量的查詢結果給淹沒。Data Mining在此時就發揮了作用，它能夠把第一手和濾過的資料呈現在使用者的眼前，所得到的結果往往都會讓人感到驚訝不已。

不過Data Mining的技術不僅僅用在企業的決策裡面，甚至在網路上（有人稱為Web Mining）或如範例一的結合中央處理系統，都可以運用自如。

＜參考資料：http://www.thearling.com/index.htm#wps＞