目前许多电脑软体结合了网路伺服器(server)和资料库(database)所记录的网站访客上网资料或网站消费者的交易资料,提供「统计性质」的汇总报表,例如,加总来自不同入口网站的访客数目,可以提供资讯让网站经营者了解,哪一个入口网站带来的访客最多,或者计算不同的产品在网站上所得到的利润(ROI)有多少,让网站经营者知道哪一项产品在网站上卖得最好等等,这些报表提供历史资料累计和加总的功能,有助于了解过去经营的情况,而网际探勘(Web Mining)则是帮助经营者来进行决策性的判断。
资料探勘(data mining)
资料探勘(data mining)是一项电脑应用领域的新名词,当人类还在茹毛饮血的上古时代早已进行着资料探勘的行为,为了快速准确捕获大量猎物,人类的祖先必须细心观察猎物的习性,并预测猎物的行为,才能战胜猎物,存活下去。同样的,在讲究即时,竞争激烈的网路时代,如果能事先破解消费者在网路上的行为模式,这将会是赢得电子商务的关键因素之一。资料探勘通常是离线(Off-line)产生模式,但模式产生后则可应用于即时系统(注一)。
资料探勘与统计的不同处
资料探勘着重在「辨识模式(pattern recognition)」上,这不同于一般使用统计的目的,举例来说,假如你在网路上贩卖辣椒酱,统计可以帮助你加总过去销售的资料,像是每月的销售总额,女性和男性消费者个别在本月的消费总额,来自不同网域的消费者在本月的消费总额,不同年龄层的消费者在本月的消费总额等等,而资料探勘工具可以透过过去所有消费者在网站上留下的资料,综合过滤后,发现像(表一)一样的规则:
因此只要有符合上述规则的访客进入你的网站,你就可以得到一个结论:他会购买辣椒酱的机率很高。如此一来就可以掌握在你的网站上消费机率较高的顾客,进行各项关联式行销方法(个人式的电子邮件,个人式的网站广告...)
资料探勘的技术
目前资料探勘的技术可以利用各种的电脑应用领域的人工智慧方法:遗传基因法(Genetic Algorithms),类神经网路(Neural Networks),模糊理论(Fuzzy Logic) 或Case-Based Reasoning等等,不管用哪一方法最终的目的都是要找出消费者的消费行为模式(consuming behavior patterns),再利用这个模式进行目标市场行销(target marketing),因此可以将模式放入网路伺服器,与伺服器的网页结合,每当有符合模式内某个规则的访客进入网站,就产生对应的行销手法,或者将模式放入邮件伺服器,针对不同的族群消费者寄送不同的电子邮件等。 (图一)为使用资料探勘的过程:
资料探勘应用范例-消费者行为模式
资料探勘通常是离线(off-line)产生模式,因此必须先从网站伺服器的下载所有有关的资料(会员基本档案、会员网上消费档、会员网上行为档、伺服器log档等.. .),资料会经过两个步骤:
1.汇整和筛选:这个步骤会将来自不同档案的资料汇总成一笔笔以会员为主体的资料记录,汇整中若发现资料记录中有资料错误或遗漏的地方,就要加以补正(例如,消费者没有在网站上采买任何商品,资料记录中可能出现空格,因此必须填上预设值;或者原本是整数的资料栏位出现文字,就必须加以改正),接着剔除和模式无关的资料项( column)(例如,找寻消费者消费行为模式,消费者的身分证号码与消费行为模式无关,因此就要剔除这项资料)。
2.正规化的过程:将资料编译成资料探勘工具得以接受处理的格式,一般资料探勘工具通常只处理数值性的资料,所以文字性的资料要事先做转换的工作。
不同的资料探勘工具会应用不同的技术(Genetic Algorithm,Neural Network...),产生的结果也会因不同的应用对象而不同,产生给伺服器的结果应为可结合的元件软体,产生给企划人员的结果应为可理解的叙述性规则,例如会员资料如(表二),则消费者行为模式的分析如(表三):
谁可以从中获利?
资料探勘可以从大量的历史资料中找出超值的行销资讯。也许很多人会问:我们现在有一些资料,但是可以从里面得到什么有用的资讯呢?以下举一些例子让您知道我们可以从不同的资料为您做些什么事:
1.如果您知道谁是您的顾客,他们所在地区、年龄、性别…等个人资料,以及何时花了多少钱买什么商品的记录,资料探勘就可以帮您:
●建立行销模式实践个人化行销,给不同的顾客适合的产品及服务,贴心的服务还能让您的顾客自动帮您做「口水行销」,好的口啤传千里,带来更多的商机。
●建立潜在客户的名单,协助您决定该联络多少潜在客户才可以让投资报酬率最高,并产生最好的潜在客户名单。
●将市场区隔利用易懂的规则来描述(像是低于35岁及年收入100万元以上),如此您可以很快地知道那些顾客是您最重要的利润来源。
2.如果您有记录顾客对您销售活动的反应(有或没有回应),那么资料探勘就可以帮助您:
●利用个人资料及销售状况与其它资讯来产生行销模式,以能精确地预测潜在客户回应行销活动的可能性。
●运用此模式到邮寄名单来排名,决定您需要联络多少潜在客户并从您最佳的潜在客户产生新的名单。
●确认对最佳客户与潜在客户最具代表性的变数
●快速区隔市场,确定那些才是最有利的目标市场
3.如果您知道那些顾客已经不再消费或一段时间没消费了,您就可以建立行销模式来预测目前有那些顾客可能会跑掉。您可以使用这些讯息来留住最好的顾客或是成为筛选潜在客户的依据。
资料探勘使用的技术
决策树(Decision Tree)
决策树是一项建立分类模式(classification models)的方式之一,针对给定的资料利用归纳的方式产生树状结构的模式。为了要将输入的资料分类,决策树的每一个节点即为一个判断式,判断式针对一个变数去判断输入的资料大于或等于或小于某个数值,每一个节点因而可以将输入的资料分成若干类。
决策树不一定比其他模式建立的技术来的准确,但与其他技术相比,决策树很容易让人了解,因此大为有用,举例来说,决策树常用来找寻购买特定产品的顾客类别,由于决策树可以让使用者立刻得到可以理解的结果,使用者便可利用这项结果进行后续动作。
类神经网路(Neural Network)
类神经网路(Neural Networks)是指模仿生物神经网路的资讯处理系统,它使用大量简单而相连的人工神经元(Neuron)来模拟生物神经网路的能力。由于类神经网路具有高速运算、记忆、学习与过滤杂讯、容错等能力,因此能够解决许多复杂的分类、预测等问题。
像从前精明的店员只要看看顾客的穿着、打扮大概就可以猜到给这顾客什么样的产品就是八九不离十了,如(图二)。现在网上开店不太可能再去请店员来处理这些事了,但是服务依旧是重要的,我们需要一种工具或技术可以协助我们做到,类神经网路就可以当起店员的角色,如(图三)。
《图二 传统商店高级销售员,一看就知道该给那个顾客那样商品》 |
|
《图三 网上新型销售员,会员一进站马上知道该上那号餐》 |
|
基因演算法(Genetic Algorithms)
基因演算法(Genetic Algorithms)是一种新的资料探勘技术,它通常实际被应用于为实体的经销商来做商店的设计与后勤的安排,也常常与类神经网路这样技术来做结合的应用。在美国的Wal-Mart与Amazon就分别利用它来做仓管与网站经销的最佳化。它是一种最佳化空间搜寻法,其最初概念是由John Holland于1975年提出,其主要目的如下:
1.以严密而具象的科学方法解释自然界「物竞天择、适者生存」的演化过程。
2.将生物界中遗传演化重要机制以资讯科学软体实作模拟。
由达尔文进化论的观点来看,物种靠不断的演化而产生最适合生存的下一代。基因演算法即是由此一论点出发,模拟自然界的演化方式,对既定问题求取最佳解。它是应用演算法的适应函数来决定搜寻的方向,再运用一些拟生物化的人工运算过程,例如选择(selection)、复制(reproduction)、交配(crossover)和突变(mutation)等进行演化,周而复始地进行一代一代的演化,以求得一个最佳的结果。而许多的实验证明,基因演算法系一兼重效率与效能的搜寻方法,且可被广泛的应用在许多的问题上。
在网站的实际应用中,使用基因演算法可以帮助店家来设计他们整个的产品与服务的虚拟商店,而这种情形就像是实际的商店对他们的存货来做管理一样,故利用基因演算法在电子商务中做网站设计是最有效益的。例如,如何提供最佳的产品线组合来刺激使用者去点选广告?怎样的网页安排与顺序可以带来最多的收益?怎样的网页内容安排可以达到最高的点选率?或者是怎样的产品组合可以为网站增加收益?
达到最大的广告效果
怎样的网页广告在版面的安排上可以造成使用者的点选率最高,是网站经营者最关心的。为使整体的广告点选率高,网页的广告配置最佳化的安排就很重要,安排的愈好广告的效益愈大。
达到最佳促销效果
促销的商品种类众多,如何在有限的页面中去陈设这些商品的安排,以达到使用者购买率最高,进而获得更高的销售金额,故促销专区之商品陈设安排最佳化将可以达到最佳的促销效果。
案例式推理(Case-Based Reasoning)
案例式推理(Case-Based Reasoning, CBR)是透过改编那些解决旧问题的方法来尝试解决新问题,也就是利用寻找相似案例的推理法,找到解决旧问题的方法来适用于解决新的问题。例如早晨开车上班遇到塞车,我们会根据以前曾走过不塞车的路线来绕道,或者尝试走一条不曾走过的路线,如果没有遇到塞车,那么我们便会将这一条路线记忆下来,下次遇到相似情况塞车,我们便可以尝试此路线避开塞车的情况。CBR的概念也就是这样的想法而产生的,故它可以依据过去的经验案例来帮我们推理新案例的发展情形,故是一个不错的资料探勘技术。
案例推理的作法是首先先做一问题的描述(Presentation),再从Case-Base中找出最类似的Case(Retrieval),即使挑选出最类似的Case也不可能完全相同,故要依照Case的Solution再作调整(Adaptation),再将调整出的结果与使用者或大环境来证实(Validation/Test),如果适当,则被证实的结果将会被增加到Case-Base中(Feedback)。故案例推理它是一种较接近真实人类决策的过程,它可以自动的合并新的知识到现存的知识库,创造Case-base是比创造Knowledge-base快速,而且它的速度很快,不需等所有Case都建置好才能使用,故其也不需要了解先前的Solution为什么成功,是一个在概念上也容易被接受的资料探勘技术。
在案例式推理的概念应用于电子商务的网站经营上,我们可以经由对应过去使用者的回应来推测新使用者的行为,例如「根据以往的案例显示,使用者会点选这个网站」,故CBR蛮适用于为使用者提供服务上,使网站经营者更了解使用者的行为趋向。
判断新商品的市场接受度
在新商品的推出之际,为了能够得知新商品的市场接受程式度,故我们就可以藉由以前案例的推论或是利用学习经验法则来预测顾客是否会购买该新商品,以决定新商品的推出与否。
推测新广告的推出顾客是否有兴趣
网站经营者可以藉由预估新广告的点选率来与过去的经验做衡量,推测出新广告的推出使用者是否会点选,以决定新广告的推出与否。
资料探勘的方法有很多,每一种都有其适用的时机,而我们考量的主轴是如何解决实际电子商务会遇到的问题,只有解决问题才是我们的重点,创造最高利润更是我们不断努力的目标。并且对不同的管理者与分析人员提供适用的报表。做预估就一定会有误差,世上没有百分之百的预测模式,但为了因应环境复杂,竞争快速的网路成长,具有一个能找出模式的利器,就能拥有更多的胜算把握。
结语
资讯时代的竞争,瞬息间就会产生相当大的变化。资讯的洪流引导着网际网路的发展,网站的经营也是一样;时时刻刻有网站成立,分分秒秒之间更有无数的网站消失。有人如此形容未来网站的数量,将有如天上的繁星,多的数不完。如果这句话是真的,那网站该怎样经营才会是最亮的一颗星? 网站经营成功之道并没有捷径可言,企业主拥有网站分析工具,如同聘请一位专业的经理人参与网站的经营;这只是开始,Internet这条路上还有一段需要披荆斩棘的路等待你我的开拓。在随时整理历史、分析统计之余,应当善用资讯预测将来,及早规划网站的经营走向,否则任何毫无依据的网站经营策略,终将会引导网站走向淘汰与失败的一方。有心经营网站的企业主,不可不慎哪!
(作者任职于发现者国际)
备注
注一:例如在高互动性的电子商务网站中,则可利用所产生的模式来做即时互动行销。