账号:
密码:
最新动态
产业快讯
CTIMES / 文章 /
网路行为预测智慧 - Web Mining
 

【作者: 王正豪】2004年10月30日 星期六

浏览人次:【8874】

所谓的网页探勘(Web mining),主要就是利用文字或资料探勘(text/data mining)的技术,针对网页的特性,自动从网页上撷取、发掘出一些特征与规律(pattern),并希望能应用在各个领域。


为何需要Web Mining?

Web Mining 从字面上来看,简单的说就是从全球资讯网(WWW)的丰富资源中“采矿",挖掘出重要的资讯。随Web快速的成长,世界各地的使用者,根据他们所关心的主题,持续不断地加入并更新各式各样的内容,并以网页的形式整理资料。目前全球被搜寻引擎所索引(index)的网页,已经超过42亿页,这只是冰山的一角,并不包括没有被收录的部分。因此,它已经是世界上最庞大的动态知识来源了。然而,如何从这么丰富的网页资源中撷取、并分析出有用的资讯则是目前主要的研究课题之一。


由于Web是个丰富的动态资源,不论在何种领域都可以找到一定程度的相关资料,因此对于各种型态的资料分析、知识撷取都有很大的助益。但是要在如此庞大的资源中,撷取出真正想要的资料,还真是不太容易。目前常见的做法是透过搜寻引擎,如 Google、Yahoo、Alta Vista等,以关键词查询(query)的方式来搜寻。运作的方式大多是以crawler(spider,搜索器)先尽量将全世界的网页收集下来,然后根据关键词出现的频率及在文件中分布情形,来决定出每个关键词最相关的文件,并依重要性顺序排列。然而,如果关键词太普遍或是不够精确,搜寻结果还是太多,使用者仍像大海捞针一般,无法真正从中找到足够多且有用的相关文件。


从资讯撷取的角度来看,各种方法的目的都希望能提升搜寻的精确度(precision)和召回率(recall),除了希望找到的资讯有更高比例是有用的,更希望所须的资讯都能尽量被找出来。因此,必须将Web 资料做更有效的处理分析。


网页的特性

一般资料探勘所针对的对象是结构化的资料(structured data),通常是储存在资料库(database)中,拥有明确定义、已知栏位的资料。而文字探勘(text mining)则不限定资料来源是资料库,举凡一般非结构化的文字文件(textual document),如新闻报导、报章杂志的文章等,都可能是分析的对象。网页则是一种半结构化资料(semi-structured data),与一般data/text mining不同的是,网页虽有其特殊的连结(link)结构,可以从中取得一些资讯,如网页间的关连(association ),但是每个网页本身的内容并没有限定其呈现方式,它类似文字文件,却又包含各式多媒体资料,因此可能会比一般的文件或资料库更难以撷取出有用的资讯。因此,我们便希望利用网页特性,以及text/data mining既有技术,找出Web中有用的资讯。


Web Mining的架构

目前Web mining技术大致可以分为三类:网页使用探勘(Web Usage Mining)、网页结构探勘(Web Structure Mining),以及网页内容探勘(Web Content Mining),分别针对使用者对网页的存取情形、网页与网页间的连结状况,以及网页内容本身所包含的资料加以分析。以下便分别叙述其架构。


网页使用情形探勘

每天全世界有许多人连上各式各样的网站,与现实社会同样有着种种行为,不论是查询资料、购物、或打发时间。对于经营网站的人而言,尤其是购物网站,对于消费者一定希望有相当程度的了解,以针对需求来提供更符合顾客特性的多样化商品及服务。所以,如果能将所有消费行为加以分析,便可能可以找出一些规律。例如针对上网站的族群、年龄层、职业、区域、商品种类、金额...等,便可进一步掌握消费者心理,提供个人化服务。


又例如在一个公司内部,老板希望了解员工在上班时间都上些什么网站,是否偷偷进行与公事无关的行为,如上网购物、看股票、上成人网站等。经由公司内部Web Usage Mining分析也能一探究竟。


另外,网站管理员可能希望经由网页存取的记录(Web access log),分析出网站的最大负荷、出现的时段,以及使用者来源,并且进一步找出瓶颈甚至发现异常流量或大量存取,以便发觉网路入侵者或是robot的行为。


通常Web Usage Mining的进行方式如(图一)所示。网页的每一个浏览动作在伺服器端必定会留下记录(log),分别记下每一次存取(access)是发生在何时(time)、来自哪里(IP address)、存取了哪个网页。因此第一步先要将伺服器的存取记录(server access log)作前处理(preprocessing),依网页、每台机器、使用者,以及使用者所按下连结的顺序(clickstream data),分别处理以便进一步的分析。第二步发掘规律(pattern discovery)才是真正从中发现规律性,或是规则。最后,进行规律分析(pattern analysis),依据需求分析出有用的规律、规则,或统计数据。


《图一 Web Usage Mining流程》
《图一 Web Usage Mining流程》

网页结构探勘

网页与网页间的结构,最主要是以超连结(hyperlink)串连起来,如(图二)所示。通常,hyperlink除了指向目的网页的网址(URL)外,还会有一小段文字描述,叫做标示文字(anchor text),用来辅助说明目的网页。通常网页间的连结有几种不同的意义:第一,作者对目的网页表示认同、肯定(endorse)或是推荐(recommend);第二,作者仅只是提供网站连结,纯属参考(reference)之用;第三,可能是常用网站,或是相关讯息,用连结整理方便日后使用。因此,整个WWW便是由网页以及连结所交织而成的网(Web)所构成。


网页与网页间的连结很容易令人联想到一般社会中人际关系的网络(social network):把网页比作个人,把连结比作人与人的关系(如朋友、父子、夫妻、兄弟等) ,其原理是很类似的。社会网路分析(social network analysis)是社会学科被广泛研究的主题,抽象来看,Web的网页及连结其实可以抽象地看成是graph中的节点(node)和连结(link),运用类似的方法,我们可以计算出网页与网页间的关系与相对重要性的排名(ranking)。例如:PageRank [6]和HITS (Hyperlink Induced Topic Search)演算法[5]便是著名的网页排名演算法(ranking algorithm)的例子。简单地说,只要稍微分析一些网页连结情形,便可以发现有些网页是所谓的hub,也就是集中整理了许多相关或重要资讯的地方,例如入口网站(Web portal site)或是网路黄页或目录(yellow page);而有些网页是所谓的authority,即是许多人都一致推荐或参考的网页,例如著名的大公司、重要的机关团体...等都是属于authority。 虽然后来实际的搜寻引擎如Google,并非采用原始的PageRank or HITS演算法,但是基本精神仍然类似。


网页内容探勘

网站的内容是最有弹性、最复杂、却也最丰富的一项资源,除了文字文件(textual document)之外,更可能包含了各式各样多媒体内容。例如:从个人网页中,我们想了解他的兴趣、嗜好、学经历... 等,可以透过网页内容加以分析。又如各公司想得知其他竞争对手的现况,也可以分析公司网页的内容,进一步了解它的主要产品、属性、市场区隔、占有率...等。


网页内容与资料库或一般文件不同的是,作者是来自世界各地的自愿维护者,而且内容随时都有可能更新,因此,网页内容非常多样化(diverse)。但由于来源非常参差不齐(heterogeneous),内容的正确性并无统一机构负责校对或更正,所以网页的内容常常也包含许多杂讯(noise)。如何从庞大,不一致的资料中,抽取出正确或是有用的资讯,也成为目前最主要的挑战。目前常见的方式是透过现有的搜寻引擎,作为最基本的资料取得来源,如(图三)所示。从搜寻结果中,我们再经由进一步的处理、分析,以得到更好的结果。


由于网页内容庞杂,光是内容的分门别类就不是一件容易的事。因此,在网页内容探勘中,最主要的两项关键技术是分类(classification)与分群(clustering)。在机器学习(machine learning)中,一般把这两项技术称为监督式学习(supervised learning)及非监督式学习(unsupervised learning)。


如(图四)所示,分类(classification)的工作主要是先将一些已标记有类别(class)或标签(label)的训练资料(training data),利用机器学习的各种方式,训练出一个足以代表这些资料特性的模型(model)。当一个未知类别的资料进来时,我们可以经由这个模型而“猜出"这项资料的所属类别,这就是分类(classification)。


所谓的监督式学习就是因为学习过程中,先使用已标有正确答案的训练资料训练过了。


另一方面如(图五)所示,分群(clustering)则直接面对一堆杂乱的资料,将相似的资料分在同一群,想办法从中找出规则。由于不须要训练资料,因此又称为非监督式​​学习。分群又可以分为两种方式:bottom-up及top-down。 Bottom-up是由个别资料逐渐群众而成,最后形成整堆资料;而top-down则是先将整堆资料分为几大群,然后各自再加以细分。这两种技术各有优缺点,也各有适用的情形。


Web Mining的广泛应用

由以上三类架构的介绍,我们可知Web Mining目前的应用相当广泛,不同领域都可应用Web mining 的技术,是一项跨领域应用的技术。首先Web这个最大的知识来源,可以发掘出有用的资讯,进一步提升各领域中原有技术的瓶颈,例如搜寻引擎本身就有许多改进的空间,藉由搜寻结果的Mining,我们可以再改进搜寻引擎本身。而在商业情报(Business Intelligence,BI)和客户关系管理(Customer Relationship Management,CRM)方面,也存在许多应用。例如分析竞争对手、产业动态及市场消长等。 CRM 方面除了对所有顾客加以分析建立user profile之外,也可提供个人化服务。


其他如数位典藏(digital libraries)方面,利用mining技术也使得分类、检索及知识管理上,有许多应用。例如Web mining可以帮忙找到(辞典中未收录的)未知词的翻译,例如新术语、专有名词等。另外,在情报(intelligence)及安全(security)方面,也逐渐有其应用,例如利用网路上的资源,如媒体报导或是深度评论等,分析出恐怖份子及组织的概况,进行反恐(anti- terrorism)的研究。最近在医疗资讯(medical informatics)方面,text/data mining的技术已开始被大量应用,然而在Web knowledge对医疗资讯的帮助上,仍有待观察。


Web Mining的瓶颈与挑战

目前Web Mining技术仍有些瓶颈与挑战,有待突破:


1. 网页呈现方式(presentation)不一致

网页的外观(layout)、主题(thematic)或metadata(栏位)相关资料取得不易,甚至连资料本身都可能难以抽取出来。一般Web 作者可能来自世界各地各行各业,除了格式为HTML之外,网页画面的呈现方式及安排则是每个作者自由发挥,并无统一标准或硬性规定。因此,资料的呈现虽然对使用者很容易一目了然,但是对一个程式来说,在收集资料的困难度自然就提高了。


2. 程式本身背景知识(background knowledge)不足

程式本身依照程式设计师(programmer)所设计的演算法依序执行,但是它在一般人所具备的常识(common sense)或背景知识不足。例如个人网页上可能会显示一个人的基本资料,包括生日、血型、星座、兴趣、学历、经历...等,人们一看便清楚,但是对程式而言,这些栏位本身的意义并无法单独从网页得知,必须另外学习,或由程式设计师赋予意义。


3. 领域知识(domain knowledge)与自然语言理解能力欠缺

由于网页是呈现给人看的,因此,Web上许多资讯是以自然语言的文句所描述的,而且与该内容相关领域的domain knowledge有密切关系。但是对程式而言,自然语言处理(Natural Language Processing,NLP)的技术尚未成熟到足以理解任意自然语言句子的语意,同时对某一特殊领域的知识更是须要补足,这也是另一项挑战。


Web Mining未来趋势与方向

由上述几项挑战,不难看出Web Mining已成为热门技术之一。未来除了继续在网页内容探勘及文字/资料探勘的技术能有所进展之外,发现更多更新的应用仍是这项技术持续进步最主要的动力。如何以电脑程式发展出足以撷取、整理,甚至分析杂乱的网页知识,进而提出有用的建议,更是未来必须突破的挑战。


人工智慧或是全能的机器人也许目标仍远大了些,但是,藉由知识发掘(Web knowledge discovery),电脑还有太多须要学习的“常识",如何教导电脑上网学习,并进而改进其”智能"(Web Intelligence)正是未来极有潜力的方向。但是要有突破性的发展,仍然有赖资料库(Database,DB)、资讯撷取(Information Retrieval,IR)、机器学习(Machine Learning,ML)、人工智慧(Artificial Intelligence,AI)、乃至自然语言处理(Natural Language Processing,NLP)等基础领域技术的持续发展。


(作者任职于中央研究院资讯科学研究所)


参考资料


1. S. Chakrabarti, Mining the Web: Discovering Knowledge from Hypertext Data, Morgan Kaufmann, 2002.


1. Web Mining Resource, http://www.cs.ualberta.ca/~tszhu/webmining.htm


2. U. Y. Nahm, A Roadmap to Text Mining and Web Mining, http://www.cs.utexas.edu/users/pebronia/text-mining/


3. Web Mining Survey - Some Pointers, http://www.cs.umbc.edu/~kolari1/Mining/webmining.html


4. J. Kleinberg, "Authoritative Sources in Hyperlinked Environment," Proceedings of the 9th ACM-SIAM Symposium on Discrete Algorithms, pp. 668-677, 1998.


5. S. Brin and L. Page,"The Anatomy of a Large-Scale Hypertextual Web Search Engine," Proceedings of the 7退货 World-Wide Web Conference (WWW 1998),1998.


延 伸 阅 读
资料探勘(Data Mining)是一项很有趣的资源探索,能够挖掘出有用的资料。如同在矿山里采矿一般,所挖掘出来的结果往往都会令人惊奇不已。相关介绍请见「拥有惊人预测能力的Data Mining」一文。
资料探勘是指从大量的资料中,去寻找有用或潜在的资讯或知识,而网路资料探勘(Web Mining)则是将资料探勘的工作运用在大量的网路资料上,以改进网路上的资讯服务。你可在「网路行为大预测 – Web Mining 」一文中得到进一步的介绍。
现今所谓的CRM大约分为两类,一为分析式CRM、一为操作式CRM,而分析式之CRM更是操作型的基础,有了资料仓储之基础建设,再往上建置不同系统,将收加乘之效果。 在「如何应用资料仓储发挥CRM效益」一文为你做了相关的评析。
相关组织网站
网页探勘相关资源网站
以Perl开发网页探勘技术之网站资源
网页探勘相关出版品
相关文章
出囗管制风险下的石墨替代技术新视野
用Arduino 打造机器人:循迹、弹钢琴、下棋都行!
树莓派推出AI摄影机、新款显示器
智慧充电桩百花齐放
充电站布局多元商业模式
comments powered by Disqus
相关讨论
  相关新闻
» 台达推出5G ORAN小型基地台 实现智慧工厂整合AI应用
» 欧洲航太技术展在德国盛大展开,全球吸睛 镭洋推出卫星通讯整合方案,目标抢占庞大的欧洲卫星商机
» 经济部促成3GPP大会来台争话语权 国内外大厂共商5G/6G新一代技术标准
» 经济部支持跨国研发有成 台欧双方分享B5G~6G规划
» 达梭系统收购IQMS扩展3DEXPERIENCE平台


刊登廣告 新聞信箱 读者信箱 著作權聲明 隱私權聲明 本站介紹

Copyright ©1999-2024 远播信息股份有限公司版权所有 Powered by O3  v3.20.1.HK85L5XP8NQSTACUKP
地址:台北数位产业园区(digiBlock Taipei) 103台北市大同区承德路三段287-2号A栋204室
电话 (02)2585-5526 #0 转接至总机 /  E-Mail: webmaster@ctimes.com.tw