所谓的网页探勘(Web mining),主要就是利用文字或资料探勘(text/data mining)的技术,针对网页的特性,自动从网页上撷取、发掘出一些特征与规律(pattern),并希望能应用在各个领域。
为何需要Web Mining?
Web Mining 从字面上来看,简单的说就是从全球资讯网(WWW)的丰富资源中“采矿",挖掘出重要的资讯。随Web快速的成长,世界各地的使用者,根据他们所关心的主题,持续不断地加入并更新各式各样的内容,并以网页的形式整理资料。目前全球被搜寻引擎所索引(index)的网页,已经超过42亿页,这只是冰山的一角,并不包括没有被收录的部分。因此,它已经是世界上最庞大的动态知识来源了。然而,如何从这么丰富的网页资源中撷取、并分析出有用的资讯则是目前主要的研究课题之一。
由于Web是个丰富的动态资源,不论在何种领域都可以找到一定程度的相关资料,因此对于各种型态的资料分析、知识撷取都有很大的助益。但是要在如此庞大的资源中,撷取出真正想要的资料,还真是不太容易。目前常见的做法是透过搜寻引擎,如 Google、Yahoo、Alta Vista等,以关键词查询(query)的方式来搜寻。运作的方式大多是以crawler(spider,搜索器)先尽量将全世界的网页收集下来,然后根据关键词出现的频率及在文件中分布情形,来决定出每个关键词最相关的文件,并依重要性顺序排列。然而,如果关键词太普遍或是不够精确,搜寻结果还是太多,使用者仍像大海捞针一般,无法真正从中找到足够多且有用的相关文件。
从资讯撷取的角度来看,各种方法的目的都希望能提升搜寻的精确度(precision)和召回率(recall),除了希望找到的资讯有更高比例是有用的,更希望所须的资讯都能尽量被找出来。因此,必须将Web 资料做更有效的处理分析。
网页的特性
一般资料探勘所针对的对象是结构化的资料(structured data),通常是储存在资料库(database)中,拥有明确定义、已知栏位的资料。而文字探勘(text mining)则不限定资料来源是资料库,举凡一般非结构化的文字文件(textual document),如新闻报导、报章杂志的文章等,都可能是分析的对象。网页则是一种半结构化资料(semi-structured data),与一般data/text mining不同的是,网页虽有其特殊的连结(link)结构,可以从中取得一些资讯,如网页间的关连(association ),但是每个网页本身的内容并没有限定其呈现方式,它类似文字文件,却又包含各式多媒体资料,因此可能会比一般的文件或资料库更难以撷取出有用的资讯。因此,我们便希望利用网页特性,以及text/data mining既有技术,找出Web中有用的资讯。
Web Mining的架构
目前Web mining技术大致可以分为三类:网页使用探勘(Web Usage Mining)、网页结构探勘(Web Structure Mining),以及网页内容探勘(Web Content Mining),分别针对使用者对网页的存取情形、网页与网页间的连结状况,以及网页内容本身所包含的资料加以分析。以下便分别叙述其架构。
网页使用情形探勘
每天全世界有许多人连上各式各样的网站,与现实社会同样有着种种行为,不论是查询资料、购物、或打发时间。对于经营网站的人而言,尤其是购物网站,对于消费者一定希望有相当程度的了解,以针对需求来提供更符合顾客特性的多样化商品及服务。所以,如果能将所有消费行为加以分析,便可能可以找出一些规律。例如针对上网站的族群、年龄层、职业、区域、商品种类、金额...等,便可进一步掌握消费者心理,提供个人化服务。
又例如在一个公司内部,老板希望了解员工在上班时间都上些什么网站,是否偷偷进行与公事无关的行为,如上网购物、看股票、上成人网站等。经由公司内部Web Usage Mining分析也能一探究竟。
另外,网站管理员可能希望经由网页存取的记录(Web access log),分析出网站的最大负荷、出现的时段,以及使用者来源,并且进一步找出瓶颈甚至发现异常流量或大量存取,以便发觉网路入侵者或是robot的行为。
通常Web Usage Mining的进行方式如(图一)所示。网页的每一个浏览动作在伺服器端必定会留下记录(log),分别记下每一次存取(access)是发生在何时(time)、来自哪里(IP address)、存取了哪个网页。因此第一步先要将伺服器的存取记录(server access log)作前处理(preprocessing),依网页、每台机器、使用者,以及使用者所按下连结的顺序(clickstream data),分别处理以便进一步的分析。第二步发掘规律(pattern discovery)才是真正从中发现规律性,或是规则。最后,进行规律分析(pattern analysis),依据需求分析出有用的规律、规则,或统计数据。
网页结构探勘
网页与网页间的结构,最主要是以超连结(hyperlink)串连起来,如(图二)所示。通常,hyperlink除了指向目的网页的网址(URL)外,还会有一小段文字描述,叫做标示文字(anchor text),用来辅助说明目的网页。通常网页间的连结有几种不同的意义:第一,作者对目的网页表示认同、肯定(endorse)或是推荐(recommend);第二,作者仅只是提供网站连结,纯属参考(reference)之用;第三,可能是常用网站,或是相关讯息,用连结整理方便日后使用。因此,整个WWW便是由网页以及连结所交织而成的网(Web)所构成。
网页与网页间的连结很容易令人联想到一般社会中人际关系的网络(social network):把网页比作个人,把连结比作人与人的关系(如朋友、父子、夫妻、兄弟等) ,其原理是很类似的。社会网路分析(social network analysis)是社会学科被广泛研究的主题,抽象来看,Web的网页及连结其实可以抽象地看成是graph中的节点(node)和连结(link),运用类似的方法,我们可以计算出网页与网页间的关系与相对重要性的排名(ranking)。例如:PageRank [6]和HITS (Hyperlink Induced Topic Search)演算法[5]便是著名的网页排名演算法(ranking algorithm)的例子。简单地说,只要稍微分析一些网页连结情形,便可以发现有些网页是所谓的hub,也就是集中整理了许多相关或重要资讯的地方,例如入口网站(Web portal site)或是网路黄页或目录(yellow page);而有些网页是所谓的authority,即是许多人都一致推荐或参考的网页,例如著名的大公司、重要的机关团体...等都是属于authority。 虽然后来实际的搜寻引擎如Google,并非采用原始的PageRank or HITS演算法,但是基本精神仍然类似。
网页内容探勘
网站的内容是最有弹性、最复杂、却也最丰富的一项资源,除了文字文件(textual document)之外,更可能包含了各式各样多媒体内容。例如:从个人网页中,我们想了解他的兴趣、嗜好、学经历... 等,可以透过网页内容加以分析。又如各公司想得知其他竞争对手的现况,也可以分析公司网页的内容,进一步了解它的主要产品、属性、市场区隔、占有率...等。
网页内容与资料库或一般文件不同的是,作者是来自世界各地的自愿维护者,而且内容随时都有可能更新,因此,网页内容非常多样化(diverse)。但由于来源非常参差不齐(heterogeneous),内容的正确性并无统一机构负责校对或更正,所以网页的内容常常也包含许多杂讯(noise)。如何从庞大,不一致的资料中,抽取出正确或是有用的资讯,也成为目前最主要的挑战。目前常见的方式是透过现有的搜寻引擎,作为最基本的资料取得来源,如(图三)所示。从搜寻结果中,我们再经由进一步的处理、分析,以得到更好的结果。
由于网页内容庞杂,光是内容的分门别类就不是一件容易的事。因此,在网页内容探勘中,最主要的两项关键技术是分类(classification)与分群(clustering)。在机器学习(machine learning)中,一般把这两项技术称为监督式学习(supervised learning)及非监督式学习(unsupervised learning)。
如(图四)所示,分类(classification)的工作主要是先将一些已标记有类别(class)或标签(label)的训练资料(training data),利用机器学习的各种方式,训练出一个足以代表这些资料特性的模型(model)。当一个未知类别的资料进来时,我们可以经由这个模型而“猜出"这项资料的所属类别,这就是分类(classification)。
所谓的监督式学习就是因为学习过程中,先使用已标有正确答案的训练资料训练过了。
另一方面如(图五)所示,分群(clustering)则直接面对一堆杂乱的资料,将相似的资料分在同一群,想办法从中找出规则。由于不须要训练资料,因此又称为非监督式学习。分群又可以分为两种方式:bottom-up及top-down。 Bottom-up是由个别资料逐渐群众而成,最后形成整堆资料;而top-down则是先将整堆资料分为几大群,然后各自再加以细分。这两种技术各有优缺点,也各有适用的情形。
Web Mining的广泛应用
由以上三类架构的介绍,我们可知Web Mining目前的应用相当广泛,不同领域都可应用Web mining 的技术,是一项跨领域应用的技术。首先Web这个最大的知识来源,可以发掘出有用的资讯,进一步提升各领域中原有技术的瓶颈,例如搜寻引擎本身就有许多改进的空间,藉由搜寻结果的Mining,我们可以再改进搜寻引擎本身。而在商业情报(Business Intelligence,BI)和客户关系管理(Customer Relationship Management,CRM)方面,也存在许多应用。例如分析竞争对手、产业动态及市场消长等。 CRM 方面除了对所有顾客加以分析建立user profile之外,也可提供个人化服务。
其他如数位典藏(digital libraries)方面,利用mining技术也使得分类、检索及知识管理上,有许多应用。例如Web mining可以帮忙找到(辞典中未收录的)未知词的翻译,例如新术语、专有名词等。另外,在情报(intelligence)及安全(security)方面,也逐渐有其应用,例如利用网路上的资源,如媒体报导或是深度评论等,分析出恐怖份子及组织的概况,进行反恐(anti- terrorism)的研究。最近在医疗资讯(medical informatics)方面,text/data mining的技术已开始被大量应用,然而在Web knowledge对医疗资讯的帮助上,仍有待观察。
Web Mining的瓶颈与挑战
目前Web Mining技术仍有些瓶颈与挑战,有待突破:
1. 网页呈现方式(presentation)不一致
网页的外观(layout)、主题(thematic)或metadata(栏位)相关资料取得不易,甚至连资料本身都可能难以抽取出来。一般Web 作者可能来自世界各地各行各业,除了格式为HTML之外,网页画面的呈现方式及安排则是每个作者自由发挥,并无统一标准或硬性规定。因此,资料的呈现虽然对使用者很容易一目了然,但是对一个程式来说,在收集资料的困难度自然就提高了。
2. 程式本身背景知识(background knowledge)不足
程式本身依照程式设计师(programmer)所设计的演算法依序执行,但是它在一般人所具备的常识(common sense)或背景知识不足。例如个人网页上可能会显示一个人的基本资料,包括生日、血型、星座、兴趣、学历、经历...等,人们一看便清楚,但是对程式而言,这些栏位本身的意义并无法单独从网页得知,必须另外学习,或由程式设计师赋予意义。
3. 领域知识(domain knowledge)与自然语言理解能力欠缺
由于网页是呈现给人看的,因此,Web上许多资讯是以自然语言的文句所描述的,而且与该内容相关领域的domain knowledge有密切关系。但是对程式而言,自然语言处理(Natural Language Processing,NLP)的技术尚未成熟到足以理解任意自然语言句子的语意,同时对某一特殊领域的知识更是须要补足,这也是另一项挑战。
Web Mining未来趋势与方向
由上述几项挑战,不难看出Web Mining已成为热门技术之一。未来除了继续在网页内容探勘及文字/资料探勘的技术能有所进展之外,发现更多更新的应用仍是这项技术持续进步最主要的动力。如何以电脑程式发展出足以撷取、整理,甚至分析杂乱的网页知识,进而提出有用的建议,更是未来必须突破的挑战。
人工智慧或是全能的机器人也许目标仍远大了些,但是,藉由知识发掘(Web knowledge discovery),电脑还有太多须要学习的“常识",如何教导电脑上网学习,并进而改进其”智能"(Web Intelligence)正是未来极有潜力的方向。但是要有突破性的发展,仍然有赖资料库(Database,DB)、资讯撷取(Information Retrieval,IR)、机器学习(Machine Learning,ML)、人工智慧(Artificial Intelligence,AI)、乃至自然语言处理(Natural Language Processing,NLP)等基础领域技术的持续发展。
(作者任职于中央研究院资讯科学研究所)
参考资料
1. S. Chakrabarti, Mining the Web: Discovering Knowledge from Hypertext Data, Morgan Kaufmann, 2002.
1. Web Mining Resource, http://www.cs.ualberta.ca/~tszhu/webmining.htm
2. U. Y. Nahm, A Roadmap to Text Mining and Web Mining, http://www.cs.utexas.edu/users/pebronia/text-mining/
3. Web Mining Survey - Some Pointers, http://www.cs.umbc.edu/~kolari1/Mining/webmining.html
4. J. Kleinberg, "Authoritative Sources in Hyperlinked Environment," Proceedings of the 9th ACM-SIAM Symposium on Discrete Algorithms, pp. 668-677, 1998.
5. S. Brin and L. Page,"The Anatomy of a Large-Scale Hypertextual Web Search Engine," Proceedings of the 7退货 World-Wide Web Conference (WWW 1998),1998.
|
|
资料探勘(Data Mining)是一项很有趣的资源探索,能够挖掘出有用的资料。如同在矿山里采矿一般,所挖掘出来的结果往往都会令人惊奇不已。相关介绍请见「拥有惊人预测能力的Data
Mining」一文。 |
|
资料探勘是指从大量的资料中,去寻找有用或潜在的资讯或知识,而网路资料探勘(Web
Mining)则是将资料探勘的工作运用在大量的网路资料上,以改进网路上的资讯服务。你可在「网路行为大预测
– Web Mining 」一文中得到进一步的介绍。 |
|
现今所谓的CRM大约分为两类,一为分析式CRM、一为操作式CRM,而分析式之CRM更是操作型的基础,有了资料仓储之基础建设,再往上建置不同系统,将收加乘之效果。
在「如何应用资料仓储发挥CRM效益」一文为你做了相关的评析。 |
|
|
|