网路行为预测智慧

│新东西市集│东西讲座│影音频道│出版中心│智动化专区│

元件次系统自动控制

最新动态

产业快讯

叁观登记┃10/2-4能源周与净零永续展

不要错过2024台北国际电子展！

CTIMES / 文章 /

网路行为预测智慧－ Web Mining

【作者：王正豪】2004年10月30日星期六

浏览人次：【9204】

所谓的网页探勘（Web mining），主要就是利用文字或资料探勘（text/data mining）的技术，针对网页的特性，自动从网页上撷取、发掘出一些特征与规律（pattern），并希望能应用在各个领域。

为何需要Web Mining？

Web Mining 从字面上来看，简单的说就是从全球资讯网（WWW）的丰富资源中“采矿"，挖掘出重要的资讯。随Web快速的成长，世界各地的使用者，根据他们所关心的主题，持续不断地加入并更新各式各样的内容，并以网页的形式整理资料。目前全球被搜寻引擎所索引（index）的网页，已经超过42亿页，这只是冰山的一角，并不包括没有被收录的部分。因此，它已经是世界上最庞大的动态知识来源了。然而，如何从这么丰富的网页资源中撷取、并分析出有用的资讯则是目前主要的研究课题之一。

由于Web是个丰富的动态资源，不论在何种领域都可以找到一定程度的相关资料，因此对于各种型态的资料分析、知识撷取都有很大的助益。但是要在如此庞大的资源中，撷取出真正想要的资料，还真是不太容易。目前常见的做法是透过搜寻引擎，如 Google、Yahoo、Alta Vista等，以关键词查询（query）的方式来搜寻。运作的方式大多是以crawler（spider，搜索器）先尽量将全世界的网页收集下来，然后根据关键词出现的频率及在文件中分布情形，来决定出每个关键词最相关的文件，并依重要性顺序排列。然而，如果关键词太普遍或是不够精确，搜寻结果还是太多，使用者仍像大海捞针一般，无法真正从中找到足够多且有用的相关文件。

从资讯撷取的角度来看，各种方法的目的都希望能提升搜寻的精确度（precision）和召回率（recall），除了希望找到的资讯有更高比例是有用的，更希望所须的资讯都能尽量被找出来。因此，必须将Web 资料做更有效的处理分析。

网页的特性

一般资料探勘所针对的对象是结构化的资料（structured data），通常是储存在资料库（database）中，拥有明确定义、已知栏位的资料。而文字探勘（text mining）则不限定资料来源是资料库，举凡一般非结构化的文字文件（textual document），如新闻报导、报章杂志的文章等，都可能是分析的对象。网页则是一种半结构化资料（semi-structured data），与一般data/text mining不同的是，网页虽有其特殊的连结（link）结构，可以从中取得一些资讯，如网页间的关连（association ），但是每个网页本身的内容并没有限定其呈现方式，它类似文字文件，却又包含各式多媒体资料，因此可能会比一般的文件或资料库更难以撷取出有用的资讯。因此，我们便希望利用网页特性，以及text/data mining既有技术，找出Web中有用的资讯。

Web Mining的架构

目前Web mining技术大致可以分为三类：网页使用探勘（Web Usage Mining）、网页结构探勘（Web Structure Mining），以及网页内容探勘（Web Content Mining），分别针对使用者对网页的存取情形、网页与网页间的连结状况，以及网页内容本身所包含的资料加以分析。以下便分别叙述其架构。

网页使用情形探勘

每天全世界有许多人连上各式各样的网站，与现实社会同样有着种种行为，不论是查询资料、购物、或打发时间。对于经营网站的人而言，尤其是购物网站，对于消费者一定希望有相当程度的了解，以针对需求来提供更符合顾客特性的多样化商品及服务。所以，如果能将所有消费行为加以分析，便可能可以找出一些规律。例如针对上网站的族群、年龄层、职业、区域、商品种类、金额...等，便可进一步掌握消费者心理，提供个人化服务。

又例如在一个公司内部，老板希望了解员工在上班时间都上些什么网站，是否偷偷进行与公事无关的行为，如上网购物、看股票、上成人网站等。经由公司内部Web Usage Mining分析也能一探究竟。

另外，网站管理员可能希望经由网页存取的记录（Web access log），分析出网站的最大负荷、出现的时段，以及使用者来源，并且进一步找出瓶颈甚至发现异常流量或大量存取，以便发觉网路入侵者或是robot的行为。

通常Web Usage Mining的进行方式如(图一)所示。网页的每一个浏览动作在伺服器端必定会留下记录（log），分别记下每一次存取（access）是发生在何时（time）、来自哪里（IP address）、存取了哪个网页。因此第一步先要将伺服器的存取记录（server access log）作前处理（preprocessing），依网页、每台机器、使用者，以及使用者所按下连结的顺序（clickstream data），分别处理以便进一步的分析。第二步发掘规律（pattern discovery）才是真正从中发现规律性，或是规则。最后，进行规律分析（pattern analysis），依据需求分析出有用的规律、规则，或统计数据。

《图一 Web Usage Mining流程》

网页结构探勘

网页与网页间的结构，最主要是以超连结（hyperlink）串连起来，如(图二)所示。通常，hyperlink除了指向目的网页的网址（URL）外，还会有一小段文字描述，叫做标示文字（anchor text），用来辅助说明目的网页。通常网页间的连结有几种不同的意义：第一，作者对目的网页表示认同、肯定（endorse）或是推荐（recommend）；第二，作者仅只是提供网站连结，纯属参考（reference）之用；第三，可能是常用网站，或是相关讯息，用连结整理方便日后使用。因此，整个WWW便是由网页以及连结所交织而成的网（Web）所构成。

网页与网页间的连结很容易令人联想到一般社会中人际关系的网络（social network）：把网页比作个人，把连结比作人与人的关系（如朋友、父子、夫妻、兄弟等），其原理是很类似的。社会网路分析（social network analysis）是社会学科被广泛研究的主题，抽象来看，Web的网页及连结其实可以抽象地看成是graph中的节点（node）和连结（link），运用类似的方法，我们可以计算出网页与网页间的关系与相对重要性的排名（ranking）。例如：PageRank [6]和HITS （Hyperlink Induced Topic Search）演算法[5]便是著名的网页排名演算法（ranking algorithm）的例子。简单地说，只要稍微分析一些网页连结情形，便可以发现有些网页是所谓的hub，也就是集中整理了许多相关或重要资讯的地方，例如入口网站（Web portal site）或是网路黄页或目录（yellow page）；而有些网页是所谓的authority，即是许多人都一致推荐或参考的网页，例如著名的大公司、重要的机关团体...等都是属于authority。虽然后来实际的搜寻引擎如Google，并非采用原始的PageRank or HITS演算法，但是基本精神仍然类似。

网页内容探勘

网站的内容是最有弹性、最复杂、却也最丰富的一项资源，除了文字文件（textual document）之外，更可能包含了各式各样多媒体内容。例如：从个人网页中，我们想了解他的兴趣、嗜好、学经历... 等，可以透过网页内容加以分析。又如各公司想得知其他竞争对手的现况，也可以分析公司网页的内容，进一步了解它的主要产品、属性、市场区隔、占有率...等。

网页内容与资料库或一般文件不同的是，作者是来自世界各地的自愿维护者，而且内容随时都有可能更新，因此，网页内容非常多样化（diverse）。但由于来源非常参差不齐（heterogeneous），内容的正确性并无统一机构负责校对或更正，所以网页的内容常常也包含许多杂讯（noise）。如何从庞大，不一致的资料中，抽取出正确或是有用的资讯，也成为目前最主要的挑战。目前常见的方式是透过现有的搜寻引擎，作为最基本的资料取得来源，如(图三)所示。从搜寻结果中，我们再经由进一步的处理、分析，以得到更好的结果。

由于网页内容庞杂，光是内容的分门别类就不是一件容易的事。因此，在网页内容探勘中，最主要的两项关键技术是分类（classification）与分群（clustering）。在机器学习（machine learning）中，一般把这两项技术称为监督式学习（supervised learning）及非监督式学习（unsupervised learning）。

如(图四)所示，分类（classification）的工作主要是先将一些已标记有类别（class）或标签（label）的训练资料（training data），利用机器学习的各种方式，训练出一个足以代表这些资料特性的模型（model）。当一个未知类别的资料进来时，我们可以经由这个模型而“猜出"这项资料的所属类别，这就是分类（classification）。

所谓的监督式学习就是因为学习过程中，先使用已标有正确答案的训练资料训练过了。

另一方面如(图五)所示，分群（clustering）则直接面对一堆杂乱的资料，将相似的资料分在同一群，想办法从中找出规则。由于不须要训练资料，因此又称为非监督式学习。分群又可以分为两种方式：bottom-up及top-down。 Bottom-up是由个别资料逐渐群众而成，最后形成整堆资料；而top-down则是先将整堆资料分为几大群，然后各自再加以细分。这两种技术各有优缺点，也各有适用的情形。

Web Mining的广泛应用

由以上三类架构的介绍，我们可知Web Mining目前的应用相当广泛，不同领域都可应用Web mining 的技术，是一项跨领域应用的技术。首先Web这个最大的知识来源，可以发掘出有用的资讯，进一步提升各领域中原有技术的瓶颈，例如搜寻引擎本身就有许多改进的空间，藉由搜寻结果的Mining，我们可以再改进搜寻引擎本身。而在商业情报（Business Intelligence，BI）和客户关系管理（Customer Relationship Management，CRM）方面，也存在许多应用。例如分析竞争对手、产业动态及市场消长等。 CRM 方面除了对所有顾客加以分析建立user profile之外，也可提供个人化服务。

其他如数位典藏（digital libraries）方面，利用mining技术也使得分类、检索及知识管理上，有许多应用。例如Web mining可以帮忙找到（辞典中未收录的）未知词的翻译，例如新术语、专有名词等。另外，在情报（intelligence）及安全（security）方面，也逐渐有其应用，例如利用网路上的资源，如媒体报导或是深度评论等，分析出恐怖份子及组织的概况，进行反恐（anti- terrorism）的研究。最近在医疗资讯（medical informatics）方面，text/data mining的技术已开始被大量应用，然而在Web knowledge对医疗资讯的帮助上，仍有待观察。

Web Mining的瓶颈与挑战

目前Web Mining技术仍有些瓶颈与挑战，有待突破：

1. 网页呈现方式（presentation）不一致

网页的外观（layout）、主题（thematic）或metadata（栏位）相关资料取得不易，甚至连资料本身都可能难以抽取出来。一般Web 作者可能来自世界各地各行各业，除了格式为HTML之外，网页画面的呈现方式及安排则是每个作者自由发挥，并无统一标准或硬性规定。因此，资料的呈现虽然对使用者很容易一目了然，但是对一个程式来说，在收集资料的困难度自然就提高了。

2. 程式本身背景知识（background knowledge）不足

程式本身依照程式设计师（programmer）所设计的演算法依序执行，但是它在一般人所具备的常识（common sense）或背景知识不足。例如个人网页上可能会显示一个人的基本资料，包括生日、血型、星座、兴趣、学历、经历...等，人们一看便清楚，但是对程式而言，这些栏位本身的意义并无法单独从网页得知，必须另外学习，或由程式设计师赋予意义。

3. 领域知识（domain knowledge）与自然语言理解能力欠缺

由于网页是呈现给人看的，因此，Web上许多资讯是以自然语言的文句所描述的，而且与该内容相关领域的domain knowledge有密切关系。但是对程式而言，自然语言处理（Natural Language Processing，NLP）的技术尚未成熟到足以理解任意自然语言句子的语意，同时对某一特殊领域的知识更是须要补足，这也是另一项挑战。

Web Mining未来趋势与方向

由上述几项挑战，不难看出Web Mining已成为热门技术之一。未来除了继续在网页内容探勘及文字/资料探勘的技术能有所进展之外，发现更多更新的应用仍是这项技术持续进步最主要的动力。如何以电脑程式发展出足以撷取、整理，甚至分析杂乱的网页知识，进而提出有用的建议，更是未来必须突破的挑战。

人工智慧或是全能的机器人也许目标仍远大了些，但是，藉由知识发掘（Web knowledge discovery），电脑还有太多须要学习的“常识"，如何教导电脑上网学习，并进而改进其”智能"（Web Intelligence）正是未来极有潜力的方向。但是要有突破性的发展，仍然有赖资料库（Database，DB）、资讯撷取（Information Retrieval，IR）、机器学习（Machine Learning，ML）、人工智慧（Artificial Intelligence，AI）、乃至自然语言处理（Natural Language Processing，NLP）等基础领域技术的持续发展。

（作者任职于中央研究院资讯科学研究所）

参考资料

1. S. Chakrabarti, Mining the Web: Discovering Knowledge from Hypertext Data, Morgan Kaufmann, 2002.

1. Web Mining Resource, http://www.cs.ualberta.ca/~tszhu/webmining.htm

2. U. Y. Nahm, A Roadmap to Text Mining and Web Mining, http://www.cs.utexas.edu/users/pebronia/text-mining/

3. Web Mining Survey - Some Pointers, http://www.cs.umbc.edu/~kolari1/Mining/webmining.html

4. J. Kleinberg, "Authoritative Sources in Hyperlinked Environment," Proceedings of the 9th ACM-SIAM Symposium on Discrete Algorithms, pp. 668-677, 1998.

5. S. Brin and L. Page,"The Anatomy of a Large-Scale Hypertextual Web Search Engine," Proceedings of the 7退货 World-Wide Web Conference （WWW 1998）,1998.