账号:
密码:
最新动态
产业快讯
CTIMES / 文章 /
从自然语言处理看资讯搜寻技术
 

【作者: 陳信希】2004年08月26日 星期四

浏览人次:【4453】

网际网路时代来临后,带来一个含有文字、图片、声音、影像等多媒体内容的新资讯世纪。由于资料极为庞大,且散布在世界各处,搜寻引擎这个我们耳熟能详的工具,也随之兴起。透过搜寻引擎,我们可以找寻满足需求的资讯。小学生交作业,研究生写论文,自助旅行者收集旅游资料、股票族买卖股票...,上网查资料是必须做的功课,全球资讯网检索已经成为生活中重要的一环。Yahoo、AltaVista、Lycos、Google、Openfind等全域性搜寻引擎随之崛起,扮演搜寻入口网站的角色,提供巨量资讯检索服务。政府单位、民间企业、学校...等,在网站中通常也会附加检索工具,提供站内资讯搜寻服务。


了解检索的需求

使用者对于资讯检索的最理想要求,是在最短的时间,找到最完整、最精确的资讯。在网际网路上,由于资讯量非常庞大,搜寻回覆时间和准确度,是使用者满意度重要指标之一。一般人会认为资讯检索品质的好坏,检索系统要负完全的责任。其实不然,搜寻行为是使用者和检索系统间的互动。使用者必须把心中的资讯需求明确的说出来,检索系统才能完成交代的任务。问题是资讯需求的呈现通常非常模糊,例如我们对「诺贝尔奖」的资料有兴趣,可能的查询包括:


  • ●「诺贝尔奖」


  • ●「诺贝尔奖得主」


  • ●「2003年诺贝尔奖得主」


  • ●「2003年诺贝尔和平奖得主」



需求由最模糊的单词「诺贝尔奖」,到较精确的片语「2003年诺贝尔和平奖得主」,所呈现的语意都不一样,检索系统回覆的搜寻结果,当然就不一样。理想中的系统,应该是使用者提供的资讯越精确,搜寻回来的答案越准确。


从使用面看,查询词汇通常相当简短。经网路使用者查询语汇分析,平均长度为6.36 bytes,接近2-3个中文字元的复合名词。简短的查询词汇,通常无法掌握资讯需求。使用者的行为分析,建议合适的检索词或相关主题词汇、查询记录分析提供建立索引典的参考等,附带服务和功能就被引介进来。本文拟由资讯检索系统的基本架构,谈如何找寻满足需求的资讯。考量中文的特性,分析断词对检索效能的影响,断词技术介绍也是主题之一。面对完整资讯需求的呈现,谈系统可能的改进对策,介绍中文开放领域自动问答系统的发展。


资讯检索

由技术面看,一个资讯检索系统包括三个重要的部分:文件集和查询问句的处理、以及文件和查询的相似度计算,可参考图一。文件集在网际网路搜寻引擎就是网页资料,资讯检索系统会撷取重要的词汇代表文件的内涵,以合适的资料结构储存,目的之一是加快搜寻的速度。当使用者下检索指令时,检索问句也做类似的处理,接着进行快速比对,依照算分公式计算,依分数大小顺序,列出“符合需求"的资讯。


《图一 信息检索系统架构》
《图一 信息检索系统架构》

在传统资讯检索架构中,最被挑战的地方是:关键词比对,而非概念比对,因此会有相同的概念,但是可能无法找到以不同词汇表达的资料的问题。由于在网际网路检索,正确性优于完整性,如何处理这个问题,不是本文讨论的范围。本文的重点将着重在说明如何减少太多不相关网页被检索出来,以降低使用者浏览、判断相关性所发的时间。


以一个简单的例子说明,假想某国小五年级学生的寒假作业是收集「门联」的相关资料。如果透过搜寻引擎在网路上收集,最直观的的检索词是「门联」。搜寻引擎回传可能的资料包括:澳门联网、莱特门联合企业股份有限公司、部门联络、联语有门联楹联之称、...等,直到第四笔资料才是真正所要的网页。

断词是相关性判断出错的原因之一,由于中文句子词汇和词汇间并没有明显的分隔符号,造成在词汇切分时,容易有多重选择的情况。以搜寻引擎为例,在建立网页索引档、或处理查询问句时,可能以内建的辞典作查词运算。若有多重分词的情况,会依某些原则选择其中之一。例如将「澳门联网」当作检索词送入Google,由回传的结果中,选取「页库存档」,会出现「您的查询字词都已标明如下: 澳门 联 网」这项讯息。由此可知,「澳门联网」被切分成「澳门」、「联」、 和「网」三段。其中「澳门」切对,而「联」 和「网」应合在一起形成一个词。


断词技术

断词是中文资讯处理基本运算,挑战处在于分词的歧义性,以下是个范例:


句子「这名记者会说国语」,如果不看上下文,可能会被切分成「这- 名- 记者- 会- 说- 国语」、或是「这- 名- 记者会- 说- 国语」,但仅有第一个断法是正确的。词典是断词处理不可缺少的重要资源,一般的处理模式是:先查词,列出"所有"可能的词。接着进行歧义排除,挑出最佳组合。例如:处理「把他的确实行动作了分析」这个句子,经查词典后,有如图二的组合:


《图二 多种断词组合》
《图二 多种断词组合》

过去有很多策略被提出来解歧义,包括长词优先、除去组合中造成路径中断的词区段、偏好二-三字词、采用剖析法、或马可夫模型、松弛法等统计方式。


但基本问题是:词典无法完整收录所有可能的词,新词时常被忽略,不能被正确地切分出来。因此,以(半)自动化的方式渐进式地扩大词典的规模是必要的策略,而加入未知词处理模式,加强断词系统的强健性,也是可能的方式。例如,人名、地名、公司/组织名、时间、日期、钱、百分号等是文件重要成分,呈现人、地、时、事、物等五大单元。而这些通称『具名实体』的词汇,又经常没有被收录到词典中,如何辨识是断词上挑战的议题。


以人名辨识为例,姓名结构分析,姓氏(单姓、复姓、冠夫姓)是重要的线索,名字的用字机率(男性、女性、优雅、 ...)、前后文资讯(例如,头衔、标点符号、特殊用语、 ...)、词汇的重现性等等,都是可供运用的重要资讯。


词汇收集是重点

在搜寻引擎,由于回应使用者查询的速度,以及所管理网页的巨大量,资料更新的时间要求等考量,通常不作复杂的断词处理,而仅进行简单的查词动作。因此,词汇的收集益显得重要。某些字串经常被输入为检索语汇,自然会收录到词典。经常使用的词汇,重要性自然提高,分​​词时就会被优先选择。这些线索都可以由使用者检索后所留下的记录统计出来,所以使用者的行为分析是搜寻引擎不可或缺的运算。


中文开放领域自动问答系统

自然语言或称人类语言一直是最自然的人机互动媒介,是表现资讯需求最直接的方式之一。自然语言问答系统的发展很早,过去就有以人的语言当资料库系统介面的应用。在网际网路极为盛行的新资讯时代,自然语言问答系统再度吸引大家的注意力。主要的原因是网路世界大量不同媒体所呈现的资讯不断地产生,传统资讯检索技术由文件集中取出相关文件,依相关程度高低排列,再由使用者阅读的使用模式,在非常大量的资料下,已渐渐不能满足需求。


当自然语言遇上传统检索

以下是两个自然语言查询问句的例子,说明使用者在传统资讯检索系统下的行为:


  • (1)《台湾之子》这本书的作者是谁?


  • (2)诺贝尔奖是什么时候开始颁发?



第一个范例以关键词检索所找到的文件,可能含有「台湾之子」,使用者必须用眼睛"挖"出答案。同理在第二个范例,带有「诺贝尔奖」这个词的文件很多,使用者必须判断哪一篇才是谈诺贝尔奖的历史。阅读传统资讯检索的结果,再找出答案,使用者需花相当多的时间才完成知识撷取,传统架构已不敷需求,如何运用自然语言处理技术,由相关文件中找出"准确"的答案,是很重要的网路技术。


过去自然语言问答系统在资料库上的应用,比较强调的是介面的功能,背后所接的资料规模较小、限定领域、且具有相当的结构性。相较之下,开放领域自动问答系统所面对的是规模庞大、不限领域、不具结构(或仅有部份结构)的资料。重要挑战包括︰侦测使用者的意图;掌握问句的核心;在庞大资料下,由机器取代使用者"阅读"文件,撷取答案﹔掌握人和机器间的互动性;面对不同的媒体素材等。


图三是基本的中文开放领域自动问答系统架构,包括:问句处理、资讯检索、答案选取、以及结果呈现等步骤。问句处理掌握使用者的资讯需求,由问句中辨识语意核心。这里的问句核心可能包括使用者想知道的人名、地名、公司名、时间、日期、原因等等。问句核心的掌握,可以帮助系统找到较精确的答案。这部分的工作有:中文断词、词性标记、具名实体撷取、以及问句的分类。资讯检索系统用来过滤不相关的文件,保留可能含有答案的文件,因此完整性比准确性重要。答案选取步骤的工作是将资讯检索系统传过来的文件,切成数个区段,比较问句和区段之间的相似程度,并考虑问句核心,由较相似的区段中撷取答案,整合各个可能的答案后再列出结果。


掌握问句核心

问句核心的掌握相当重要,提供很多回答问题所需的资讯,例如当使用者询问的是地名时,系统藉由具名实体辨识,找出文章中哪些词是地方词,这些地方词构成候选答案。以下是一些例子:


(1)《台湾之子》这本书的作者是?→ 这种问句类型问的是人名。
(2)草岭谷在哪里? → 这种问句类型问的是地名、国家名等等。
(3)飞机什么时候起飞? → 这种问句类型的答案是个确定的日期或时刻。
(4)台湾使用客语的人口有多少? → 这种问句类型的答案是数量、比例、金额、长宽大小等度量衡数值。
(5)怎样增加钙的吸收? → 这种问句类型问的是解决的方法,或事情的做法。
(6)是毕卡索? → 这种问句类型问的是特定人士、特定组织、甚至是特定物品。
(7)何以会「先天性髋关节脱臼」? →使用者问的是事情的起因、原由等。
(8)申请HiNet连线应先有哪些基本配备? → 答案包括一个以上的物件、设备等。

《图三 自动问答系统架构》
《图三 自动问答系统架构》

自然语言处理的挑战与未来趋势

自然语言处理一直是人工智慧研究重要领域之一,如何让电脑分析与生成人类语言,让电脑与使用者以人的语言沟通是电脑科学终极目标之一。基本的自然语言处理技术,包括段落切分、断句、片语切分、断词、具名实体撷取、词性标记、语意标记、相互参考分析等。其中部分技术有不错的效能,并已成功地应用到资讯的撷取上。在著名的讯息理解技术评比所开发出来的英文具名实体撷取技术上,包括人名、地名、组织名、时间、日期、钱、百分号等文件重要成分,系统效能普遍已达90%以上。具名实体是文件的主要成份,掌握具名实体是理解文件基本工作。


目前应用于搜寻引擎的自然语言处理技术,仍然很有限。以中文断词为例,采用的功能仅局限于查词处理。预期更精确、及更快速的断词技术将会被引进,以提升检索准确度。另外,建构于搜寻引擎之上的开放领域自动问答系统,仅由回传的摘要中找寻答案会有漏网之鱼之虑。如果到相关网站进一步取得完整网页的资讯,虽然可避免遗漏,但是收集网页资讯对回应时间的影响是个问题。基于企业内部资​​讯的自动问答系统,可掌握所有资料,上述问题相对较不严重,但是增强问句处理的类型,是另一个要面对的挑战。


跨足生物科技领域应用

除了一般文件,如网页、新闻报导...之外,搜寻技术也可延伸到热门的生物科技。由于生物科技的快速发展,大量新的研发成果不断地发表,掌握最新的理论和技术,开创新的研发成果,是生物科技一大挑战。基本上科技论文是以人的语言(如英文)所书写的文件,而自然语言处理技术就是处理文件的利器。运用自然语言处理技术,自动分析生物科技论文,俨然成为生物资讯重要的研发项目之一。除了以搜寻技术找寻相关的科技文章外,由科技文章中辨识蛋白质名称、基因名称、细胞​​名称、疾病名称、和药物名称,尝试找出其间的特定关系,交由实验室进一步验证,成为自然语言处理技术新的应用。 (作者为国立台湾大学资讯工程学系教授兼系主任)


延 伸 阅 读

行动网路多媒体检索
多媒体检索近十年已成为国内外的重要研究课题,其主因在于电脑、电信,及网路科技的进步;本文就多媒体检索的方法、结构与应用趋势。

网路搜寻引擎架构优势概述
储存系统的支出有一半都是花在NAS与SAN的技术上,显示出网路化储存的趋势,厂商需同时满足储存设备的新需求并维护储存的安全性,以NSE结合网路协同处理器提高效率,并分担封包处理器的搜寻作业。
物件导向的软体发展
为什么物件导向运动发展到了现在这样火爆的程度?部分是源于人们长久以来的一个希望:人们希望它像以前其他软体发展的技术一样,能够满足软体发展对于生?效率、可靠性、易维护性、易管理等方面,具有更高、更快、更强的迫切需求,除此之外,还有许多原因都促使了它的流行...

相关组织网站
中文断词及人名/组织名辨识系统
台湾大学自然语言处理实验室
龙卷风科技自然语言处理技术介绍
中文语言资源联盟
相关文章
环境能源物联网将为资产追踪带来革新
功率循环 VS.循环功率
让你的多物理模拟与设计专案手到擒来
利用精密讯号链μModule解决方案简化设计、提高性能
利用精密讯号链μModule解决方案简化设计、提高性能
comments powered by Disqus
相关讨论
  相关新闻
» AI浪潮来袭!伺服器面临高热密度挑战 Vertiv协助矽谷主机代管商在既有机房突破散热瓶颈
» 英业达捐赠台大高效伺服器 引领学术研究高算力大未来
» 数位部办理5G专网国际论坛 机械业看好有助於短链劳动力
» 欧盟规划6G计画主席来台 与经济部签约合作跨国研发
» TrendForce:伺服器供应链重组 云端大厂扩大分散基地避险


刊登廣告 新聞信箱 读者信箱 著作權聲明 隱私權聲明 本站介紹

Copyright ©1999-2024 远播信息股份有限公司版权所有 Powered by O3  v3.20.1.HK85TDZVQVOSTACUKI
地址:台北数位产业园区(digiBlock Taipei) 103台北市大同区承德路三段287-2号A栋204室
电话 (02)2585-5526 #0 转接至总机 /  E-Mail: webmaster@ctimes.com.tw