账号:
密码:
最新动态
产业快讯
CTIMES / 文章 /
行动网路多媒体检索
 

【作者: 潘東名、王元凱】2004年05月26日 星期三

浏览人次:【4657】

多媒体资料库在早期的研究以影像资料库(Image Database)为主,主要的研究方向则是以影像处理与图形识别技术,如切割(Segmentation)、特征抽取(Feature Extraction)等来设计影像资料库的索引,并进而应用图形识别的辨识(Matching)技术来作为近似存取(Fuzzy Query)的方法。


近来多媒体资料库已经越来越多样化,因此应用的方向也从影像扩充到视讯、声音的索引与查询。视讯资料与影像资料的差别,主要在于多了一个维度(Dimension):时间轴。换句话说,除了要分析视讯中每张影像的空间关系外,另外还需要将影像的连续性构成时间轴来进行分析。


此外,由于视讯的复杂程度高,如何建立关键的索引与提供适合的查询方式,例如结合语意或自然语言等方式,仍是目前学术界有兴趣研究的领域。


行动与网路的多媒体应用

由于硬体技术的突破与通讯网路技术日益成熟,多媒体已在网路上广为应用。在网路的实体传输介质上分为有线网路通讯及无线网路通讯两种;一般而言,当我们做多媒体资讯检索时在有线通讯环境之下,对于网路频宽及定位的需求较不需考量,我们仅需要考虑使用何种输入方式做为检索的Key,例如用文字叙述或是利用影像Sample输入。资料检索回传时如果是影音串流资讯时,只要考虑如何维持好的QoS(Quality of Services)及何种输出设备(输入显示器影响多媒体的大小品质)即可。


在无线网路通讯环境中,除了资讯传递方法外,网路的频宽、定位的技术和传输通讯协定的设计都会影响到实际的应用。本篇文章主要是以困难度较高的行动网路做为主要的说明。


多媒体检索的方法

一般多媒体的检索方法分为两种:(1)影像的内涵为基础检索;(2)视讯的内涵为基础检索等两方面。这两种方法的共同特色是要找到『特征』,有了特征方能进行辨识,进而进行检索。


以影像的内涵为基础检索

影像的内容检索多以低阶(Low – Level)影像特征组成特征向量(Feature Vector)以作为索引,如颜色(Color)、纹理(Texture)和形状(Shape)等。有许多系统则同时采用多种特征,如IBM的Flickner提出QBIC(Query By Image Content)系统,即是利用色彩、形状和纹理等来当作特征。 VisualSEEk在抽取的特征的同时也储存其在影像中的位置,因此可以允许使用者以Localized Feature Query来查询。


由上可知在影像内涵在基础的检索方法上,分为建立索引与查询两部分。建立索引有许多的​​影像处理方法可以研究并采用,如使用Query by Example方式来作查询时,使用者能够以资讯检索(Information Retrieval)中的Query Refinement概念,来帮助增加查询的正确率(Precision Rate )。


《图一 影像内涵为基础之检索》
《图一 影像内涵为基础之检索》

(图一)为针对影像进行内涵为基础之处理时的架构图。建立影像资料库时,将抽取影像特征当作特征向量,并储存为索引,在进行存取时也必须抽取同样的影像特征向量。影像特征包括有颜色、纹理、形状和滤波器(Filter)值等。


在查询影像时,需输入至少一张影像,并将每张查询影像的特征向量抽取出来,做自动群聚分析。在得到共同的重要特征后,再与影像索引资料中的索引,进行Pattern Matching以找出最近似的一些影像,并回传查询结果。当找到的结果不够精确时,使用者可以再从结果中挑选正确的影像出来,并加入查询影像的集合中,再重新群聚分析以进行查询。


以视讯内涵为基础检索

对于视讯进行内涵为基础的检索,可分为三部分,分别是1. 视讯分割(Video Segmentation),又称为视讯剖析(Video Parsing)、2. 建立索引(Indexing),3.查询检索(Query and Retrieval)。


在进行索引建立之前,必须先将视讯切割为最小单位,此最小单位称之为视讯片段(Shot),而此切割的过程则称之为视讯切割(Video Segmentation)。视讯切割的方法多以侦测连续影像之间的变化程度(Scene Change)为主,计可分为压缩影像侦测、未压缩影像侦测,以及模型化侦测法。


根据两张连续影像的Histogram来计算其变化程度也是常见的方法,但是计算连续影像之间的变化程度,则有许多的距离函数(Distance Function),其中以2 Test 的效果为最佳。由于Histogram难以解决场景变化时的连续特效,如淡入淡出(fade in/fade out)或渐隐(dissolve)等,因此也有人提出Motion – based演算法。


由于视讯是具有三维空间的资料,因此在切割后以及加索引/查询之前,也需要建立视讯的内容模型(Content Modeling)。 Decleir & Hacid以人工的方式对有意义的片段组进行加注,并提出一个规则式的查询语法。 Shitbata & Kim将切割后的视讯,以描述文字来建立每个视讯片段的向量表示式(Vector Expression),并藉由该向量表示式来将连续的视讯片段重组为阶层式的结构(Hierarchical Structure) ,以构成一个阶层式的视讯内容模型。


而由于在视讯切割后,若运用影像处理/图形识别方法作物件识别(Object Recognition),则会需要去表达物件本身的时间、空间资讯,以及物件与物件之间的关系,以利建立索引并加强查询语言的能力。因此Khatib el. al.就以知识表达法(Knowledge Representation)的观点,来讨论许多建立在视讯中的时间、空间表达(Spatial – Temporal Model)方法。


视讯索引的建立则与影像类似,多半都是以低阶的影像特征来作为索引,但是由于视讯有太多的影像,所以会先从每个视讯片段的多张影像里,决定出一张关键影像(Key Frame),再根据关键影像的影像特征来进行索引的建立。而建立索引的方法则可以参考前面影像建立索引的相关方法。


由于查询的方法与加索引的方法有密切的关连,因此随着加索引的方法不同,各有不一样的查询介面。不过视讯的检索/查询仍可以分为两类,第一类是利用图形介面或资料库的查询语言直接输入查询值,如颜色、纹理等影像特征值,再从资料库以近似度来做比对查询;第二类是用Query By Example的方法,使用者先提供影像,根据提供影像分析得来的特征,来进入资料库找寻特征相近的关键影像。除了这两类外,也有自行提出自订的语法来达到查询的目的。


而在处理视讯操作上则分为视讯切割、内容模型、以辨认来查询(Query by Recognition)等三个部分。研究的重点在于针对广播新闻(Broadcast News)类的视讯或行动中同质性类别物品,如行动中的汽车、飞机等,依据其特性建立切割、模型、以及辨认的方法。因此是一个以Semantics做为视讯内涵之基础的研究方式,搭配专家系统及类神经网路来学习,可增加其准确度及可信度。


《图二 视讯内涵为基础之处理》
《图二 视讯内涵为基础之处理》

(图二)为针对视讯进行内涵为基础处理时的架构图,如广播新闻的视讯切割是使用Histogram方式来侦测Scene Change,因为广播新闻视讯在画面(Frame)之间的编辑效果(Edit Effect )较少,而淡入淡出、渐隐等情况也不常见,但是广播新闻里的一个有意义的视讯片段,是包含了好几个Scene Changes,因此必须在经过Histogram做Scene Change的动作之后,再做重组的动作。而在得到视讯片段后,针对每个片段以区域(Region)的方式来侦测物件(Object)的存在。


一个物件可以横跨数个画面,并位于不同画面的不同位置里,因此将针对每个物件来建立索引,而每个物件被抽取的特征包含有时间关系、空间关系、颜色、纹理和形状等。同理,在行动中的同质性类别物品的处理方式中,因其在物品上相同处较不同处为多,取其相异之处的特征、形状归类等来建立索引。


在建立了索引资料之后,使用者查询的方式有两种:一种是用浏览的方式,一种则是用Sketch – Based的方式。使用者输入的Sketch会被转换成内部的特征,如时间、空间、颜色、纹理和形状等,与索引资料进行近似比对,然后得到结果。而近似比对则会以神经网路作为比对的演算法,并配合专家系统的使用来达到较精准的搜寻结果。


行动网路通讯协定及关键技术

在通讯协定上,为因应行动式环境的应用系统开发,许多国际大厂所组成的WAP Forum组织便开始持续规划无线应用协定(Wireless Application Protocol;WAP),期望能藉由WAP的订定,加速行动式环境上应用系统的开发与研究,目前WAP的最新规格版本为2.0版。


WAP是针对如PDA、Handheld PC、资讯家电(Information Appliance)等Thin Client而提出的无线应用传输协定,可以与GSM/CDMA等行动通讯协定或是Bluetooth/Home RF等区域无线网路协定搭配,成为在这些底层协定连接各种通讯规格并建立应用系统的重要协定。在WAP 2.0版本内,将WAP协定与网际网路的通讯协定作了整合,并把TCP与HTTP协定作了适​​当的改良,使TCP与HTTP协定更适合传输于无线网路。改良后的TCP协定被称为Wireless Profiled TCP(WP – TCP);而改良后的HTTP协定称为Wireless Proifled HTTP(WP – HTTP),这些改变让WAP对于多媒体的传输有了更好的规范。


至于位置相关的关键技术,主要可分为两个核心研究:一个是定位技术(Positioning),另一个则是范围搜寻(Proximity Search)。


定位技术的目的在于得到使用者的位置资讯,其中又可以分为主动定位(Active Positioning)与被动定位(Passive Positioning)。主动定位是指使用者的位置透过装置自动侦测而取得;被动定位则是指位置资讯透过使用者自己提供而得。主动式定位技术又可以分为以下两类:


  • ●Digital Cellular Standards:Subscriber的定位解析度是以基地台涵盖范围(Cell Size)为最小单位,而每个基地台所涵盖的范围会随着地区的考虑而有不同的布建密度,以GSM为例,范围在2百公尺至30公里左右。


  • ●GPS(Global Positioning System):藉由24颗美国卫星以及各种不同的差分(Differential)技术,目前可以定位的精确度在2 – 200公尺左右,适用于定位监控(Position Surveillance)、紧急救助( Emergence Rescue)、车辆导航(Car Navigation)等。此外,根据GPS资讯可以计算移动的方向与速度,进而预测应该提供的资讯与服务。



范围查询的一​​个极端范例,就是传统的全文检索,或是搜寻引擎,而这类搜寻技术,可归类为精准搜寻(Exact Search)。换句话说,使用者下达查询资料的指令时,系统只从资料库内抓取比对完全相同的资料出来,但却无法抓取近似的资料,如此一来,便不能适用于黄页的查询应用。


范围搜寻主要是针对具有地理概念的资讯,并进行概括范围的查询,因此并不局限于二维的地理资讯而已。举例来说,以本文要进行的黄页查询,其为纯粹的文字资讯,并无二维维度可言,但是在查询时,查询者想要查的资讯可能会像是「辅仁大学附近的餐馆」 、「新竹科学园区附近的主机板厂商」等。


因此在做范围搜寻时,需要先确定是单点定位/范围定位,并确定被查询的内容与做索引的方式,是精确的几何座标点(Point – Based)或是区域式(Regional)。


底下即是一个行动环境的通讯系统架构,其架构如(图三)所示:


《图三 位置相关多媒体检索》
《图三 位置相关多媒体检索》

(图三)的多媒体资料库必须储存在位置资讯里,也就是每张影像或视讯会有一个Metadata栏位标明其所属的位置。而多媒体行动单元,可为高阶的笔记型电脑、PDA,甚至是手机,并透过传输介面外接GPS获得定位资讯后,再经过行动网路、Mobile Gateway、Internet传送到行动多媒体伺服器,以进行地点相关之比对匹配。地点相关比对匹配的方法则如(图四)所示:


《图四 位置相关多媒体检索》
《图四 位置相关多媒体检索》

行动多媒体检索发展的瓶颈

以往行动网路在多媒体应用的瓶颈有二,分别是行动单元(Mobile Unit)设备和通讯网路的频宽问题


行动单元(Mobile Unit)设备

行动单元(Mobile Unit)设备虽具有极佳的移动能力,但其计算能力较弱,因此在多媒体的应用上一直都有局限;然而近来由于硬体技术的日益进步,许多的PDA、掌上型电脑都具有多媒体的显示能力,并内建或外接数位相机、数位录音机、固定网路电话,或行动电话等设备,因此可以成为极佳的多媒体行动单元(Multimedia Mobile Unit)。


业界产品中除了这些已有的PDA之外,行动电话手机也已经有大萤幕或彩色等功能的手机出现。甚至在行动单元上加装类似投影设备,并将资讯打到大的萤幕或空白的墙壁,这些都可解决多媒体资讯显示问题。


另外,近来资讯家电(Information Appliance)的蓬勃发展,再加上SOC(System On a Chip)整合性单晶片的出现,以及高阶LCD量产技术的突破,电脑的定义已不再局限于固定的桌上型电脑,而是具有比笔记型电脑更轻薄、短小的高阶计算能力的电脑会出现在家庭、办公室、公众场所,或个人身上等许多移动式的场所中。


通讯网路的频宽问题

因为多媒体中的影像、视讯或声音等资料容量颇大,因此都需要较大的频宽才能符合传输的需求。目前有线网路的频宽已经大幅改进,网际网路的频宽也已经进入10 Gigabit的世代;而区域网路,如专线、Cable、光纤等都逐渐朝100/1000 Mbps以上的速度在建制,因此有线网路的频宽已经足够。


至于无线通讯网路,随着第三代行动通讯以及卫星通讯的技术日益成熟,台湾已经开放第三代行动通讯执照,预计未来一年内将会有业者提供频宽高达2 Mbps以上的无线行动通讯系统,届时无线网路的频宽也将足敷使用。目前 IEEE 802.16a定义在70Mbps的传输速率,而IEEE 802.16e更针对行动装置提升传输速率至15Mbps。至于2002年12月成立的IEEE 802.20行动宽频无线存取小组(Mobile Broadband Wireless Access,MBWA),预计将会提供更高的传输频宽给行动装置。


总结

目前多媒体检索主要的问题在于查询庞大的多媒体资料时,由于行动单位为Thin Client,其记忆容量有限,无法储存大量的多媒体资料,所以必须透过行动网路向Server查询多媒体资料库。但是行动单元也有着萤幕小、输入不易等特性。使用者的检索方法若是没有效率,那么将会因为搜寻所得到的结果过多,而造成查询繁琐、频宽拥塞,进而造成不易使用的严重问题。


因此,在未来行动网路宽频的世界中,要如何提供有效的多媒体检索,是一个迫切研究的课题。目前透过Semantics的方式我们可以让查询更加人性化;而透过UMA(Universal Multimedia Access)的理论,我们可以依照Client 端目前网路的频宽、运算的能力、输出设备的解析度大小,或色阶等,提供出一个适合的资讯检索的结果。未来在Any time、Any where得到多媒体检索后的资讯将是非常方便的。


<作者潘东名为辅仁大学资讯中心讲师,王元凯为辅仁大学电子工程系 副教授>


延 伸 阅 读
IBM Almaden研究中心推出了QBIC系统。该系统开创了影片资讯查询的全新领域,如图片可以按照颜色,灰度,纹理和位置进行查询。查询的要求将以图形方式表达,如从颜色表中选取颜色,或从例图中选择图像的纹理。查询的结果可以按照相关序列指导子序列的查询来进行,而这种方法能够让使用者更为快速和简便地对视觉化资讯来进行筛选和确定。相关介绍请见「多媒体资讯检索系统Mires」一文。
随着多媒体计算技术的迅速发展、网路传输速度的提高,以及新的有效的影像/视讯压缩技术的不断出现,人们通过网路实现全球多媒体资讯的共用成为可能,然而现有的技术还不能有效地满足人们对海量多媒体资讯的需求,基于内容的多媒体资讯检索便应运而生。你可在「资讯检索的革命–基于内容的多媒体资讯检索」一文中得到进一步的介绍。
多媒体检索包括基于描述的多媒体检索和基于内容的多媒体检索。基于描述的多媒体检索就是用一个关键字来描述所要查找的图片或是音乐,比如可以用“classroom”这个词来查找教室的图片。基于内容的多媒体检索就是用一些视觉特征来查找多媒体资讯,这些视觉特征包括颜色、形状、纹理等。在「搜索引擎主要检索服务」一文为你做了相关的评析。
相关组织网站
WAP论坛网站
Alltheweb多媒体检索网站
Lycos多媒体检索网站
相关文章
GeodeLink介面将为NS IC晶片带来全新效应:晶片内的捷运系统
comments powered by Disqus
相关讨论
  相关新闻
» 远传电信营运每年减碳5万吨 获施耐德电机永续发展影响力奖肯定
» 工研院MWC 2024展会直击 5G-A无线通讯、全能助理成下一波AI风潮
» 经部「2023玩学5G新视界」 引领台湾网通产业跃上国际舞台
» 欧洲航太技术展在德国盛大展开,全球吸睛 镭洋推出卫星通讯整合方案,目标抢占庞大的欧洲卫星商机
» 经济部主办通讯大赛连线全球 多国创新应用现身


刊登廣告 新聞信箱 读者信箱 著作權聲明 隱私權聲明 本站介紹

Copyright ©1999-2024 远播信息股份有限公司版权所有 Powered by O3  v3.20.1.HK85E7TP8B0STACUKJ
地址:台北数位产业园区(digiBlock Taipei) 103台北市大同区承德路三段287-2号A栋204室
电话 (02)2585-5526 #0 转接至总机 /  E-Mail: webmaster@ctimes.com.tw