CTIMES- 行動網路多媒體檢索 :多媒體減索,UMA,MBWA

│新東西市集│東西講座│影音頻道│出版中心│智動化專區│

元件次系統自動控制

最新動態

解析2025產業趨勢：MIC所長 x CTIMES編輯

【文章精選】鍺：綠色回收與半導體科技的新未來

。【東西講座】11/29 智慧製造與資訊安全

產業快訊

整合創新X智造未來TIMTOS 2025 聚焦AI新商機

汽配及移動科技產業，參展熱烈報名中!

CTIMES / 文章 /

行動網路多媒體檢索

【作者：潘東名、王元凱】 2004年05月26日星期三

瀏覽人次：【4848】

多媒體資料庫在早期的研究以影像資料庫（Image Database）為主，主要的研究方向則是以影像處理與圖形識別技術，如切割（Segmentation）、特徵抽取（Feature Extraction）等來設計影像資料庫的索引，並進而應用圖形識別的辨識（Matching）技術來作為近似存取（Fuzzy Query）的方法。

近來多媒體資料庫已經越來越多樣化，因此應用的方向也從影像擴充到視訊、聲音的索引與查詢。視訊資料與影像資料的差別，主要在於多了一個維度（Dimension）：時間軸。換句話說，除了要分析視訊中每張影像的空間關係外，另外還需要將影像的連續性構成時間軸來進行分析。

此外，由於視訊的複雜程度高，如何建立關鍵的索引與提供適合的查詢方式，例如結合語意或自然語言等方式，仍是目前學術界有興趣研究的領域。

行動與網路的多媒體應用

由於硬體技術的突破與通訊網路技術日益成熟，多媒體已在網路上廣為應用。在網路的實體傳輸介質上分為有線網路通訊及無線網路通訊兩種；一般而言，當我們做多媒體資訊檢索時在有線通訊環境之下，對於網路頻寬及定位的需求較不需考量，我們僅需要考慮使用何種輸入方式做為檢索的Key，例如用文字敘述或是利用影像Sample輸入。資料檢索回傳時如果是影音串流資訊時，只要考慮如何維持好的QoS（Quality of Services）及何種輸出設備（輸入顯示器影響多媒體的大小品質）即可。

在無線網路通訊環境中，除了資訊傳遞方法外，網路的頻寬、定位的技術和傳輸通訊協定的設計都會影響到實際的應用。本篇文章主要是以困難度較高的行動網路做為主要的說明。

多媒體檢索的方法

一般多媒體的檢索方法分為兩種：（1）影像的內涵為基礎檢索；（2）視訊的內涵為基礎檢索等兩方面。這兩種方法的共同特色是要找到『特徵』，有了特徵方能進行辨識，進而進行檢索。

以影像的內涵為基礎檢索

影像的內容檢索多以低階（Low – Level）影像特徵組成特徵向量（Feature Vector）以作為索引，如顏色（Color）、紋理（Texture）和形狀（Shape）等。有許多系統則同時採用多種特徵，如IBM的Flickner提出QBIC（Query By Image Content）系統，即是利用色彩、形狀和紋理等來當作特徵。VisualSEEk在抽取的特徵的同時也儲存其在影像中的位置，因此可以允許使用者以Localized Feature Query來查詢。

由上可知在影像內涵在基礎的檢索方法上，分為建立索引與查詢兩部分。建立索引有許多的影像處理方法可以研究並採用，如使用Query by Example方式來作查詢時，使用者能夠以資訊檢索（Information Retrieval）中的Query Refinement概念，來幫助增加查詢的正確率（Precision Rate）。

《圖一　影像內涵為基礎之檢索》

(圖一)為針對影像進行內涵為基礎之處理時的架構圖。建立影像資料庫時，將抽取影像特徵當作特徵向量，並儲存為索引，在進行存取時也必須抽取同樣的影像特徵向量。影像特徵包括有顏色、紋理、形狀和濾波器（Filter）值等。

在查詢影像時，需輸入至少一張影像，並將每張查詢影像的特徵向量抽取出來，做自動群聚分析。在得到共同的重要特徵後，再與影像索引資料中的索引，進行Pattern Matching以找出最近似的一些影像，並回傳查詢結果。當找到的結果不夠精確時，使用者可以再從結果中挑選正確的影像出來，並加入查詢影像的集合中，再重新群聚分析以進行查詢。

以視訊內涵為基礎檢索

對於視訊進行內涵為基礎的檢索，可分為三部分，分別是1. 視訊分割（Video Segmentation），又稱為視訊剖析（Video Parsing）、2. 建立索引（Indexing），3.查詢檢索（Query and Retrieval）。

在進行索引建立之前，必須先將視訊切割為最小單位，此最小單位稱之為視訊片段（Shot），而此切割的過程則稱之為視訊切割（Video Segmentation）。視訊切割的方法多以偵測連續影像之間的變化程度（Scene Change）為主，計可分為壓縮影像偵測、未壓縮影像偵測，以及模型化偵測法。

根據兩張連續影像的Histogram來計算其變化程度也是常見的方法，但是計算連續影像之間的變化程度，則有許多的距離函數（Distance Function），其中以2 Test 的效果為最佳。由於Histogram難以解決場景變化時的連續特效，如淡入淡出（fade in／fade out）或漸隱（dissolve）等，因此也有人提出Motion – based演算法。

由於視訊是具有三維空間的資料，因此在切割後以及加索引／查詢之前，也需要建立視訊的內容模型（Content Modeling）。Decleir & Hacid以人工的方式對有意義的片段組進行加註，並提出一個規則式的查詢語法。Shitbata & Kim將切割後的視訊，以描述文字來建立每個視訊片段的向量表示式（Vector Expression），並藉由該向量表示式來將連續的視訊片段重組為階層式的結構（Hierarchical Structure），以構成一個階層式的視訊內容模型。

而由於在視訊切割後，若運用影像處理／圖形識別方法作物件識別（Object Recognition），則會需要去表達物件本身的時間、空間資訊，以及物件與物件之間的關係，以利建立索引並加強查詢語言的能力。因此Khatib el. al.就以知識表達法（Knowledge Representation）的觀點，來討論許多建立在視訊中的時間、空間表達（Spatial – Temporal Model）方法。

視訊索引的建立則與影像類似，多半都是以低階的影像特徵來作為索引，但是由於視訊有太多的影像，所以會先從每個視訊片段的多張影像裡，決定出一張關鍵影像（Key Frame），再根據關鍵影像的影像特徵來進行索引的建立。而建立索引的方法則可以參考前面影像建立索引的相關方法。

由於查詢的方法與加索引的方法有密切的關連，因此隨著加索引的方法不同，各有不一樣的查詢介面。不過視訊的檢索／查詢仍可以分為兩類，第一類是利用圖形介面或資料庫的查詢語言直接輸入查詢值，如顏色、紋理等影像特徵值，再從資料庫以近似度來做比對查詢；第二類是用Query By Example的方法，使用者先提供影像，根據提供影像分析得來的特徵，來進入資料庫找尋特徵相近的關鍵影像。除了這兩類外，也有自行提出自訂的語法來達到查詢的目的。

而在處理視訊操作上則分為視訊切割、內容模型、以辨認來查詢（Query by Recognition）等三個部分。研究的重點在於針對廣播新聞（Broadcast News）類的視訊或行動中同質性類別物品，如行動中的汽車、飛機等，依據其特性建立切割、模型、以及辨認的方法。因此是一個以Semantics做為視訊內涵之基礎的研究方式，搭配專家系統及類神經網路來學習，可增加其準確度及可信度。

《圖二　視訊內涵為基礎之處理》

(圖二)為針對視訊進行內涵為基礎處理時的架構圖，如廣播新聞的視訊切割是使用Histogram方式來偵測Scene Change，因為廣播新聞視訊在畫面（Frame）之間的編輯效果（Edit Effect）較少，而淡入淡出、漸隱等情況也不常見，但是廣播新聞裡的一個有意義的視訊片段，是包含了好幾個Scene Changes，因此必須在經過Histogram做Scene Change的動作之後，再做重組的動作。而在得到視訊片段後，針對每個片段以區域（Region）的方式來偵測物件（Object）的存在。

一個物件可以橫跨數個畫面，並位於不同畫面的不同位置裡，因此將針對每個物件來建立索引，而每個物件被抽取的特徵包含有時間關係、空間關係、顏色、紋理和形狀等。同理，在行動中的同質性類別物品的處理方式中，因其在物品上相同處較不同處為多，取其相異之處的特徵、形狀歸類等來建立索引。

在建立了索引資料之後，使用者查詢的方式有兩種：一種是用瀏覽的方式，一種則是用Sketch – Based的方式。使用者輸入的Sketch會被轉換成內部的特徵，如時間、空間、顏色、紋理和形狀等，與索引資料進行近似比對，然後得到結果。而近似比對則會以神經網路作為比對的演算法，並配合專家系統的使用來達到較精準的搜尋結果。

行動網路通訊協定及關鍵技術

在通訊協定上，為因應行動式環境的應用系統開發，許多國際大廠所組成的WAP Forum組織便開始持續規劃無線應用協定（Wireless Application Protocol；WAP），期望能藉由WAP的訂定，加速行動式環境上應用系統的開發與研究，目前WAP的最新規格版本為2.0版。

WAP是針對如PDA、Handheld PC、資訊家電（Information Appliance）等Thin Client而提出的無線應用傳輸協定，可以與GSM／CDMA等行動通訊協定或是Bluetooth／Home RF等區域無線網路協定搭配，成為在這些底層協定連接各種通訊規格並建立應用系統的重要協定。在WAP 2.0版本內，將WAP協定與網際網路的通訊協定作了整合，並把TCP與HTTP協定作了適當的改良，使TCP與HTTP協定更適合傳輸於無線網路。改良後的TCP協定被稱為Wireless Profiled TCP（WP – TCP）；而改良後的HTTP協定稱為Wireless Proifled HTTP（WP – HTTP），這些改變讓WAP對於多媒體的傳輸有了更好的規範。

至於位置相關的關鍵技術，主要可分為兩個核心研究：一個是定位技術（Positioning），另一個則是範圍搜尋（Proximity Search）。

定位技術的目的在於得到使用者的位置資訊，其中又可以分為主動定位（Active Positioning）與被動定位（Passive Positioning）。主動定位是指使用者的位置透過裝置自動偵測而取得；被動定位則是指位置資訊透過使用者自己提供而得。主動式定位技術又可以分為以下兩類：

●Digital Cellular Standards：Subscriber的定位解析度是以基地台涵蓋範圍（Cell Size）為最小單位，而每個基地台所涵蓋的範圍會隨著地區的考慮而有不同的佈建密度，以GSM為例，範圍在2百公尺至30公里左右。

●GPS（Global Positioning System）：藉由24顆美國衛星以及各種不同的差分（Differential）技術，目前可以定位的精確度在2 – 200公尺左右，適用於定位監控（Position Surveillance）、緊急救助（Emergence Rescue）、車輛導航（Car Navigation）等。此外，根據GPS資訊可以計算移動的方向與速度，進而預測應該提供的資訊與服務。

範圍查詢的一個極端範例，就是傳統的全文檢索，或是搜尋引擎，而這類搜尋技術，可歸類為精準搜尋（Exact Search)。換句話說，使用者下達查詢資料的指令時，系統只從資料庫內抓取比對完全相同的資料出來，但卻無法抓取近似的資料，如此一來，便不能適用於黃頁的查詢應用。

範圍搜尋主要是針對具有地理概念的資訊，並進行概括範圍的查詢，因此並不侷限於二維的地理資訊而已。舉例來說，以本文要進行的黃頁查詢，其為純粹的文字資訊，並無二維維度可言，但是在查詢時，查詢者想要查的資訊可能會像是「輔仁大學附近的餐館」、「新竹科學園區附近的主機板廠商」等。

因此在做範圍搜尋時，需要先確定是單點定位／範圍定位，並確定被查詢的內容與做索引的方式，是精確的幾何座標點（Point – Based）或是區域式（Regional）。

底下即是一個行動環境的通訊系統架構，其架構如(圖三)所示：

《圖三　位置相關多媒體檢索》

(圖三)的多媒體資料庫必須儲存在位置資訊裡，也就是每張影像或視訊會有一個Metadata欄位標明其所屬的位置。而多媒體行動單元，可為高階的筆記型電腦、PDA，甚至是手機，並透過傳輸介面外接GPS獲得定位資訊後，再經過行動網路、Mobile Gateway、Internet傳送到行動多媒體伺服器，以進行地點相關之比對匹配。地點相關比對匹配的方法則如(圖四)所示：

《圖四　位置相關多媒體檢索》

行動多媒體檢索發展的瓶頸

以往行動網路在多媒體應用的瓶頸有二，分別是行動單元（Mobile Unit）設備和通訊網路的頻寬問題

行動單元（Mobile Unit）設備

行動單元（Mobile Unit）設備雖具有極佳的移動能力，但其計算能力較弱，因此在多媒體的應用上一直都有侷限；然而近來由於硬體技術的日益進步，許多的PDA、掌上型電腦都具有多媒體的顯示能力，並內建或外接數位相機、數位錄音機、固定網路電話，或行動電話等設備，因此可以成為極佳的多媒體行動單元（Multimedia Mobile Unit）。

業界產品中除了這些已有的PDA之外，行動電話手機也已經有大螢幕或彩色等功能的手機出現。甚至在行動單元上加裝類似投影設備，並將資訊打到大的螢幕或空白的牆壁，這些都可解決多媒體資訊顯示問題。

另外，近來資訊家電（Information Appliance）的蓬勃發展，再加上SOC（System On a Chip）整合性單晶片的出現，以及高階LCD量產技術的突破，電腦的定義已不再侷限於固定的桌上型電腦，而是具有比筆記型電腦更輕薄、短小的高階計算能力的電腦會出現在家庭、辦公室、公眾場所，或個人身上等許多移動式的場所中。

通訊網路的頻寬問題

因為多媒體中的影像、視訊或聲音等資料容量頗大，因此都需要較大的頻寬才能符合傳輸的需求。目前有線網路的頻寬已經大幅改進，網際網路的頻寬也已經進入10 Gigabit的世代；而區域網路，如專線、Cable、光纖等都逐漸朝100／1000 Mbps以上的速度在建制，因此有線網路的頻寬已經足夠。

至於無線通訊網路，隨著第三代行動通訊以及衛星通訊的技術日益成熟，台灣已經開放第三代行動通訊執照，預計未來一年內將會有業者提供頻寬高達2 Mbps以上的無線行動通訊系統，屆時無線網路的頻寬也將足敷使用。目前 IEEE 802.16a定義在70Mbps的傳輸速率，而IEEE 802.16e更針對行動裝置提昇傳輸速率至15Mbps。至於2002年12月成立的IEEE 802.20行動寬頻無線存取小組（Mobile Broadband Wireless Access，MBWA），預計將會提供更高的傳輸頻寬給行動裝置。

總結

目前多媒體檢索主要的問題在於查詢龐大的多媒體資料時，由於行動單位為Thin Client，其記憶容量有限，無法儲存大量的多媒體資料，所以必須透過行動網路向Server查詢多媒體資料庫。但是行動單元也有著螢幕小、輸入不易等特性。使用者的檢索方法若是沒有效率，那麼將會因為搜尋所得到的結果過多，而造成查詢繁瑣、頻寬擁塞，進而造成不易使用的嚴重問題。

因此，在未來行動網路寬頻的世界中，要如何提供有效的多媒體檢索，是一個迫切研究的課題。目前透過Semantics的方式我們可以讓查詢更加人性化；而透過UMA（Universal Multimedia Access）的理論，我們可以依照 Client 端目前網路的頻寬、運算的能力、輸出設備的解析度大小，或色階等，提供出一個適合的資訊檢索的結果。未來在Any time、Any where得到多媒體檢索後的資訊將是非常方便的。

＜作者潘東名為輔仁大學資訊中心講師，王元凱為輔仁大學電子工程系副教授＞