账号:
密码:
最新动态
产业快讯
CTIMES / 文章 /
迈向四核心行动时代
ARM芯片大跃进

【作者: 陸向陽】2012年03月26日 星期一

浏览人次:【5121】

近年来,运算行动化的态势已愈来愈明显,Desktop PC的成长已不再,过去30年来的PC产业,仅有1985年、2000 年才有少见的出货表现不佳,其它年皆为高度成长,然而,2011年似乎真的显现了疲态。


反观平板类产品气势如虹,智能型手机也仍持续高度成长,目前仍有20%以上的年增率,而无论是手机或是平板,均以ARM架构芯片为主,而非x86架构。


正因为手机、平板的高度成长,使行动装置ARM芯片技术急起直追,若将其与Desktop x86芯片相比,2000年即达1GHz运作频率,2005年出现双核,2006年出现四核,将此对应到ARM,ARM芯片在2009年达1GHz后,在2011年达双核,2011年底开始到今年的2012年,四核将大幅开展。


由此可知,ARM与x86间的重大技术里程差距,从9年(突破1GHz)拉近到6年(双核、四核)。然而,行动装置真的有必要采用四核心吗?采用四核心的技术评估与考虑为何?本文以下对此进行讨论。



《图一 1 x86架构、ARM架构技术历程比较 制表:陆向阳》
《图一 1 x86架构、ARM架构技术历程比较 制表:陆向阳》

ARM多核心发展历程

ARM架构芯片的真正窜起是自ARM7TDMI(ARM7系列)开始,更早之前的ARM1~6并不普及,而在7系列后也陆续开展了9系列、11系列。


11系列后ARM的指令集架构(Instruction Set Architecture;ISA)大转变,由ARM、Thumb转变成Thumb 2,此为ARMv7架构,过往ARM7、9、11则分别为ARMv4、5、6架构,ARM7、9、11自此被ARM归类为经典、古典(Classic)处理器,此后改以ARMv7为主,开展出Cortex-A系列、M系列、R系列的新系统。


M系列属成本取向的嵌入式应用微控器(MCU),期望取代多年来盛行的8051 MCU或其他8/16-bit MCU;R系列则以支持实时操作系统(RTOS)为主,若用于手机则多负责基频(Baseband)调变解调工作;A系列则以执行应用程序为主,一般也称应用处理器(Application Processor)。


更简单说,M系列像MCU,R系列为执行时效性要求更严苛的嵌入式MCU,A系列则类似MPU、PC CPU,本文所言的双核、四核等多核的ARM,即指A系列。


在A系列中,ARM最先释出的为Cortex-A8核心,而后才有更低规、低阶的A5核心、A7核心,或更高阶的A9、A15核心,不仅A系列如此,M系列也是先有M0、M3,而后才推行M1,字母之后的数字编号为规格、等级意义,而非发表先后顺序。


由于A8是A系列最早的1个核心,当初规划时并未考虑多核心设计,尔后ARM决议加入多核设计,所以A8之后的A5、A7可支持多核心,ARM方面将此称为MPCore(Multiple Processor Core)。同样的,A9、A15也支持多核心,其中A5、A7、A9支持双核、四核,A15更可到八核。


选择A9四核或A15四核?

既然A8仅能单核,无法双核,就更不用谈及四核,而多核化是为了获得更高的效能,因此多半往更高规的核心考虑,即A9、A15。


由于A8、A9、A15采相同指令集,因而有了齐头比较的机会。一般而言,A8每MHz可获得约2,000的DMIPS(Dhrystone MIPS)效能,A9则为2,500,A15为3,500。由此可知:同样核心数、同样运作频率下,A9效能高于A8,A15高于A9。


然另有相关论点表示,A9与A8无异,仅在支持双核、多核与否,A9可视为多核版的A8。不过,即便A9与A8同,A9的极限频率也高于A8,以台积电(TSMC)的40G(40nm奈米)制程最高可至2GHz,A8约1~1.4/1.5GHz。A15的另一效能强调为:同核数、同频率下高出A8、A9约50%能耐,即150%效能。


若将上述DMIPS效能进行单纯数学性计算,一般新闻上声称的「双核、2.5GHz的Cortex-A15,效能胜过5个1GHz的Cortex-A9」是成立的,即2 x 2.5 x 3,500 = 17,500,大于5 x 1 x 2,500 = 12,500。总之,A15具更高效能,A9也高于或等于A8,因此四核设计,将以A9或A15为考虑。


A15已有功耗过高顾虑

既然多核是为了追求更高效能,那为何不只考虑A15,而仍会考虑A9?


事实上,A15不单是为行动运算市场而推,ARM也期望透过A15打入过往ARM所无法进入的服务器市场,为此ARM在A15中加入了硬件虚拟化、大型实体定指扩展延伸(Large Physical Address Extensions;LPAE)等功效。


依据ARM的规划,1-2核、频率1-1.5GHz的A15诉求于高阶智能型手机;2-4核、1-2GHz的A15诉求为高阶数字家电(如平面电视);4核、1.5-2.5GHz的A15则诉求服务器;8核、1.5-2.5GHz则诉求无线基础建设(Wireless Infrastructure),更通俗的说法即无线局域网络(WLAN,如Wi-Fi)的路由器、分享器。


规划虽如此,但规划与实际有差异,目前手机、平板已有四核需求,如富士通(Fujitsu)在CES 2012期间揭露使用NVIDIA Tegra 3(Coretex-A9 x4)的手机Arrows,然ARM仅属意智能型手机使用双核。同样的,新创业者Calxeda以Cortex-A9为基础推出四核的服务器专用芯片EnergyCore ECX-1000系列,而不是使用ARM较属意的Cortex-A15。


既然A15有考虑打入高阶数字家电、服务器、无线路由器等市场,那么虽提升了效能,但恐怕难兼顾ARM向来自豪的低功耗,此也是仍有芯片业者考虑仅以A9来设计四核芯片,不一定要实行A15。


功耗与效能的折衷方案:big.LITTLE

不过,ARM方面似乎对此有所自知,因此提出了补强方案,称为big.LITTLE组态配置,该组态配置允许在一个多核系统设计中,同时使用A15或A7两种不同的核心,有别于过往Cortex-A系列的多核设计均需使用相同核心,A15与A7在big.LITTLE组态配置下可兼容、协同运作,运算工作也可平顺、无形地自A15转移到A7,或自A7转移至A15。


big.LITTLE构想的好处在于,一旦运算负荷降低时,在轻载状况下,可以关闭A15核心,将工作转移给A7,达到省电效果。而在尖峰重载下,则将工作转移给A15,或是A15、A7等核心同时开启,共同协力运算以加快工作完成。简言之,big.LITTLE是一种以动态切换方式,达到效能、功耗兼顾的补强设计。


至此,或许会有人提出此疑问,为何选定A7,不选择A9、A5与A15来搭配?


选定A7,在于单核A7的电路面积(功耗)仅单核A8的20%,但效能却有单核A8的50%,是在轻量运算负荷下,每瓦效能(Per Watt Performance)较高的核心。相较来说,A9的功耗与效能已接近A15,由其担任轻载运算,虽快速但不够省功耗;A5则是功耗最低,但效能也低落,恐也不易与A15搭配运作。


不单ARM提出big.LITTLE方案,NVIDIA也有类似的实现技术,称为vSMP(Variable Symmetric MultiProcessing),以Cortex-A9四核的Tegra 3而言,其实还额外配属1个较低频率(仅500MHz)的Cortex-A9,当运算进入离峰状态时,会关闭四个高效能、高频率的核心,仅用一个低频率的A9来运作。


事实上这也类似NVIDIA过往提出的Optimus技术,即轻量绘图运算时用整合型的低效能绘图处理器(IGP),重度运算时改用独立封装运算的高效能绘图处理器(dGPU),且动态、无形地平顺切换。德州仪器(TI)也采相似作法,只是TI的高效能为Cortex-A8,低效能则由Cortex-M3负责。


为何NVIDIA选择用五个均为A9,而TI为A8+M3?在此推测此攸关ARM的技术授权费与量产权利金,TI的其他芯片产品可能已获得与使用M3授权,因此用在其他芯片并无大碍,但NVIDIA并无其他芯片产品需要使用低阶的M3核心,因此专注使用A9反较合适。


众多业者推出四核ARM芯片

谈论技术规划后,接着是芯片业者的实际发展进度,目前多家业者已推出或规划上将推出四核ARM芯片,如NVIDIA已推出Tegra 3(A9 x4),并用于ASUS的Eee Pad Transformer Prime平板及Fujitsu Arrows智能型手机上。


又如飞思卡尔(Freescale)的i.MX6系列也采A9四核设计,三星(Samsung)也将在今年推出Exynos 4412的A9四核,随即在同年稍后时间推出Exynos 5450的A15四核。


另外,多方消息显示,Apple的Apple A6也将是四核设计,但仍不知实行A9或A15核心,而新加坡创新未来(Creative)所属的ZiiLabs也在ZMS-40的新芯片上实行A9四核。


进一步的,TI的新款OMAP5也计划推行四核,高通(Qualcomm)也规划在Snapdragon S4与更后续的系列中实行四核(Krait-MP核心、微架构),但核心为A9或A15等级仍待观察。在制程方面,已出货的NVIDIA Tegra 3实行TSMC 40nm技术,而Samsung无论A9四核或A15四核都将实行32nm技术,Qualcomm预计实行28nm技术。


此外,还有一些业者的动向值得留意,即Fujitsu与ST Ericsson,数据显示Fujitsu与ST Ericsson均取得A15技术授权,此高度意味着也将发展四核芯片,推测ST Ericsson的NovaThor系列芯片,也将从现有双核(A9)扩展延伸至四核。


《图二 ARM核心发展历程及多核心支持图。(绘图:陆向阳)》
《图二 ARM核心发展历程及多核心支持图。(绘图:陆向阳)》

《图三 理论上最完美的多核效能为沿着黑虚线扩展,但实际上难以达成,但仍以红色线的四核达350%效能,优于绿线的四核仅达200%效能。(绘图:陆向阳)》
《图三 理论上最完美的多核效能为沿着黑虚线扩展,但实际上难以达成,但仍以红色线的四核达350%效能,优于绿线的四核仅达200%效能。(绘图:陆向阳)》

行动多核的考验

透过上述历程描述可知,ARM架构(在此指应用处理器部份,不含MCU)的技术提升与演进历程,其实与x86架构大同小异,最初以拉高单核的频率频率来获取效能,然在频率手段至一定程度后,改以「增核」方式提升效能。


虽然都转向多核,但x86是在频率至极致,无法突破4GHz时(一般称Clock Wall,指频率撞墙),才考虑转成多核,但ARM则是在「频率增加一些,但连带的功耗增加很多」的状况下,由Per Watt Performance角度衡量下不合算,才转向多核,所以ARM架构的芯片,其频率频率仍会随制程技术进步而有若干提升,但x86架构的芯片则几乎不提升。


不过,既然都转成多核,则其实质效能能否释放?考虑的技术问题点却是相同的,首先是多核之间的传输是否够快速?这考验芯片内的连接设计架构(On-Chip Interconnect),差劲的架构可能使双核只能发挥110%~140%的效能,良善的架构可能使双核发挥到170%~190%的效能。


多核不仅考验芯片内连接接口的硬件线路设计,操作系统(也包含文件系统、数据库等)也是一大考虑,糟糕的操作系统不支持多核,或虽有支持,一样有大幅度的效能折损。即便双核芯片但原生硬件效能上拥有190%(仅折损10%),但透过不良的操作系统执行,则再次遭到效能折损,最终可能仅有120%的实质效能发挥。


同样的,应用程序也必须与操作系统相同,须针对双核、多核等组态配置,重新编译(Recompile)与微调(Tune),才能发挥多核的效果,否则原本以单核方式撰写、编译的应用程序,即便在良善支持多核的操作系统上执行,还是会仅在一颗核心上执行,其他核心无法给予助力,只能闲置或关闭,或执行其他应用程序。


也因为多核的作法,不能让原有的操作系统、应用程序直接获得加速,因此过去芯片业者多积极只用提升频率,或新设计的执行处理器电路等手法来提升效能,如此原有应用程序不需任何工程调整即可获得加速。但今日此路逐渐难行,多核处理器已是必行之路,硬件芯片业者须加强对软件业者的劝诱、鼓励与影响,其芯片的新效能价值才能真的开展。


相关文章
以协助因应AI永无止尽的能源需求为使命
智慧家居大步走 Matter实现更好体验与可靠连结
车载软体数量剧增 SDV硬体平台方兴未艾
低功耗MCU释放物联网潜力 加速智慧家庭成形
AI赋能智慧边缘 行动运算处理器的时代革命
comments powered by Disqus
相关讨论
  相关新闻
» 贸泽电子2024年第一季度推出逾10,000项新元件
» 宜特2024年第一季合并营收突破10亿元 展现验证分析布局力道
» SAP加速AI驱动供应链创新 推动制造业转型
» 宇瞻迈入绿色显示市场 成功开发胆固醇液晶全彩电子纸
» 调研:2024年中国ADAS市场迈向Level 3自动驾驶


刊登廣告 新聞信箱 读者信箱 著作權聲明 隱私權聲明 本站介紹

Copyright ©1999-2024 远播信息股份有限公司版权所有 Powered by O3  v3.20.1.HK84S3MJDS0STACUKU
地址:台北数位产业园区(digiBlock Taipei) 103台北市大同区承德路三段287-2号A栋204室
电话 (02)2585-5526 #0 转接至总机 /  E-Mail: webmaster@ctimes.com.tw