手机主流处理器CPU参数及性能的总论(暨高通,联发科,ARM架构,安卓系统等之间的讨论)

发布时间:2013-08-17 15:45:24

从2007年iPhone发布开始,手机开始迈入真正的智能时代。处理器从最早的ARM11 400MHz一路飙升;2008年我们拥有了ARM11 533MHz;2009年进化到Cortex A8 400MHz;2010年则瞬间提升至Cortex A8 1GHz;2011年,双核Cortex A9 1.2GHz开始普及;2012年,四核Cortex A9 1.4GHz出现......智能手机处理器的运输能力几乎以每年2.5倍的速度在提升。如果以平台的寿命来看,ARM9平台大约拥有5年的寿命,ARM 11为4年,在这之后,Cortex A8在主流市场坚持了一年半,而单核Cortex A9被直接跳过,双核Cortex A9一年、四核Cortex A9也是一年。

为何市场会出现如此强大的推动力,让企业可以集中全行业的技术和利润,去疯狂推动一台小小的手机疯狂升级?最主要的原因是因为手机本身的定位发生了变化,过去大家需要用PC实现的应用和功能,如今都开始往手机上转移,这是推动手机硬件爆炸发展的原动力。

这样的需求转变给手机带来了无穷无尽的性能需求,也催生了手机的大屏化——我们需要呈现越来越多的信息,手机的屏幕自然就要同步增大。第一轮洗牌的赢家是苹果(必须承认的是,即便没有苹果,这个时代依然会到来,因为硬件性能的提升是客观存在且不会停止的)。

然而,硬件规格大幅提升之后,伴随而来的是同样大幅增加的功耗和发热。疯狂的硬件军备竞赛催生出了智能手机的黄金时代,也给整个行业埋下了定时炸弹,一场危机近在眼前。

“安装飞机发动机的自行车”

如果我们给奇瑞QQ轿车安装1000马力的发动机,可以获得与超级跑车相近的性能吗?答案是否定的,因为奇瑞QQ的车体根本无法承受这样的动力输出。同样的道理,我们把英特尔酷睿i7处理器装在手机上也没有意义,因为手机根本无力承担它的功耗。在这个层面上,我们是理性的,厂家也是理性的,至少在相当长一段时间内是这样。然而,这部分理性如今却在逐渐消失。

一个被业内视为默认规则,而听起来又异常奇怪的现象是:2012年之后的旗舰智能手机,没有几台能让CPU做到长时间满负荷工作不降频。厂商不断地往手机里塞入更快、更强大的硬件,与此同时,却不得不限制它们的工作频率与工作时间。你看到的产品手册上赫然写着“四核1.7GHz”,但实际使用中你永远无法得到这样的性能。这方面的例子比比皆是,从Nexus 4冷柜跑分暴涨30%,到K3V2的GPU频率缩水6成,大多数旗舰手机都无法发挥出它应有的性能。



来自Anandtech的著名测试:把Nexus 4扔进冰箱,结果跑分提升了20%以上!

根据第三方测试,目前的旗舰手机能以最高频率工作的时间少则数十秒,多的也只有几分钟,之后便不得不降低频率以缓解发热。消费者听着“性能提升xx%”的宣传,花费高额费用抱着“四核1.7GHz”的手机回家,却只能享受30秒的快乐,这难道不是一种讽刺?往一台手机里安装根本无法全速运行的“强大”处理器,与开头提到的往奇瑞QQ上安装1000马力的发动机有什么区别呢?

下面的表格是一个实例:LG为Optimus G Pro配备了强大的骁龙600处理器,但持续高负载工作3分钟后,实际性能却不如搭载了上一代APQ8064芯片的SONY Xperia Z。配置更高的新产品,在实际使用中却输掉了“性价比”,我们得到了配置,却没有得到性能。

你也许会说,反正价格没有更贵,能不能全速没啥损失,但这样的观点也是错误的。记住:你永远是在为手机的标称性能埋单,而不是为实际性能埋单。八核手机即使只能发挥出四核手机的性能,它的价格也是“八核”级别的。硬件上所有的成本最终都会以各种形式转嫁在消费者身上。问题是:我们为什么要为发挥不出来的性能埋单呢?

这样的趋势在2013年乃至更远的未来并没有缓解的迹象。作为消费者,我们必须要明确自己的立场:这种趋势是错误的,我们有必要制止它进一步恶化!否则我们所付出的金钱将只能换来几个纸面上的数字,而“安装飞机发动机的自行车”迟早有一天要到来。

然而,指出错误很简单,纠正错误却很困难。如果无法得到一个对于正确的评价标准,那么对于未来的分析也就没有意义,这就启发我们去寻找一些不会被技术所改变的东西,作为衡量正确与错误的标准。

接下来,我们将提出一个相对客观的评价标准,并以之为准绳,对2013-2014年市面上主流的手机处理器进行逐个分析。

“不可逾越之墙”

什么是技术所无法改变的事物?对于智能手机而言,一是客观存在的物理定律,二是人的生理需求。因为本文的主题是处理器,因此我们把目光集中在处理器系统上。

可以确定的是,只要技术还没有进步到手机可靠意念操作,那么人体对设备温度的可以接受上限就是确定的;而只要手机还符合物理定律,在一定温度下它所能散发的热量也是固定的(不考虑主动散热,例如内置风扇),这就勾勒出了一条“生死线”——在舒适的前提下,一个确定尺寸的手机,所采用的硬件功耗,或者说处理器系统的功耗是有极限的,只要超越这条线,就必须要降低工作频率,否则将会无法阻止温度的上升,性能自然也就无从谈起。因此我们认为,“手机的极限功耗不应该超过其最大可散热功耗”可以作为衡量产品的准绳。

长久以来,业界都习惯于用配置和价格的关系作为评价标准,但是如果联系到配置与性能脱节的现实,这个标准已经濒临失效,因此我们需要提出一个新的评判标准,不妨姑且将其称为“体效值”。

何谓体效值?我们将体效值定义为设备体积与能耗系数的乘积,它代表了一台手机所可以连续提供的极限性能。将这个参数与理论最大性能联合评价,能得出以下的结论:如果系统的体效值小于最大性能,那么这套系统就必然是错误的,因为存在着浪费。但是如果体效值大于最大性能,那么这套系统有可能陷入“性能不够用”的疑问。最佳情况是体效值和最大性能相同,这意味着这套系统所蕴含的性能可以全部发挥,做到了设计可以得到的极限。你可以把“体效值”简单理解为“每瓦特性能”。

手机绝对性能的测量相对简单,因此体效值中最关键的部分是“体”,即手机体积所能容纳的最大功率。这方面目前没有明确的行业标准,因此我们需要做一些假设。首先,我们假设在现在以及将来的一段时间内,手机将主要依靠外壳进行被动散热,不会像电脑一样引入风扇等主动散热手段。其次,我们将人体感温度舒适上限设为40度,而耐受极限设为50度。最后,我们将手机工作时环境温度设为25度,并且假定没有气流存在。

无外界对流时,手机的热量散发主要依靠空气的自然对流与本身的辐射。假定手机的温度为介于舒适上限与耐受极限之间的45度,那么与环境温度的差值即为20度。相对于手机这个体积的设备而言,四个边侧面的散热贡献可以忽略不计,主要的散热面为前后两个面。计算时假定手机为垂直放置。

下面计算开始,首先计算对流散热量,我们选择iPhone 5作为标准对象。iPhone 5的尺寸为123.8×58.6×7.6毫米,因此正面的面积为0.0073平方米。垂直放置的情况下,iPhone 5一个正面的传热系数为4.65W/(m2•℃),也就是说这样一个表面可以靠对流散发的热量是0.68W,由于有两个表面,因此靠机身自然对流可以散发的热量为1.36W。考虑到还有侧边的存在,我们可以认为这个功率是1.5W。

接下来计算辐射热量。由于iPhone 5的材质是铝合金和玻璃,氧化铝合金的辐射率大约在0.3左右,而玻璃的辐射率大约是0.85,因此整体辐射率取0.6,那么在外壳温度整体为45度的时候,靠辐射可以散发的热量经过计算大约是1.16W。

也就是说,一台通体45度,垂直置于静态25度的环境中的iPhone 5,可以散发的热量极限是2.66W。

实际环境中,考虑到用户体验,手机不会也不可能做到整机均匀发热,这无疑会降低手机的散热能力,但由于人体与手机的接触也可以带走一定的热量,因此两者互有增减,相信整体的散热功率不会与计算数值差距过大。因此,大约2.66W就是iPhone 5所能承受的最大整机功率(这里直接使用了整机功率,这是因为目前电子产品除了天线部分以外,消耗的电能绝大部分都转化成了热量,耗电量和发发热量基本相等)。

再来看看Galaxy S4。由于计算的方式是相同的,因此过程就不给出了,唯一的不同是,作为塑料外壳的Galaxy S4,在热辐射效率上要远高于铝合金的iPhone 5,具体来说在0.9左右(看来塑料机还是有一些好处的)。结果直接给出,Galaxy S4在同等条件下的散热量为4.15W。

Galaxy S4旗舰安卓手机的代表,因此更大尺寸的机器我们就不计算了。结果显而易见,对于iPhone 5这种尺寸的手机而言,系统的极限功率是2.66W,而Galaxy S4尺寸的产品则为4.15W。体积处于两者之间的产品,散热能力则介于它们之间。至此,体效积中的体就已经有了结论。因为这个参数是不会因为技术提升而改变的,所以它可以作为我们判定未来新技术与新可能的良好标准。

也就是说,对于一台5寸手机而言,我们可以得到的最大性能就是4.15W×每瓦特性能,不论这台手机的理论性能有多么强大。换句话说,只要一台5寸手机的整机最大功耗超过了4.15W,那么我们就一定可以判定:它的性能无法发挥。

进一步的,对于一台手机而言,屏幕所占据的功耗大约从4寸的1.2W到5寸的1.8W不等,因此我们可以得出,极限散热功耗中,留给CPU、GPU、内存等计算系统的功耗上限,对于iPhone 5尺寸的手机而言是1.5W左右,对于Galaxy S4尺寸的手机而言是2.5W左右。

需要说明的是,在计算散热量时,我们所关注的对象是手机外表面,至于内部是如何传热的,对结果不会有影响。可能你会存在疑问,某手机内含热管,某手机拥有石墨散热膜,散热要好得多——这是错误的,辅助散热措施只是增加了手机内部的热传导效率,最终效果是提高手机整体的温度均匀性,而我们在计算的时候已经假定了这个数值是100%,也就是内部热传递设计为完美状态的极限结果。

至此,我们可以对智能手机“核战争”带来的问题给出一个精确的描述:由于近年来手机配置的疯狂提升,导致手机的最大性能已经超越了体效值。这个前提下,任何理论性能的提升都是纸面的,功耗已经成为了一堵不可逾越的墙。在可以预见的未来,如果我们希望继续提升手机的性能,那就只能在能耗系数上下功夫

带着这个结论,让我们来重新审视一番市面上的主流手机处理器。

产品审查:高通骁龙800

首先我们来看一看高通。之所以首先观察高通,是因为相对而言高通的产品是变化幅度最小的,因此我们可以借用的历史数据就最多。在《四核处理器•上》成文时,高通的最新产品是S4 Pro APQ8064。而在我们撰写本文时,高通重新命名了它的产品线,S4 Pro有了继任者骁龙600。这是一颗和APQ8064区别很小的芯片,最大的提升在于内存从双通道LPDDR2 533变成了双通道LPDDR3 1066,因此我们不打算深究这颗芯片。

高通的重头戏,以及下半年乃至明年的主打,将是骁龙800。它拥有改进后的Krait 400核心,主要改动是调整了内部缓存架构,降低异步设计带来的影响。同时,骁龙800引入了HPM工艺,主频达到了2.3GHz,成为手机SoC中的一个超过2GHz大关的产品。除此之外,骁龙800还集成了新的Adreno 330 GPU,性能与规模再次翻倍。



文件压缩速度,骁龙600的Krait 300内核同频性能甚至不如Cortex A7

相信看过之前的文章后,现在的你已经不会被上面充满诱惑力的宣传所击倒。是的,我们再次重复一遍:绝对性能的提升没有意义,决定用户体验的是体效值,或者说每瓦特性能。那么骁龙800的每瓦特性能有没有提升呢?

首先我们来看一看CPU部分。由于缓存的增强,Krait 400核心的执行效率必然会得到一定的提升,但是Krait核心从本质上来说依然是一个“增肥”版的Cortex A9,它所面对的最大问题其实是由于指令队列的不足,导致架构的IPC受限。

Krait的后端就像是规模巨大的工厂,而经过持续的升级,Krait的前端已经从小港口变成了大型码头——但是连接它们的依然只是一条省道。这样的架构也许可以在理论测试中获得极高的成绩,但是在实际变幻莫测的应用代码面前,往往无法发挥应有的效率,根据某些第三方测试,在诸如视频解码、文件压缩与解压缩等应用中,Krait 300核心的同频性能有时会不如Cortex A9甚至A7。这虽然不足以定性的给这个架构下结论,至少也可以说明一部分的问题。

因此,综合来看,Krait系列核心的能耗,恐怕是比较悲观的,即APQ8064的执行效率并不如Cortex A9,Krait 400核心虽然经过了两次升级,但是考虑到Krait 300的实际表现,我们认为其执行效率至多只能达到略高于A9的水平。也就是说,Krait 400架构效率上并没有大幅超越Cortex A9。

那么产品效率呢?在这之前笔者需要稍微岔开一些话题。不知道你是否发现,我们在对比效率的时候往往都会和Cortex A9相比,准确来说是和SAMSUNG Exynos 4412相比。为何要用它作为基准?这并不是因为偏心或是对于三星有着额外的好感,原因很简单,那就是根据之前我们对手机极限功耗的定义,在那样的功耗限制之下,Exynos 4412是体效值与绝对性能之间最接近的产品:Exynos 4412的核心,工作在1.4GHz时单颗功耗约为440mW,1.6GHz约为600mW,总功耗即为1.8W与2.4W。因此Exynos 4412是一个极好的标准——如果有产品的效率比4412高,它就可以发挥出比4412更加优越的实际性能,否则就只能在降频中工作。

在骁龙800以外的产品中,高通采用的是28LP SiON/Poly工艺,这会导致漏电增加,继而降低能耗比。在上篇中我们引用外媒Anandtech的结论,得知28LP工艺的骁龙APQ8064,运行在1.5GHz的频率下,单个核心的功耗大约是700mW

而到了骁龙800,高通终于引入了先进的HKMG技术,将工艺更换为了28HPM。那么,这个工艺是否能提升骁龙800的能耗比?根据TSMC对于28HPM的工艺描述,我们认为这个答案同样也许是比较悲观的,因为28HPM本质上是用来提升性能的工艺,它的主要目的是让骁龙800得以运行在使用28LP的骁龙600所无法达到的高频下,但是处理器本身的漏电并不会因此而减小。



台积电四种28纳米工艺的区别

我们粗略估计,运行在2.3GHz下的Krait 400核心,即便只考虑频率的提升,单个核心满载的功率也将超过1W,四核心的总功耗则会远超2.5W的散热功耗上限。至于能耗比,在低频段,骁龙800的能耗比也许可以略超龙600,但是总体来说我们并不认为骁龙800在CPU部分的能耗比会大幅领先于Cortex A9,也就是说骁龙800的体效值将明显小于极限性能。

按照我们之前的分析,骁龙800在手机上的长期性能表现就将不会比Cortex A9提升太多(短期性能表现,例如基准测试,会因为设备的热容以及温度滞后效应而大幅提升,但是只要工作足够长——不超过三分钟——的时间后,性能将会降低到Cortex A9水平)。



使用工具监控骁龙APQ8064的CPU频率变化,运行2分钟以后,CPU频率降低到了1GHz以下

那么GPU部分呢?这方面的问题可能会比CPU更加严重。高通Adreno 300系列GPU的超低能耗比已经是众人皆知的问题,其严重程度远超CPU。由于GPU相对于CPU而言是低频大规模电路,因此它对于漏电的敏感程度要远高于CPU,对于频率的敏感程度则不如CPU。骁龙800所集成的Adreno 330相对于Adreno 320而言规模提升了一倍,因此功耗的提升幅度自然也不会小到哪里去,我们假定Adreno 330可以借助HPM工艺,完全避免功耗的提升,它的能耗比能有多高?



使用工具监控骁龙600的CPU频率变化,Krait 300核心根本无法维持全速工作

对于这个问题,我们可以通过一个粗略的测试来判断。Galaxy S4和配备了骁龙600的手机,在3Dmark中的得分基本是相同的,但是根据耗电量得出的整机功耗估值方面,Galaxy S4所具备的SGX544MP3 GPU的功耗几乎只有Adreno320的15%甚至更低,换句话说就是SGX544MP3的能耗比几乎是Adreno330的7倍——实际上,根据粗略测试的结果,Adren 320的功耗已经达到了大约6W,不论这个数字是否精确,Adren 320早已远远超过了2.5W,甚至4.15W的散热功耗极限。性能翻倍dreno 330即使维持功耗不变,也将和CPU一样,在实际工作中也将永远不可能发挥出其最大性能,它的体效值同样远远小于理论最大性能。

最终,我们对于骁龙800的预期表现是比较悲观的。我们认为,在CPU部分,配备骁龙800的产品,并不能让用户得到远超四核心Cortex A9——如宣传、测试以及参数上那样——的实际体验,而GPU方面则更会远远不如SGX544MP3,不论理论测试有多么强大。骁龙800并没能有效提升能耗比,因此装有骁龙800的产品,其体效值将远远小于宣传的性能,作为结果,消费者购买的大部分参数和数字,将会永远停留在纸面上——当然,还有基准测试软件里。

产品审查:Tegra 4与Tegra 4i

虽然都属于Tegra 4家族,但是实际上Tegra 4和Tegra 4i的核心并不相同:前者基于Cortex A15,而后者基于改进版Cortex A9。对于后者我们不会多加论述,我们将主要关注前者。如同Tegra3,Tegra 4也引入了nVIDIA自行设计的vSMP 4+1技术。因此对于Tegra 4的效率分析,将会分为两个部分:4核部分与附加单核部分。

首先是4核部分。Tegra 4的所有核心都是典型的Cortex A15架构,工艺使用了TSMC 28HPL,因此对于这一部分的分析我们可以找到一个极好的参照物,那就是Nexus 10所配备的Exynos 5250。后者是一枚双核Cortex A15、32nm HKMG LP工艺、工作频率1.7GHz的SoC。根据已有的测试结果,Exynos 5250的CPU功耗为4W,也就是说单核功耗为2W

这项对于Exynos 4412的440/600mW而言是一个相当大的数值,这也意味着Cortex A15的性能必须要四倍于Cortex A9,才可以维持效率的一致。NV做到了吗?很明显,也很遗憾,没有。Cortex A15的性能提升幅度远远没有功耗提升幅度大,两者之间的差距导致了Cortex A15的每瓦特性能相对于Cortex A9来说有着至少一半的下降。

那么回头来看看Tegra 4。由于核心是相同的,我们只需要对比工艺。TSMC 28HPL相对于三星32nm HKMG LP,究竟有没有性能和漏电方面的提升我们很难判断,但是大体上两者属于同一时代的同一水准工艺,相信差距并不会过大,我们假设台积电的28LP工艺总体能耗比三星降低30%——这已经几乎是同一代工艺可以存在的最大差距——这也远不足以抵消Cortex A15和Cortex A9近乎200%的差距,更何况Tegra 4的主频高达1.9GHz,这进一步降低了它的功耗可以低于2W/核心的可能性。这也就意味着,即便只有一颗核心工作,Tegra 4的功耗就已经逼近了4寸手机的散热功耗极限,而四核同时工作,如果不加限制,CPU部分的总功耗必将轻松突破8W



Tegra 4功耗有多大NV很清楚,所以给自家的Shield游戏机装上了风扇!

既然能耗比如此之低,那么技术有何改变、理论性能有何提升、在哪里提升就完全没有意义了。在手机上,Tegra 4的四枚Cortex A15所能发挥出的长期性能,除了极少数情况下,可以几乎肯定的说,将远不如一个设计优秀的四核Cortex A9处理器。

那么辅助的拌核部分呢?NV没有公布拌核的细节资料,我们假设它工作在1GHz,由于HPL工艺带来的低漏电,预计可以让这枚核心的功耗降低到0.6W左右,大约等同于一颗1.6GHz的Cortex A9。在这个工作条件下,Cortex A15的能耗比和Cortex A9比较接近,因此它们具备了接近的体效值。但是此时的Tegra 4,绝对性能只有四核Cortex A9的四分之一,体效值远远高于绝对性能,这也就意味着此时的Tegra 4会因为过慢而无法满足用户需求。

综上所述,Tegra 4不论在哪个模式下,所能提供的最大性能都难以超越四核心Cortex A9处理器,把这样一颗处理器做进手机唯一的意义也许只有一个——想方设法让手机坚持满载运行三分钟,跑出一个惊世骇俗的基准测试分数,给手机发烧友作茶余饭后跑分攀比的资本,就好比购买超级跑车上下班,除了炫耀以外没有任何意义。

至于Tegra 4的GPU部分,由于目前资料较少,所以无法给出分析对比。当然我们也需要明白,Tegra 4的悲剧并不全是由于Tegra 4本身或是nVIDIA的技术实力导致的,究其根本,元凶还是Cortex A15核心过低的能耗比。这也决定了不仅是nVIDIA,其他任何试图在产品中引入标准Cortex A15架构的厂家,例如未来的华为海思K3V3,最终都将难逃“性能超不过A9”的魔咒。

对于手机等便携式设备而言,Cortex A15毫无疑问是一个失败的设计,也无怪乎高通和苹果在几年前就决定放弃这个架构,自行以Cortex A9为基础发展自己的强化核心。这也从另一个方面看出,至少在目前可以看到的ARM产品中,Cortex A9依然是可以提供最强实际性能的产品,即便它已经问世超过了2年。

最后提一下Tegra 4i。相信NVIDIA规划这样一个产品,也是因为NV实际上非常明白Cortex A15是一颗怎样的核心。因此,我们甚至可以理解为,Tegra 4i才是针对手机市场所推出的高性能产品。改进的Cortex A9 r3p1核心可以带来最多15%的同功耗性能提升,也就是更高的体效值与实际性能。但是Tegra 4i却如同骁龙800一般选择了HPM工艺,并且因为需要集成基带而无法在2013年上市,这对于Tegra 4i和NVIDIA而言无疑是彻头彻尾的悲剧,尤其是如今Cortex A12箭在弦上的情况下。如果说Cortex A15可以看作ARM在被成功冲昏了头脑之后的大跃进,那么后者就可以看作是ARM在大跃进失败后的反省之作,肩负了Cortex A9正统继任者的使命。对于它,我们在后面予以讨论,这里暂不多言。

产品审查:三星Exynos 5 Octa

最后来谈一谈技术最为复杂,同时争议也最大的三星Exynos 5 Octa(Exynos 5410)。这个芯片最大的特色就是整合了ARM的big.LITTLE技术,内部集成了8个核心——四个Cortex A15为一组,四个Cortex A7为一组,从而成为了手机上第一枚超越四核的片上系统。

也许你会提出质疑,NV的Tegra 3和Tegra 4实际上也拥有5个核心,为什么它不能算作是五核SoC呢?原因很简单,因为Tegra多出来的那一枚核心其实设计上是作为四个主核心其中之一的映射,在实际工作中系统是识别不出这一颗核心的。

但Exynos 5 Octa不同,它的八颗核心在某些情况下是可以同时运行的,因此可以称之为八核SoC,虽然实际情况下这样的工作模式不一定会被用上,关于这点,即Exynos 5 Octa是否是伪八核,同样也是围绕这颗芯片的众多争议中最大的一个,对此后面我们会详细讨论。

除了big.LITTLE以外,Exynos 5 Octa本质上是一颗非常典型的处理器,它拥有标准的Cortex A15核心、标准的ARM系统IP,支持的规格与系统配置也一如三星以往的风格,顶级而不顶尖。LPDDR3 1600的内存支持与12.8GB/s的理论带宽在手机SoC中实为翘楚,而PowerVR SGX544MP3运行在533MHz的高频下,假如不考虑信息尚不明确的Tegra 4,性能也足以进入ARM世界的前三:仅次于iPad4的SGX554MP4和骁龙800的Adreno 330。

工艺方面,三星使用了自家最新的28nm HKMG LP,根据三星的宣传资料,相对于32nm HKMG,28nm HKMG主要的提升在于集成度,也就是单位面积下可以实现更多的晶体管,提升幅度大约在35%左右。至于漏电等工艺性能,我们有理由认为不会和32nm HKMG,也就是上一代的Exynos 4412所采用的工艺有太大的差别,具体原因在上篇中我们也多有提及。三星32nm HKMG实际上是一个性能相当强悍的工艺,Exynos 5 Octa的基础至少也是有所保障的。

不过,如同之前说过的,Cortex A15本身不是一个利于手机使用的架构,只要把它做进手机,都要面对功耗难题,,三星也不能例外。Exynos 5 Octa的最高频率目前并没有明确的说法,也许会在1.7到1.9GHz之间,但我们知道的是,在Galaxy S4上,Exynos 5 Octa的最高频率只开放到了1.6GHz。

1.6GHz的标准Cortex A15核心满载功耗不会低于1.8W,三星即使经过大量优化,Exynos 5410四颗A15核心的总功率也依然要在6W以上,这大大超越了2.5W乃至4.15W的散热极限。实际情况可以作为这个推断的最佳例证:Galaxy S4的CPU满载工作的时间只能达到区区10秒,之后就不得不因为核心温度突破90度而被迫关闭Cortex A15核心。

Exynos 5 Octa是一个明显的市场导向产品,三星在设计它的时候,考虑优先点是市场对于参数的需求,而完全不顾这样规模的硬件是否可以安全的工作。当然,作为应对,ARM提出了big.LITTLE,三星也将其引进到产品中,但是这样的行为并不能本质上改变这个设计的失败之处。有人也许会说,这不是很好吗,何来失败?那就让我们继续研究下去。

现在让我们来打个赌:如果你是Galaxy S4八核版的用户,你绝对会有这样的体会:Exynos 5410处理器主频在实际运行中非常不稳定,低于标称的1.6GHz是常态。

在Exynos 5410中,Cortex A15四核的最低工作频率是1.2GHz,而Cortex A7四核的最高工作频率也是1.2GHz。问题是,这两者的同频性能并不一样,导致以频率为控制参数的算法比较难写。于是三星在系统中将Cortex A7的有效频率显示为实际频率的一半,并以此作为控制参数,就实现了较为线性的频率——性能曲线。



运行5秒钟以后,猎户座5处理器的A15核心即开始降频

也就是说,只要你看到Exynos 5 Octa的工作频率是1.2GHz以上,就意味着现在是Cortex A15在工作,而600MHz则意味着Cortex A15已经关闭,系统已经切换到1.2GHz的Cortex A7。由于频率调节十分频繁,所以这给我们计算Exynos 5 Octa的效率带来了一定的困难,不过我们依然可以从实际工作的情况下对于极限性能给出近似的计算。



Exynos 5410 CPU + GPU同时满载的情况,注意下方的频率曲线

enet的测试结果显示,在满负荷工作的时候,Exynos 5410的工作模式大约如下:Cortex A15于1.6GHz工作6秒左右,于1.2或1.4GHz工作4秒左右,然后切换到1.2GHz的Cortex A7工作10秒左右,并且在这样的序列下循环。由于频率调节的目标是功耗以及温度,因此我们可以近似认为在这样的工作序列下,处理器系统的平均功耗大约是2.5W左右。

如果将Cortex A15的性能归一化为同频Cortex A9的1.5倍,Cortex A7为0.7倍,因此我们可以得到在这20秒内,Exynos 5 Octa所输出的总性能相当于四核Cortex A9运行在1.53GHz时的性能。也就是说,Exynos 5 Octa所能提供的持续性能,甚至还不如Exynos 4412,因为后者在2.5W的功耗限制下可以运行在1.6GHz。

当然,这个结论有些粗略,我们只验证了基准测试时猎户座5处理器的CPU频率变化,实际应用中可能有所不同,但有一点可以确定,那就是Exynos 5410在手机上可以发挥的性能远远低于硬件设计的极限性能。Cortex A7与Cortex A15联合的效率,大约和Cortex A9不相上下,这也就意味着配备了Exynos 5 Octa的设备,其体效值并不会比Exynos 4412高。

然而,这并非Exynos 5 Octa的最佳工作模式。ARM big.LITTLE技术其实包含有三种工作模式:整体迁移、非对称多核心与异构多核心。整体迁移模式指Cortex A15或Cortex A7轮流工作,两者无法同时激活,具体开启的核心数字根据系统负载决定。非对称多核心则是将Cortex A15四核簇和Cortex A7四核簇看作两组非对称多核心簇,依靠外部总线工作在异步模式下,从而启动所有的八个核心。而第三种是最诱人的,也就是将每一个A15与A7组合成为一个“处理器对”,将其看作一个单独的处理器,系统根据需求开启若干个“处理器对”,而每一对处理器究竟使用Cortex A15还是Cortex A7,完全根据该核心的负载决定。

从理论上来说,Exynos 5 Octa支持全部的三个模式,但是三星目前在系统中却只支持了第一种模式,产品中的工作模式也只有整体迁移。这导致一些人认为三星这颗CPU的技术开发尚未完成,是“半成品”,因此并没有实现最佳的工作效果。甚至有一些分析表示,这是源于Exynos 5 Octa的硬件设计缺陷导致的,需要在未来的产品中才能修复。对此,我们认为这样的说法既是对的,也是错的。

为什么这样说?前提是,单纯的降低功耗并没有意义,只有提升体效值才可以获得更强的性能。对于Exynos 5 Octa而言,其他的两种工作模式似乎可以降低功耗,但可以提升每瓦特性能吗?这是一个未知数,而且是一个相当不容乐观的未知数,原因之一就在于Exynos 5 Octa的两组处理器,二级缓存的大小不同。

根据架构图,Exynos 5 Octa的Cortex A15部分,二级缓存为2MB,而Cortex A7部分只有512KB。如果是Cortex A9时代,这并不是问题,因为所有的二级缓存都是靠总线实现的访问。但是在Cortex A15和A7时代,ARM为了提升缓存效能,将L2 Cache整合进了多核心控制器SCU中,它的坏处就在这里:一旦系统内同时存在着激活的Cortex A7和Cortex A15,那么由于二级缓存的大小不同,两组核心之间的联合工作将会变得非常麻烦。

二级缓存是内存的映射,所以所有核心所访问的二级缓存的数据必须完全相同。Cortex A15和Cortex A7各自拥有自己独占的二级缓存,当两者协同工作时,缓存是无法共享的,维护两组L2之间的数据一致性会变成一件非常重要同时也非常影响性能的事情。高通的异步架构之所以有性能损失,一致性开销就是其中很重要的因素之一。

在Exynos 5 Octa中,两组A15和A7核心的二级缓存大小不同,这就意味着即便是在最好的情况下,也会导致Cortex A15处理器簇的有效L2从2MB缩减到512KB,这对性能的影响极为巨大。

所以,三星选择了只实现第一种工作模式。在这个模式下,缓存一致性无需维持,只需要在切换时通过内存将缓存数据复制即可(A7到A15可以视作部分填充,而A15到A7可以丢弃超出512KB的部分),甚至可以更简单的直接丢弃L2数据,令其重新填充。因为相对于联合工作所需要的一致性维护需求(其频繁程度与缓存命中率相关,可能只比处理器时钟频率低2~3个量级)而言,由于动态频率控制导致的核心切换要少的多,至多只有每秒百次的水平,因此这样的损失是最少的,换句话说,另外两种big.little模式虽然看起来更美好,但实际上反而会导致系统效率的降低,从而进一步降低搭载Exynos 5 Octa设备的体效值,使其变得比Cortex A9更慢。

从这个意义上说,如果你需要一颗手机处理器,至少在CPU部分,Exynos 5 Octa实际上相对于Exynos 4412而言是倒退的。这无疑是对于畸形市场需求的最佳打脸:超高的规格,强大的指标,性能却在偷偷的后退,不知道这到底迎合了谁的需求。

当然,Exynos 5 Octa也不全都是坏处。由于LPDDR3的引入,翻倍的内存带宽可以极大提升系统在日常使用中的感受,因此总体而言Exynos 5 Octa的体验不会有之前评价的那么悲观,只是会距离你所认为的强大相去甚远罢了。至于另一个好处则来源于PowerVR SGX544MP3这枚GPU。

就如同PC一样,手机对于GPU的需求也慢慢超过了CPU。不客气的说,现在的日常需求,一枚四核心Cortex A7就可以满足了,但是游戏所需要的性能却是永无止境的。在Exynos 4210“猎户座”刚刚发布的时候,Mali400MP4几乎可以满足所有游戏,这枚GPU不仅速度飞快,而且极为省电,能耗比相当高。但是随着手机游戏的进步,在Exynos 4412上这枚GPU已经显出了疲态。三星在Exynos 5 Octa上作出更换GPU的决定非常及时。Exynos 5 Octa的3D性能达到了目前手机处理器的顶级水平,在日常使用中你有很多机会可以体验到它带来的提升。

根据粗略测试,搭载Exynos 5 Octa的Galaxy S4在运行3Dmark的时候,整机功耗不会超过2.5W,这也就意味着这枚GPU的满载功耗将不会超过1.5W。这无疑是一个非常振奋人心的数据,这意味着PowerVR SGX544MP3在维持了Mali 400MP4能耗比的基础上(严格来说仍然有一定的下滑,但是远远高于继任者Mali T604)将其的最大性能扩展了几乎四倍,这样的提升才是符合用户需求的提升。对于这样的进步,我们需要高举双手给予掌声。

新一代处理器性能对比分析

虽然说我们之前通篇都在论述的观点是目前旗舰手机平台的性能受限于功耗,无法在日常使用中体现,但是不得不承认基准测试也是部分用户日常使用的功能之一,而且这些芯片“不管实际情况,就跑分到底谁最快”也是很多人很有兴趣的问题之一。当然,相对于前几年的产品而言,现在的平台下跑分的意义不论如何都在变得越来越小,因此我们不会再像上篇一样做连篇累牍的深入分析。取而代之的,我们只会从几个理论测试软件的成绩里大概的看一下它们之间的胜负关系与潜力。

由于新一代手机处理器的降频问题十分严重,因此我们不能简单的去比较频率与分数,因为无法确定在实际测试中它们运行在什么频率下。这个问题对于骁龙800而言相对小一些,因为Krait 400核心的实际功耗并没有超越设备散热极限太远,因此我们有理由认为在诸如Antutu跑分这类间歇性满载,且满载时间不超过一分钟的测试程序中,骁龙800是可以运行在全负荷的2.3GHz的(除非厂商设定的温度控制阈值极为激进,)。

Exynos 5 Octa的情况在之前已经有所说明,但是由于Antutu的满载压力并没有系统稳定性测试软件那么高,因此我们假设Octa在跑Antutu时的频率分布为1.6GHz、1.4GHz Cortex A15和1.2GHz Cortex A7各占1/3时间。这样根据DMIPS的数据折算,整体性能相当于1.19GHz的Cortex A15。考虑到Cortex A7在整数部份的同频性能与Cortex A15的差距并没有DMIPS所显示的大,但是浮点性能方面的差距非常明显,因此在整数部分,等效频率将会接近1.5GHz,而浮点部分则维持1.19GHz。

至于Tegra 4,对于一般手机而言它几乎不可能跑到1.9GHz的满载频率,但是我们找到了nVIDIA Shield的测试结果。由于Shield拥有足够的空间安装散热片,因此可以避免频率的下降,因此在测试全程中,频率应当都可以维持在1.9GHz。

下面就让我们来看看结果。只采集CPU的整数和浮点部分。结果一如我们的预料。如果不降频,那么Cortex A15的绝对性能将是最为强大的,即便骁龙800拥有高达2.3GHz的主频,它也不是全速运行的Tegra 4的对手。

同时,和Cortex A9的代表Exynos 4412比较的话,我们发现骁龙800的整数性能领先幅度并没有频率所表现的那么大,而Exynos 5 Octa由于过高的功耗,也没有表现出应有的性能。

下面我们计算一下每MHz下各个平台的对应性能:

这个结果就比较有意思了。可以看到,Tegra 4在整数和浮点性能方面,单位功率的性能都没有超过Cortex A9,甚至整数方面的能耗比下降了一半。而Exynos 5 Octa在整数方面相对于Tegra 4的效率进步,更多的归功于能耗比更高的Cortex A7内核,毕竟不论是A7、A9还是A15,整数运算单元都是两个,理论上同频整数吞吐量没有区别,但是依然没能对Cortex A9实现实质性的提升。而骁龙800延续了之前产品在整数性能方面能耗比不如Cortex A9的传统。

因此,结论就十分清晰了:在限制运行在相同功耗的前提下,以对日常使用影响最大的整数性能而言,不论是骁龙800还是Exynos 5 Octa,都无法表现得比Cortex A9更好。当然这是理论测试,实际运行App时,由于处理器内部乱序执行和分支预测等方面的增强,几大主流新产品的表现会还是比上一代Exynos 4412强大一些,但是我们要重复之前说过的话:你不可能得到像测试分数那样巨大的体验提升,尤其是考虑到Tegra 4的跑分成绩已经高达40000分,骁龙800的跑分成绩超过了33000分,Exynos 5 Octa虽然不及以上两者但也接近29000分,而Exynos 4412只有区区16500分。

总体来说,虽然有着诸如GPU性能的良性提升与内存性能的良性提升,但是星星点点的美好并不能掩盖新一代处理器所面临的整体的问题。在我们已经分析过的三个产品中,实际上没有一个实现了效率的明显进步。这意味着虽然它们每一个都宣称自己比前一代提速xx%,但是实际使用中由于体效值的原地踏步,我们实际上无法感受到所宣称的速度。这样的情况维持一两代还可以勉强接受,但是如果一直持续下去,相信消费者终究会疲劳,就像现如今陷入困境的PC市场一样,最终不再有人愿意为新产品买单,而这显然是手机厂家所不愿意看到的。

从核心上寻找提高能耗比的方式,以ARM的技术实力似乎已经走到了尽头。那还有什么办法可以推进效率的进步呢?答案也许只有工艺了。

关键之中的关键:半导体工艺

通过改进处理器微架构来获得性能提升是最体面的方法,也是最难的方法。从40年前的英特尔4004,再到今天的酷睿i7,IPS(每周期指令吞吐量)也就是从1提升到2再提升到3的进步。再往上,就撞到了难以逾越的功耗之墙。

如何打破这堵高高的墙壁?答案只有一个:更好的工艺。对于ARM而言尤其如此。5年前的ARM11处理器还在使用老掉牙的130nm普通CMOS工艺。而最近一到两年,由于无法从核心上榨取更多的油水,业界开始用越来越新的工艺制作最先进的ARM处理器,从45nm到32nm甚至现在的28nm,ARM处理器在工艺上的进步速度要远超同期PC处理器。正是这些新工艺,支撑着ARM处理器在近几年内以每年200%的速度在提升。

但是提到工艺,我们就不得不再一次提到一个词:极限。没错,通过超量应用工艺,我们获得了超量的性能提升,但是工艺的储备并不是无穷无尽的,现在的我们已经走在了工艺的极限上。如果是传统的工程极限,随着新技术和新方法的发明,最终都可以实现突破,但是工艺面临的这道极限的背后是物理定律。

28nm以后,晶体管实在是太小了,小到我们必须重新梳理物理定律,才能准确掌握它的物理性质。随着半导体工艺线宽迈入20nm以下,集成电路中的某些结构已经开始迈入介观和微观之间的灰色地带。对于微观世界,也就是量子世界,人们目前所掌握的物理学,并不能给出太多具备足够工程价值的答案。

也许你很难想象,现代为处理器所使用的晶体管,其栅极漏电的很大一部分原因已经是量子隧穿效应。这是因为对于一个线宽只有30nm的晶体管而言,它的栅极绝缘材料的厚度只有不到2nm,也就是说,只有不到10层原子的厚度。而工艺最先进的英特尔,其量产晶体管的栅极绝缘层厚度已经不到1nm,只有5层原子的厚度。在这样的规模下,宏观的物理定律已经有相当程度的失效,这个规模的晶体管会做出什么行为?更多的只能靠猜测,靠无数次的实验。

当经典物理定律失效,人们需要在盲目的实验中找到解决方案时,进步的速度就变得不再可以预测。

2013年已经是28nm的时代,按照预测,2014年业界就将往20nm迈进。但是这一步能顺利走出去么?相信没人对此能有足够的信心。作为世界上最大的代工厂,台积电TSMC的工艺路线对于业界的影响力是最为巨大的,早在2009年,TSMC就已经宣布将要量产28nm逻辑电路工艺,但是实际情况是直到2011年底,TSMC都没能拿出哪怕只用于性能测试的样品芯片,而最终的量产一直到2012年6月才在跌跌撞撞中开始,前后延期达三年。那么,面对TSMC“2013年底量产20nm”的豪言壮语,你又能相信多少呢?

TSMC的下一代20纳米工艺还面临一个问题——性能提升将非常有限。从官方演示文档中我们可以看到,TSMC的20nm规划中,针对移动设备的工艺——也就是LP、HPL和HPM——被整合成了一种,名为20SoC。它的性能,以TSMC官方的预计,仅能实现漏电比28HPM降低20%、性能比28HPM提升15%的水平。希望各位注意,对比的对象是28HPM,而28HPM的漏电水平与28LP是接近的,也就是说从28nm到20nm,TSMC只实现了20%的漏电降低。

这是官方最乐观的预计,而实际情况可能要比这个悲观的多,一如TSMC对于28nm量产时间的预计一样。那么我们就可以得到一个自然而然的预计:20nm时代,我们除了更高的集成度,什么都得不到。这就意味着,以20nm工艺制造的芯片,固然可以通过规模的扩大而获得更大的理论性能,却几乎无法从工艺的进步得到单位功耗效率的提升。在目前手机处理器绝对性能已经超过体效值的大前提下,这样的结论几乎就已经宣布了,未来的产品不会为我们带来更快的实际性能。

那么更先进的工艺呢?例如16nm?根据目前的规划,TSMC将在16nm引入近年来半导体工艺中继HKMG后最大也可能是最后的进步,也就是3D晶体管,又叫finfet。这个技术可以为单个晶体管带来40%的性能提升,同时降低30%的功耗,目前已由英特尔量产,而整个业界只有英特尔实现了量产,由此可见其技术难度水平。

我们没有理由认为,TSMC对于finfet的引入会一帆风顺,外加16nm对于EUV的需求以及EUV产业目前的状况,至少在笔者看来,TSMC可以在2015年量产16nm finfet的概率几乎为0。至于GlobalFoundries或者三星,前者目前刚刚实现28nm的量产,虽然幻灯片已经写到了10nm,但是我们不应对其抱有太大的信心,而三星的产能过小,即便有良好的工艺,也无法支撑业界的需求,因此不需要投以太大的注意力。

这就意味着,2014年和2015年对于ARM而言会非常艰难。因为先进工艺在这两年将出现空窗期,而没有先进工艺的支持,ARM系产品的性能进步就只能停留在纸面。当然,也有一种选择,那就是提前在20nm上——就像英特尔所做的那样——引入finfet,但这会给本来就已充满变数的20nm工艺增添新的难度,最极端情况下也许会导致2014年的彻底空白。因此我们似乎必须接受2014到2015年的空窗期。

那么,更先进,比16nm还先进的工艺呢?业界普遍认为,由于物理规律限制,目前常规晶体管的极限将在2nm左右到来,在这个规模下,基于宏观原理工作的硅基半导体晶体管将彻底无法运行。而考虑到工程实际情况,也许在10nm时就已经会遭遇无法解决的问题。

所以保守来说,我们依靠了40年,并以之建立了辉煌信息产业大厦的硅基半导体工业,也许在10年内就会走到尽头,我们所剩下的工艺,乐观估计还有6代,悲观估计可能只有4代。之后,人们就必须要想办法去寻找新的原理,以新的材料制造新的器件。突破终将会到来,但是究竟需要多长时间?谁也没把握,因为基础物理已经80年没有进步了,半导体行业在打光手中所有牌之后的痛苦空白期到底有多长,没有人可以给出答案。

新架构,新希望?

在前文中,我们将Cortex A15批得体无完肤,也许你要有疑问:既然A15在手机上表现如此糟糕,ARM为何还要设计出这么一个核心?答案非常简单:ARM高估了半导体工艺的升级与技术进步速度,Cortex A15实际上是为20nm工艺所设计的核心。

让我们把时间倒回到2008年,TSMC在当时提出了未来5年半导体工艺路线图。如果一切都与图中的宣传精确吻合,我们在2010年就能用上28nm处理器,而在2012年,也就是去年,我们将迈入20nm时代。按照这个进度,ARM在2013年将核心进化至Cortex A15就没有任何的问题。也许ARM的初衷是借助于20nm工艺良好的性能,可以强行将Cortex A15的实际功耗压缩到0.5W以内,获得两倍于Cortex A9的能耗比提升。这点从早期TSMC和ARM的演示文档中也可以看出来。而且,A15也的确做到了绝对性能提升两倍的设计目标。

只不过,工艺最终没能按照ARM所设想的发展下去。28nm跳票到2012年,20nm还在遥远的2014年,而且即便成功量产,其可以得到的性能提升也极为有限,一连串的意料之外造成了Cortex A15的尴尬定位。由于工艺的失算,Cortex A9事实上失去了后继产品:Cortex A7的能耗比虽然很高,但其性能太弱,甚至不如Cortex A8;Cortex A15虽然绝对性能翻倍,但是能耗比过低,两者都无法作为Cortex A9的继任者。即便ARM通过big.LITTLE技术将二者捆绑在一起,最终实现的总体效率也只能基本上和Cortex A9打个平手,所谓的继任者更多成了纸面上而不是性能上的。

很明显,ARM被TSMC这个队友坑惨了。

有趣的是,在ARM官方面临产品线问题的时候,反而是两家ARM IP的购买商——高通和苹果——给出了比Cortex A15更好的解决方案。它们都规避了Cortex A15过于臃肿的架构设计,把注意力集中在对Cortex A9的优化和提升上。不约而同的,它们都选择了保留Cortex A9的前端、扩充Cortex A9的后端,区别是高通的着眼点在于提升指令的理论吞吐量,苹果的工作重心在提升内存表现。当然,最终的结果我们看到了,高通的方案并没有对Cortex A9形成实质上的优势,苹果的方案则很难找到对比的标准,但是至少这两家的行动方向是正确的。

因此在Cortex A15架构推出3年后的2013年,ARM痛定思痛,给出了自己针对这个问题的答案,那就是Cortex A12。

在设计规格上,ARM终于放弃了宏伟庞大的“200%性能提升”,转而只给Cortex A12定下了比Cortex A9快40%这样一个目标。这是一个相当现实的目标,尤其是考虑到Cortex A9的体系架构上的确存在一些过时的限制,让我们来看Cortex A12是怎么改的。

首先,如同其他的ARMv7架构处理器一样,Cortex A12提升了二级缓存的性能,学习前辈Cortex A15和A7的先进经验,把二级缓存整合进多核心控制器,所有核心终于可以不用再通过一条可怜的64bit总线访问自己的缓存,这将大大缓解拥堵现象。其次,Cortex A12把NEON和vFP提升到了第四版,并且和Cortex A15一样引入了内部OoO(乱序执行)设计,指令执行时效率要比A9高很多。最后,A12的外部接口也从64bit AMBA 3升级到了128bit AMBA 4,带宽提升一倍有余。

Cortex A12凭什么降低了功耗?主要是三方面,一方面是最大并发取指数从3降低到2,另一方面是大幅度缩减了指令派发队列,最后一方面是大幅度缩减了运算单元的数量。由于指令派发队列的意义在于可以支撑乱序执行,它所对应的寄存器资源和硬连接资源是非常庞大的,Cortex A15为所有8组8个运算单元设计了完整的8个独立指令队列,这无疑消耗了巨大的电力,而Cortex A12把这个数字缩减到了3。与此同时,Cortex A12的运算单元也减少到3组6个,即整数、存取和FP/NEON,每一组内包含两个运算单元,共享一个指令队列。

而Cortex A9就相当寒酸了,只有一个指令队列,支撑着2个整数ALU、一个存取单元和FP与NEON。仅仅依靠这样的改进,Cortex A12就几乎可以实现40%的性能提升,更不要说算上二级缓存、外部总线、以及更为前端的取指与解码部分——例如数据与指令部分重命名与分派彼此独立——的改进了。总体来说,Cortex A12是一个与Cortex A9相比性能提升40%、功耗维持不变的架构,它单凭一己之力拯救了ARM处理器摇摇欲坠的每瓦特性能,可以说是ARM的救星。A12唯一的问题只有一个——它最早也要等到2014年中才可能有产品,那时ARM很可能已经被英特尔大卸八块了。

如果我们把Cortex A12与高通Krait、苹果Swift放在一起看,可以发现一些比较有趣的地方。与ARM不同,高通Krait几乎保持了Cortex A9的前端设计,唯一的增强是取指部分的并发能力提升到3,后端则和Cortex A15一样堆积了数量巨大的执行器,具体来说是7个。这样的架构瓶颈来自于连接前端与后端的中间部分,导致Krait在实际应用中根本无法发挥其3300DMIPS——只比Cortex A15低5.7%——的理论最高性能。

至于苹果Swift,由于缺乏资料与有效的对比方式,在这里并不能给出太多的分析,但是苹果的优势在于硬件与软件之间可以做到完全的匹配,因此即便苹果对Cortex A9进行如高通一般的单方面增强,也可以依靠自身的操作系统进行针对性的优化并将其发挥出来。因此在这三个介于Cortex A9和Cortex A15之间的设计中,我们认为Cortex A12是最为平衡的设计。只是——如之前所说,我们恐怕无法在2013年看到它了,甚至在2014年都有可能看不到最终产品的上市。因此Cortex A12是否真的实现了ARM的设计目标,我们也只能等到2014甚至2015年才能看到结果。

未来之路:ARM

至此,我们已经把现在以及未来的产品、技术、架构等等方面都分析过了,以这些分析为基础,我们已经可以预测一下2013到2014年的技术与产品格局。

由于新的Cortex A12很难在2014年之前问世,因此在2013年下半年到2014年中这段时间内,市场上的产品格局不会出现太大的变化。标准ARM阵营的企业,例如三星,依然会选择Cortex A15作为其旗舰产品,高通则会用Krait 400与之进行对抗,对抗的资本是超过2GHz的频率,一如当年Pentium 4时代的英特尔。

对于Cortex A15这个架构而言,如果不搭配Cortex A7(或者nVIDIA的伴核),其功耗将是不论如何也无法被手机所承受的,因此可以预见,big.LITTLE将是所有试图整合Cortex A15的芯片制造商唯一且必须的选择。目前有传闻,LG和华为都在设计自己的Cortex A15 SoC,那么我们几乎可以肯定,它们必然会采用4+4或者2+2的设计,或者插入自行设计的第五个核心。具体设计取决于设计师认为双核Cortex A7是否够用。

其他厂商方面,居于市场较边缘地位的厂家,也许会试图作出一些特立独行的搭配,以差异化的产品参与市场竞争。例如MTK已经宣布了一款八核Cortex A7的新产品,并宣称这颗SoC的所有八个Cortex A7核心都可以开启,是一枚真正的八核处理器,但是对于它的性能我们也许只能报以呵呵。

除此以外,也许会有某些厂商推出四核Cortex A7配备超级GPU的类似于游戏机的芯片,以迎合目前手机娱乐化的市场需求,这样的产品也许也可以获得不错的实际体验。但是总体来说所,主流手机SoC在未来一年半内出现超过四核的可能性并不大,而且四核Cortex A9在CPU性能方面,一直到Cortex A12之前,都可以屹立在高端主流水准。因此对于那些手持Exynos 4412的用户,例如Galaxy S3的用户而言,如果你希望获得更强的CPU体验,那么你的升级日程完全可以推到2015年。

所以在未来的一年半之内,我们不能对看到让人眼前一亮的新产品报以太多的期待。不论是三星、nVIDIA、高通,都会以维持现有产品架构为主。至于苹果,最大的可能是将A6处理器的双核Swift架构扩充至四核,但是以IOS的系统设计而言,这样的扩充有多大意义也很难说,或许硬件大战的后果是所有人都无法逃避的。

而GPU部分,高通的产品在不解决能耗比问题之前,不论性能提升幅度有多巨大,都不具备太高的选择价值。而如果你是游戏重度玩家,那么Exynos 5 Octa在Android阵营里会是一个非常好的选择,前提是你需要有办法把CPU部分锁定在Cortex A7,否则Cortex A15巨大的功耗会抹杀掉你的大多数游戏体验。至于Mali400MP4,虽然老迈,但是运行一些非顶级大作的情况下依然拥有可以接受的性能,因此除非你是基准测试爱好者,否则Mali400MP4除了较低的得分以外,并不存在太多问题。

工艺方面,我们在2013年应该是不可能看到量产的20nm工艺的,不论台积电如何对此信誓旦旦,都不要报以太大的期待。GlobalFoundries在目前刚刚量产28nm,且产能非常有限的情况下,对于20nm的任何宣传都可以完全无视。反而是三星的20nm存在一些变数,但是希望依然不大。

由于代工厂无法像英特尔一样靠销售最终产品去吸收工艺的成本,因此目前所有代工厂都普遍希望在20nm节点引入EUV光刻工艺。但是EUV工艺一直以来的进度都非常缓慢,截止目前为止所实现的最大连续曝光功率只有40W,这个数字在2011年则是11W。在这个功率下,晶圆产出率只能达到每小时5片,而满足量产需求的最低极限也需要60片,就正常情况而言,必须要达到100片每小时甚至更高的产量才可能获得正收益,与之对应的EUV光源功率需求就来到了大约400W。换句话说,目前EUV光源的功率距量产目标还有10倍的距离。

从2011到2013年,光源功率的提升不到4倍,绝对功率提升不到30W,这就意味着10倍、350W的这样的需求缺口,称之为天堑似乎也不为过。更糟糕的是,即便EUV光源的功率解决了,EUV生态系统还面临着光刻胶的反应速率过低、反应程度过低等问题,这些问题甚至比提升EUV光源功率更加棘手。因此,对于业界曾经普遍希望的在2015年实现EUV光刻机的量产化,笔者认为实现的可能基本不存在。也就是说,16/14nm工艺上,全球代工厂都将被迫采用193nm三次曝光来实现。

三次曝光会带来大量的问题,从成本到产量到良品率到曝光图案限制,无所不在。因此即便实现,对于芯片设计也会提出特殊要求,这对于那些希望将产品放在多个代工厂生产,或者希望中途更换代工厂的Fabless厂商而言,都会是一个极大的挑战。我们都知道苹果现在一直在坚决执行去三星化战略,但是在与TSMC的合作还没真正开始时,就又传出了将在2015年重新回归三星代工并且签下三年长约的消息,这说明了TSMC的20nm工艺情况非常不乐观。

往好的方面估计,苹果这样的举动意味着TSMC 20nm工艺的性能提升远小于——甚至会出现倒退。而最恶劣的估计则是TSMC的20nm工艺量产工作甚至无法在2014年完成。不论是哪个,都意味着这家全球最大代工厂,掌握着全球70%芯片命运的企业,将要陷入一段困难的时期,随之而来的则是整个业界,至少是ARM阵营的大停滞。

未来之路:英特尔

历史告诉我们,一旦竞争双方之一陷入了停顿,就意味着另一方获得了绝佳的机会。对于2013到2014年的ARM而言,这个停顿尤其显得残酷,因为它们的竞争对手——英特尔,实在是太可怕了。英特尔不仅在半导体技术上拥有超过业界平均5年的领先优势,而且在高性能处理器设计上的经验也明显更加丰富。更可怕的是,这样的优势还在继续扩大。

就在即将到来的2013年第三季度,英特尔将要发布全新一代基于Silvermont核心的Atom处理器,代号Baytrail。这是Atom发布6年以来英特尔第一次对Atom家族的核心架构进行大刀阔斧的改变,你甚至可以认为英特尔完全重新设计了一颗CPU,Silvermont和过去的ATOM根本没有什么联系。

这枚新核心拥有全乱序的流水线、双路并发取指设计、5组指令队列(英特尔称之为RSV)、6个执行器,最关键的是,在实现了所有 Cortex A15拥有的技术特性的同时,Silvermont的存取,即Load/Store单元内部也实现了乱序执行,而ARM至今只在Cortex A15上实现了存取并发。这将会是一个巨大的性能提升。

浮点与多媒体指令集方面,英特尔不出意外会在Baytrail上至少搭配SSE3,相比vFP与NEON而言,无疑要先进许多。至于工艺,则是所有ARM制造商梦寐以求的22nm HKMG,而且英特尔已经在这个工艺节点上实现了finfet(3D晶体管),地球上独此一家,再无分店。

GPU方面,英特尔会放弃PowerVR SGX系列,转而集成自行研发的GMA HD4000架构GPU。这也是一个能耗比相当高的GPU,可以在区区8W的功耗下实现超过40000分的3Dmark IceStorm图形性能,而且对于DX11拥有完整的支持。根据我们的猜测,在Baytrail产品上,英特尔会选择集成规模为GMA HD4000一半的GPU,即8EU。这样可以实现在低于Adreno 320功耗的前提下实现两倍于前者的DX9性能,以及超出所有其他嵌入式GPU的DX10/11支持。

以英特尔的规划而言,Baytrail将成为一个家族,包括面向低端PC的Baytrail-D,面向平板的Baytrail-M与面向手机的Baytrail-T,最多包含四核心,最高工作频率2.4GHz。根据英特尔的宣传,Silvermont的架构将能提供两倍于任何竞争对手的性能与四倍于竞争对手的能耗比表现,这无疑是非常恐怖的数字。

那么具体的性能和功耗呢?目前为止,我们所能看到的资料是一张泄露出的Baytrail规格与功耗图。其中面向平板的四核2.0GHz Baytrail-M,最大热设计功耗只有7.5W。这个数字和Tegra 4等基于Cortex A15的SoC、基于高频Krait的骁龙800基本持平,而Baytrail-M的性能要大大强过它们。

面对手机的Baytrail-T由于工艺的不同与更低的频率,功耗将会更低,根据英特尔的规划,其最大热设计功耗将不超过3W。性能方面,根据目前唯一可比的测试结果,我们可以看到运行于区区1.1GHz的Baytrail芯片,Antutu测试的总分已经超过了43000分,相比之下频率高达1.9GHz,功耗高达8W的Cortex A15旗舰Tegra 4的得分也只是刚刚突破40000。虽然分数不能绝对说明一切,但是至少这也给了我们一个一窥Baytrail实力的机会,结果自然是震撼无比。

可以看到,结合了英特尔设计技术与最先进制造工艺的Silvermont核心,非常轻松的就获得了数倍于Cortex A15的能耗比,这也就是说,如果不考虑其他因素,搭配了Silvermont核心Atom的智能手机,其体效值将远远高于搭配ARM Cortex A系列任何核心的产品。毫不夸张的说,在2014年ARM面临困难的时候,也许基于Silvermont核心的新Atom或许是那些还想继续提升实际性能的厂家的唯一选择。

但是放在英特尔面前的也不是唾手可得的市场。产品的强大从来不是决定市场的唯一因素,这点在Atom上表现的淋漓尽致。虽然Atom拥有着强大的性能,但是我们对于英特尔在未来一年半内的定位依然是“挑战者”而不是“颠覆者”。其原因主要有两方面,源自产品的与源自非产品的。

从产品角度说,Atom与ARM基于两种不同的ISA设计,这会导致这两种处理器无法执行针对硬件所编译的同一底层代码。而在Android环境中,绝大部分的应用程序都包含了针对底层硬件平台所编译的NDK代码,这部分代码是无法在Atom上直接执行的。对此英特尔给出了虚拟转换的方案,即采用类似于模拟器的方式,实时的将ARM底层代码翻译成x86代码并执行。

这样虽然解决了能否运行的问题,但是代价就是效率的极大降低,根据第三方测试,性能降低的幅度会高达70%以上,这足以抵消Silvermont相对于Cortex A系列提升的性能,导致配备Atom的Android设备实际性能不增反降。虽然英特尔一直在努力扩展自身在Android阵营的影响力,推出x86的Android系统分支与针对X86的NDK编译器,但是愿意在产品中附带x86底层库的应用程序依然极少,而这并不是一个短期内可以解决的问题。

至于非产品方面的因素则源于英特尔的市场模式和地位。和X86不同,ARM阵营非常开放,任何公司都可以购买ARM IP,搭配其他的系统授权设计制造属于自己的SoC,但是英特尔不行。因此在芯片行业角度来看,x86代表着一个公司,而ARM代表着一个集体,三星、苹果、德州仪器、nVIDIA、高通等等等等,这些厂家已经组成了一个牢不可破的利益集团,英特尔仅仅依靠技术与性能很难将其击破。由于ARM阵营中,技术是分散在各个公司内部的,因此各个公司都可以根据自己的利益选择不同的产品设计,实现利益最大化,因此即便整体性能不如英特尔,也不影响盈利表现。

但是一旦让英特尔在这个行业立足,甚至占据主导地位,由于英特尔封闭的授权模式与过于强大的技术实力,最终所有厂家都不得不向英特尔采购芯片——完整的芯片,无法根据自己意志进行组合与修改的芯片,只能从英特尔提供的有限种选择中挑一个最符合自己需求的。这样一来,手机市场将变成另一个PC市场,一个由英特尔完全控制并且占据大部分利益的市场。其他厂家由于无法具备等同于英特尔的技术实力,而无法拥有话语权,这样的市场格局自然是英特尔最为希望见到的,也显然是其他ARM阵营厂商所最为恐惧的。

那么英特尔就没有机会了么?并非一定如此,因为随着ARM阵营开始追求最为顶尖的工艺,英特尔手中的工艺优势正变得越来越有重量,可以说在两三年前,英特尔想要打入手机市场几乎毫无胜算,但是目前却迎来了一个机会。英特尔所需要的是一个突破口,借助终端厂家对于性能的需求,以手中所向无敌的22nm工艺作为砝码,强迫厂商接受自己的产品,并迅速借助巨大的性能优势,在ARM无法给出同等级别产品的情况下,逼迫其他厂家不得不跟进。我们认为,最理想的突破口就是苹果。

事实上,这一轮硬件军备竞赛的始作俑者正是苹果公司,归根到底,iPhone超越同时代竞争对手的体验,其实是源于iPhone超越同时代竞争对手的硬件,尽管这个硬件也许不像Android阵营一样堆彻得那么明显。近年来,由于苹果已经丧失了硬件上的领先优势,因此我们可以看到iPhone曾经领先巨大的体验优势正在被Android阵营所蚕食。现在,哪怕是千元级的入门产品,其操作体验与流畅度方面都可以做到与iPhone的差距不超过常人的忍受范围。

因此iPhone所剩下的优势更多是消费惯性、应用优势和习惯,这些东西相对来说都是不够稳固的。所以苹果需要更强大的硬件,超越同时代的硬件,去实现超越同时代的功能,也是其他竞争对手所无法提供的功能。因此英特尔的工艺就成了苹果最希望得到的东西。

但是英特尔绝不可能仅仅安于作为一个代工厂,每年帮苹果制造一亿颗芯片——它的目标最终是整个行业。因此英特尔有可能利用手中先进工艺作为筹码,直接或者渐近的强迫苹果放弃自己基于ARM核心的A系列芯片,转而接受Atom,最终以苹果作为突破点,切入手机行业。当然,苹果也明白一旦接受英特尔的要求,自己也就相当于被捆上了英特尔的战车——未来将变得无路可退。

到目前为止,苹果还没有选择与英特尔合作,大多数安卓厂商也有类似的考虑。但是当时间一年一年过去,如果TSMC真的无法拿出有竞争力的工艺,任凭英特尔利用手头的22nm甚至未来的14nm工艺将其他同业者抛得越来越远,又有谁能保证所有厂家都能坚持住不被英特尔先进的工艺所诱惑,投入它的怀抱呢?要知道,只要作出这样的选择,立刻就可以拥有超越其他竞争对手数倍的每瓦特性能,而这样一个诱惑随着ARM阵营性能停滞时间的积累,只会越来越大。

当然,这些都是遥远的猜测,如果只看2013到2014年,那么我们认为,平板会是英特尔首先可能获得突破的平台。与手机不同,平板可以容忍稍高的功耗,因此英特尔在高性能处理器领域的设计领先优势会发挥出更大的作用,更重要的是,Atom是一枚x86处理器,兼容30年来所有针对PC所设计的应用(虽然不一定适合平板操作),而且Baytrail-M从最乐观的角度来看,可能拥有等同于Core 2 Duo时代处理器的性能,这也就意味着Baytrail-M可以满足几乎90%的日常PC应用需求,这远远不是当年上网本可以相提并论的。

因此从这个角度而言,最早在2013年底,就可能出现10英寸、9毫米、600g、续航10小时、性能达到5年前高端笔记本水平的平板电脑,可以运行几乎所有的Windows程序。对于本身用途就相对匮乏的Android平板而言,这不会是一个好消息。而平板是ARM阵营试图将ARM处理器带入更高一级应用平台的跳板,在这个平台上遭遇如此强大的竞争对手,对于ARM而言也不会是一个好消息。

写在最后

要说这部分是结语,其实并不准确,因为我们的结论基本已经在前文中说完了。最后我们能给出的,是对各位未来几年的消费选择的一些建议,权当参考吧。

首先是手机。手机的处理器的实际性能在未来一到两年内很难看到实质性的进步,但是毕竟手机是一个有机的整体,处理器并非构成消费诉求的唯一。屏幕、摄像头、设计、材质,甚至是任何一个小小的功能改进,都有可能让你产生购买欲望。

因此,我们的建议是:如果你遇到一台手机,第一眼就觉得它是你的真爱,那就不要管它是用什么CPU了,果断入手就可以了。但如果你希望得到更强的性能,那么我们的建议是,暂时打消升级的念头,等到2015年再静观其变。

事实上不仅是CPU,在屏幕、通信等等方面,目前的手机也已经走到了体验或者技术的极限,未来几年内出现重大突破的可能性都不大。所以除非你是硬件发烧友,追求最新最好,否则我们也许可以相信,经过五年的马拉松,我们终于有足够的理由停下来休息一会儿了。

另一方面,平板电脑会成为未来一段时间内竞争最激烈的领域。因为英特尔Baytrail的加入,标准版Windows 8.1与Atom搭配的平板总算与Android平板和iPad有了正面竞争的能力。届时的选择会千变万化,我们完全可以坐等厂商推出的新产品,从中选择最适合自己的。顺带一提,由于ARM芯片的困境,Surface RT已经不再具备产品意义上的价值,这点对于微软而言也许会显得比较悲剧。

至于具体的产品,我们可以很负责的说,从现在开始,所有的跑分天王都将沦为“只能跑分的天王”,不论厂家多么宣传我的产品具备多高的性能,多大的提升,只要你还是一个理性的消费者,都应该选择理性对待。

写到这里,笔者的心情也很复杂,甚至不知道应该如何结束这篇文章。那么就让我们重复一下两年前的那段话,作为对这一个系列的收尾吧:“手机行业这列火车,正在厂家与消费者的共同催促下,向着近在咫尺的悬崖加速狂奔,我们大家都是罪犯。”

手机主流处理器CPU参数及性能的总论(暨高通,联发科,ARM架构,安卓系统等之间的讨论)

相关推荐