手机双核CPU处理器详细介绍
转自:爱活
不少群众对小米手机那颗1.5GHz的双核心处理器是否具备世界第一性能表示好
奇。为了帮助大家更好的理解市面上双核处理器的异同,以便作出自己的选择,我们
撰写了下面的这些文字。本文将从多个角度带领大家对目前市场中的双核产品做一次
较为全面的了解。
参赛选手亮相
首先,让我们来看看市面上有哪些双核心手机处理器。
提到双核,可能大家首先想到的就是nVIDIA的Tegra2。作为业界新人,nVIDIA
必须要有一些别人不具备的优势,才能站稳脚跟,而nVIDIA选择的优势就是速度。
Tegra2是一款早在2010年1月就发布的双核手机处理器,为nVIDIA赚足了眼球,
甚至俨然成了双核的代名词。
Tegra2是nVIDIA在ARMSoC领域的第二款作品,由于第一款Tegra表现
并不好,nVIDIA很早就开始设计Tegra2,最终成为了移动消费领域第一款量产
型双核ARM处理器,也正是靠这点,诸多厂家为了能赶在苹果之前推出双核产品,
纷纷下单采购。因此大家便看到了今年年初MWC2011上双核设备的密集发布。
这些双核机型成功从苹果手里抢走了“业界首款双核”的名头,直接导致苹果不得不
在iPad2发布会上退而将A5称为第一款量产的双核处理器——尽管大家都知道,
当iPad2发布的时候,搭载Tegra2的手机和平板已经开卖多时了。
Tegra2的CPU部分采用的是双核ARMCortexA9MP,图形芯片(GPU)则是NV
自有的GeForceULP。它由TSMC以40nm工艺制造,预设工作频率为1GHz。
相对于单核时代的CortexA8而言,CortexA9是ARM公司性能更强、功能更多,
并且支持多核心配置的新核心。关于它的特性,在后面的文章中会详细解释,这
里就先不详述了。在Tegra2上,nVIDIA为每一个核心配备了32KB+32KB的一
级缓存,以及累计1MB的二级缓存,但是在内存子系统上最高只支持到DDR2667
或LPDDR2600,而且仅支持单通道内存。当然,随着现代手机对于多媒体功能,
例如视频回放的需求,Tegra2也引入了诸多格式最大1080p分辨率的硬件视频
解码能力。
在nVIDIA宣布双核Tegra2后仅仅一个月,另一家老牌半导体公司德州仪
器也宣布了自己的OMAP4双核心平台,包含了OMAP4430、OMAP4460与2011
年初发布的OMAP4470三个型号。与Tegra2相同,OMAP4也搭载了CortexA9
MP架构的双核心,缓存资料不详,而GPU采用的则是PowerVRSGX540(不
包括OMAP4470在内,下面的介绍仅指4430/4460)。可能有些读者能看出,这
颗GPU与单核时代的三星蜂鸟处理器是一样的,为此,德州仪器将这颗GPU的
频率提升了50%,达到了300MHz,希望借此提升性能以拉开与单核处理器的差
距。
OMAP4系列均采用45nm工艺制造,OMAP4430设计频率为1GHz,
OMAP4460则设置为1.5GHz,因此可以认为前者是针对手机平台设计的,而后
者是针对平板机设计的。值得一提的是,与Tegra2不同的是,OMAP4支持双通
道内存,内部具备两个完全一样的内存控制器,这点在后面的文章中也可以看到。
至于内存规格,OMAP4430最高至支持LPDDR21066,在频率上也要比Tegra2
高了几乎一倍。
另一家单核时代的主流供应商高通,则在2010年6月宣布了自家的双核产
品规划,其中主频高达1.2GHz的MSM8x60是最吸引眼球的。这是第一款针对
手机,且设计频率达到1.2GHz的双核处理器,但与之前两家不同的是,高通在
自家双核处理器上并没有采用类似于CortexA9MP的核心,而继续采用了与其单
核处理器类似的Scorpion内核。
MSM8x60的内存支持能力与OMAP4430处于同一水平既LPDDR21066,
但是对于是否支持双通道内存我们不得而知。GPU依然是高通自有的Adreno系
列,当然型号升级到了更高级的Adreno220,高通号称可以提供前一代两倍的性
能。虽然高通不止一次提到自己将用28nm工艺生产ARM处理器,但MSM8x60
采用的还是45nm工艺,一级缓存与CortexA9一样,但二级缓存却只有512KB,
比标准的CortexA9MP少了一半。多媒体支持级别与主流双核一样,也是1080p
级别的视频回放。
与这些厂家的积极表现不同,作为三巨头之一三星在双核方案上似乎显得有
些低调,一直到2010年9月才发布自家的双核平台,即大家熟知的代号猎户座的
双核心处理器,量产型号为Exynos4210。作为一款最晚发布的产品,猎户座在
规格上也是最高的,不仅CPU配备了设计频率同样高达1.2GHz的双核CortexA9
MP,GPU也使用了ARM自行设计的Mali400多核心GPU,而且不仅整合的是
最高端的4核心设计,还大幅提高了工作频率——三星官方宣称猎户座的3D填充
率高达32亿像素每秒,这个数字要远远超过竞争。
视频解码是三星的传统优势,在猎户座身上这个优势依然得到了保持,对各
种格式的硬件编解码都达到了1080p级别。至于内存,猎户座提供了独一无二的
DDR3支持,这点是其它竞争对手所不具备的,而对于DDR2的支持也达到了最
顶级的LPDDR21066,并且同样支持双通道。
为了方便对比,让我们来列一个表格:
好,这些就是即将上阵的选手了。下面我们会依次考量它们在诸多方面的表
现,看看究竟哪个双核名副其实,哪个双核浪得虚名。
较量项目一:处理器核心架构
作为执行计算任务的最终单位,处理器核心本身的架构无疑是非常重要的一
部分。从ARM11到CortexA8,同样频率下性能的提升可以达到2~5倍,这无
疑就是核心的优势。在这四款双核处理器中,Tegra2、OMAP4430、Exynos4210
均采用了CortexA9MP内核,而MSM8x60采用的则是ScorpionMP核心,它
们之间有什么差距?要解释这个问题,我们先要回头看看CortexA8和CortexA9
的区别。
在单核时代,CortexA8架构是绝对的主流。作为ARM官方设计的产品,
虽然CortexA8和CortexA9都基于ARMv7指令集架构,但是它们之间依然有
很多的不同点,其中最重要,也是用户最能感觉到的,是一项叫做乱序执行的功
能。虽然CortexA8和CortexA9都支持同时执行两条指令,但是只有CortexA9
支持乱序执行能力,这个功能究竟是什么意思?
我们知道,计算机程序,都是由一条一条的指令组成的。这些指令有很多种
功能,有的是把数据从一个地方复制到另一个地方,有的是做数学运算,有的负
责判断某一个条件,有的负责从一处跳转到另一处。编译器会把所程序员写出的
程序编译成一条一条顺序的指令,就像电器的使用指南一样,让处理器遵照它去
做。为了方便理解,我们假设一个程序的内容是做一份考试卷,执行的过程是先
做完选择题,再做完问答题;做选择题的条件是要有铅笔去涂答题卡,而做问答
题的条件则是要有钢笔去写答题纸。
如果你忘了带铅笔,那么为了完成考卷,就必须要等到邻座的做完了选择题,
你找他借来铅笔,才能继续自己的考卷,这样就耽误了时间。对于一颗标准处理器
而言,很多时候都会遇到这类“没有带铅笔”的情况,比如需要访问的数据在内存里,
这就需要处理器通知内存管理器,让内存管理器去把数据调入处理器,才能继续
执行这一条指令。由于处理器内部的时钟延迟是纳秒级别,而内存的运行频率则
有数十纳秒的延迟,两者之间差了许多倍,因此处理器一般需要消耗很长的等待
时间,才能继续开始工作,最终的结果就是性能下降。
这时候,乱序执行就派上用场了。一个程序的指令都是有严格的逻辑顺序的,
但是所谓的乱序执行,就可以打破这种原本的指令顺序,在逻辑允许的范围内以
一种新的顺序去执行程序。如果继续用考试的例子,那就是这样:
虽然编译器生成的考试指南告诉你,要先做完选择题,再去做问答题,但懂
得变通的人会在没有铅笔的时候先去做问答题,这样就节省了大量的时间。支持
乱序执行的处理器也懂得这样去“变通”,在遇到需要等待的指令时,如果后面的
指令并不需要等待这条指令的结果,那么就可以先跳过这条指令,去执行后面的
指令,大大节约等待时间,提升程序性能。当然,乱序执行并不是没有条件的,
它要求被乱序的指令之间不存在严格的相关性。例如假设问答题里需要选择题的
结果,那么你就不能跳过选择题去做问答题,只能老老实实去等邻座的铅笔了。
OOO能有效节约指令的执行时间
那么回头来看看Scorpion核心。这个核心是高通在单核时代设计出来的,
虽然也是基于ARMv7指令集架构,但在具体设计上属于高通自己的实现,与
CortexA8相比有很多区别,其中最重要的就是高通为Scorpion核心引入了部分
的乱序执行能力。所谓部分的,就是说在某些特定指令序列下,Scorpion可以实
现乱序的效果,CortexA8则不行。在单核时代正是由于这点,高通的处理器核心
在很多测试中的表现都要稍好于CortexA8,但是当双核时代来临后,大家都升
级到了支持完整的乱序执行的CortexA9核心,而高通则依然沿用老旧的Scorpion
核心,当年的优势就成为了现在的劣势。
不仅如此,在纯执行能力上,Scorpion面对CortexA9也处于劣势。根据高
通提供的数据,同样在1000MHz的频率下,CortexA8的执行能力为2000DMIPS
(可以简单认为是每1周期执行两条指令),Scorpion比它要高一些,为
2100DMIPS,但是CortexA9则高达2500DMIPS,领先Scorpion接近20%。
虽然高通试图通过超频20%的方式弥补这个差距,但是在单线程性能上,还是被
竞争对手甩开了不小的距离,毕竟乱序执行的能力在很多应用中可以获得的性能
提升远远不是这200MHz的频率可以弥补的,而且更高的频率也会抵消Scorpion
核心在省电上的特点。这点在后面的测试里也可以看出来。
英特尔给出的CPU性能参考
当然,Scorpion核心也不是没有自己的优势。作为高通自行设计的核心实现,它
在一些方面有着超出ARM官方CortexA系列的地方,例如它的二级缓存是直接
连在两颗CPU上,而不是通过AXI总线共享的,在带宽和延迟上有着自己的优势。
但是整体而言,Scorpion作为上一代核心,在新一代CortexA9双核的面前还是
显得比较孱弱的。
最后,我们给这些处理器的核心架构作个评分(考虑到默认频率):
Tegra2★★★★
OMAP4430★★★★
MSM8x60★★★
Exynos4210★★★★★
较量项目二:处理器核心的协同作战能力
可能多处理器架构这个词对于不少读者而言都是很陌生的,很多人可能从来都没
注意到过这方面的东西。所谓多处理器架构,就是说多颗处理器以何种模式共同
运行,以怎样的方式合作执行程序。在PC领域,这个概念并不重要,因为大家
看到的多处理器(多核心处理器也可以看作制作在一个芯片上的多处理器),在
逻辑架构上都是一样的,那就是同步多处理器,英文为Synchronous
Multi-Processors,缩写为SMP(不是对称多处理器的那个SMP)。但是在多处
理器体系刚刚出现的阶段,曾经也有过很多不同的逻辑架构,而在目前的手机市
场上就恰恰存在着不采用SMP架构的多处理器,那就是高通的MSM8x60。
与SMP不同,高通所采用的架构名为ASMP,即异步多处理器架构。所谓同步和
异步,差距并不是简单的两个字,在具体实现上的区别非常大。但是在此我们并
不需要了解它们之间学术上的区别,我们只从最粗略的角度来看一下这两种架构
的工作方式。
电脑里的多核心处理器早已进化为全套SMP结构
所谓同步多处理器,顾名思义就是同步的,即多枚处理器运行在同样的时钟频率,
共享同样的缓存数据,协同工作。简单来说,同步多处理器系统在工作的时候,
每当一个任务完成后,空闲的处理器会立刻寻找下一个新的任务,对于外部而言,
这两颗处理器是一个整体,共同完成同一个工作。
而异步多处理器则更接近于若干个独立工作的处理器,它们之间可以运行在不同
的频率下,每个处理器维护自己私有的缓存数据,最重要的是,它们之间会利用
一种仲裁机制,以轮流工作的方式执行任务。它们更像是一些互不干扰的独立处
理器,各自完成各自的事情,轮流执行不同的工作。
看到这儿,相信大家也看出来了,同步和异步最大的区别就在于轮流工作这四个
字。具体而言,就是在同一时间,只有一颗处理器可以接受任务,另一颗不论是
否繁忙,都不能接受新任务。可能光靠文字说明还不是那么生动,下面我们就来
看几张图,了解一下相对于同步多处理器“谁空闲谁接单“的工作模式而言,这种轮
流工作到底是怎样进行的,又会导致怎样的结果。
图中每一横行代表一个时钟周期,我们用红色的方块代表正在读取任务,绿色的
方块代表正在执行任务,方块中的数字代表不同的任务,而空白代表着空闲状态。
在第一张图里,我们假设任何任务只需要一个周期就可以执行完毕。
可以看到,在每一个周期内,异步多处理器架构最多只能有一个核心接受任务,
而如果两个处理器都空闲,就会有一个消极怠工。如图所示,执行四条指令,异
步多处理器用了5个周期,同步多处理器用了4个周期,异步多处理器慢了25%。
那么如果指令执行时间是两个周期呢?
当指令执行长度为2周期时,新问题就出现了。由于ASMP架构中,处理器1只
能在奇数周期接受任务,处理器2只能在偶数周期接受任务,虽然ASMP中的处
理器1在第3个周期的时候结束了当前的任务,但随之而来的第4个周期却只有
处理器2可以接受任务。因为处理器2此时正忙于上一个任务,因此对于外部程
序而言,在第4个周期上处理器会处于不可用状态,等到第5个周期到来以后才
能继续接受新任务。因此SMP架构只需要6个周期就能完成的任务,ASMP却消
耗了8个周期,慢了33%。
这就是为什么ASMP目前采用的越来越少的缘故。虽然ASMP存在着设计简单、
结构清晰、耗电较低的优势,但是由于性能不足,在PC领域从来都没有成为过
主流。而在移动领域,高通认为手机对于耗电的要求要大于性能,又希望可以在
双核时代继续沿用单核时代的核心架构而不需要彻底重新研发,因此采用了
ASMP架构。但是事实证明,高通在这点上可能有些耍小聪明之嫌,因为既然消
费者决定购买双核,那么就一定是冲着性能去的,并且对功耗也已经做好了心理
准备。
最近比较火热的小米手机就选用了高通MSM8260芯片,不过它自称的“最快”还
要打上一个问号
根据高通的官方数据,其1.2GHz的MSM8x60芯片组在满负荷工作的时候,仅
处理器部分就要消耗大约1.2瓦特的功率,这相对于单核时代不到500毫瓦的功
耗而言,也已经是非常高的数值了,这证明了不管怎么去省电,双核都依然是双
核,既然如此,去追求双核应有的性能显然应该比如何去节省那么一点点的电更
加重要。换一个方面说,性能足够强的话,系统可以以更短的时间完成任务,进
而更多地进入低功耗的状态。高通通过ASMP也许节约了一定的耗电,但是其最
大33%的性能损失会导致系统多出33%的时间处于高功耗状态,消耗的功率可能
抵消甚至反超节约的,让高通的如意算盘打空。
回到话题上来,可能有些读者会认为,单独来看,可能ASMP和SMP的差距也
并不是那么巨大,在之前图中的极限状况下也就相差33%而已,在实际运行中的
差距很难达到这个数字。但是不要忘记,之前的文章中我们讨论过乱序执行的重
要性,那么如果我们将指令等待也引入到之前的图中,那么会发生什么情况呢?
在此,我们用灰色的方块代表需要等待的指令,而等待时间为两个周期。
可以看到,一旦引入指令等待,将乱序执行与多核架构结合起来以后,不支持乱
序执行的ASMP架构(Scorpion@MSM8x60)需要10个周期才能完成的工作,
支持乱序执行的SMP架构(CortexA9MP@其它主流双核方案)只需要6个周
期,相对于支持乱序执行的SMP而言,不支持乱序执行的ASMP架构慢了66%。
这就是MSM8x60面对其它双核CortexA9的情况。虽然由于实际运行中指令的
执行长度可能共青团简介 会更长,以至于减小轮流工作的影响,但由于Scorpion核心对乱序
执行的支持并不完善,因此漫长的指令等待依然可能会导致高通的处理器浪费大
量的时间,最终性能变慢。这点,我们也会在后续的测试中加以体现。
同样,让我们也来针对多处理器架构,给四款双核一个评分:
Tegra2★★★★★
OMAP4430★★★★★
MSM8x60★★★★
Exynos4210★★★★★
较量项目三:通讯总线
现代手机所采用的主芯片早已不能简单称之为处理器,而是一套复杂得多的系统,
包含了处理器、显示加速芯片、内存控制器、视频解码核心、标准总线控制器等
等,有些甚至还包含了数字信号处理器,它们被合起来称之为片上系统(SoC)。实
际上一颗ARMSoC中,CPU所占据的硅片面积可能都不到总面积的二十分之一,
而其中很大的一部分面积,都被各种各样的互联结构占用了。其实这也很好理解,
片上系统就上一个大城市,如果交通不畅,整个城市的运行就会陷入瘫痪。在片
上系统里有各种各样的总线,内部的、外部的,私有的、公用的。在这其中有一
条最为重要的外部总线,连接着几乎所有的内部设备,那就是AXI。
总线在片上系统中有多重要,可以看下面的这张图:
可以看到,几乎所有的内部设备,都通过多层次、多区域的AXI互联接口进行沟
通,更重要的是,内存控制器也是通过AXI连接到处理器,这就意味着不论你的
内存颗粒或者内存控制器可以提供多大的带宽,处理器能够获得的带宽都直接且
仅取决于总线带宽。因此这个总线的宽度,决定了整个系统内部最大的内存带宽,
同时也在某些情况下决定了诸如3DGPU这些对内存带宽需求巨大的模块的性
能。正如城市的发展需要高速交通一样,随着片上系统的复杂化,内部互联的带
宽也要求越来越大。
数据总线相当于处理器内部的“高速公路”
由于总线方面的信息不属于一般用户所理解的范畴,因此厂家往往也不会对此做
出详细的说明,所以每一款芯片究竟总线宽度多少也是不容易查证的。这点上
nVIDIA相对而言做的最好,因为他们曾经直接把AXI总线位宽标在了网页上:
32bit,类型为AMBA-3(这个参数在现在的网页上已经找不到了,原因未知)。
这个数字是相当“惊悚”的,因为如果总线宽度真的是32bit,那么意味着Tegra2
的内部总线位宽只是ARM11级别的。因此nVIDIA在Tegra2的内部,很可能采
用了与标准ARM不同的总线配置方式,但是不论如何,Tegra2的总线带宽都是
难以置信的小,即便AXI频率达到300甚至400MHz,带宽最多也只能达到Cortex
A8的水平。根据测试,Tegra2的内存复制成绩大约只能达到1GB/s左右,这也
基本符合其带宽的表现。
再来看看德州仪器的OMAP4430。与Tegra2上的诸多猜测不同,德州仪器提供
了OMAP4430的完整技术手册,因此各方面的资料非常容易获取。在OMAP4430
中,互连结构分为若干级别和层次,但是就最主要的而言,是L3互联。德州仪
器并没有采用ARM的AMBAAXI总线,而是在芯片内部的主互联上采用了Arteris
公司的产品:
从图中可以看出,OMAP4430的L3互联宽度为128bit,是Tegra2的四倍,因
此即便工作频率为200MHz,总带宽也可以轻易达到3.2GB/s,远远超过CortexA8
和Tegra2。说实话,这才是双核CortexA9MP应有的水准。当然,由于各家SoC
的内部体系都不太一样,在此也不能100%确定Tegra2的实际情况。这点我们也
会在后面的测试中继续研究。值得注意的是,OMAP4430的两个内存控制器在搭
配LPDDR21066的时候可以提供的最大总带宽可以超过8GB/s,但由于总线带
宽缘故,实际效果可能并不会有对应的提升,这也是ARM体系中一个比较头疼的
问题之一。
言归正传,下面继续来看看MSM8x60。一直以来,高通对于自家芯片的技术资料
都守口如瓶。这维护了高通的知识产权,但是却苦了笔者这样的人,因为根本无
从查证芯片的详细参数,因此只能靠猜测了。一方面,MSM8x60基本上就是“双
核版”的MSM8x55,另一方面在后续测试中也可以看出MSM8x60在内存方面的
性能并不是很突出,因此在此笔者猜测MSM8x60的内部互联可能和单核时代一
样,即64bit、200MHz,总带宽1.6GB/s。各位读者如果有详细的信息,也不妨
告知。
最后我们来看看Exynos4210。三星和高通在这个方面有一定的相似性,也不肯
公开提供芯片的技术手册。但是我们在三星自己的Exynos4210宣传资料中还是
可以发现一些端倪的。
在图中可以明显看出Exynos4210同样支持双通道内存(DRAMC0与DRAMC1),
而在之前的关键技术列表中,三星赫然写出了内存带宽6.4GB/s的数字。由于
Exynos4210是一颗几乎全以ARM公司产品打造的芯片,因此这个数字就意味着
Exynos4210的内部总线宽度可能是惊人的256bit,只有这样才可以在200MHz
的频率下达到6.4GB/s的内存带宽。这个数字已经远远的甩开了单核CortexA8、
Tegra2和MSM8x60,甚至比OMAP4430还要高出一倍,在双核时代的SoC中
显然是傲视群雄的。
关于总线的研究就到此为止了,依然按照惯例,最后给一个分数:
Tegra2★
OMAP4430★★★
MSM8x60★★
Exynos4210★★★★★
较量项目四:多媒体
作为一台现代手机,多媒体功能是不可或缺的。早在15年前PC处理器巨头Intel
就高瞻远瞩,为大家带来了一款叫PentiumMMX的产品,其最大的特色就是引入
了名为多媒体扩展(MultiMediaeXtension,MMX)的扩展指令集。
何谓多媒体扩展指令集?由于原理复杂坚涩,小编就简单的打个比方:厂商们分
析平时处理器干哪些事情最慢、又最经常用到,然后把这些最消耗时间的事情固
化成电路,做成一个额外的部分,和处理器集成到一起。使用的时候,只通过一
条指令,就能够访问和计算多组数据,把最消耗时间的事情尽快做完。在计算机
词汇里,这种指令集叫做SIMD(SingleInstructionMultipleData,单指令多数
据)指令集。
大多数多媒体播放任务,使用SIMD技术都会带来更快的速度
回到手机上,在ARM的世界里,由于日益增长的多媒体计需求,也出现了属于
ARM自己的多媒体扩展指令集,它的名字叫做NEON。它可以帮助处理器加速
任何格式视频的编解码,帮助显示芯片加速矢量数据的解析和打包,也可以让系
统可以更快的处理几百万像素的图片。它所能带来的性能提升根据应用的不同,
可以从比较明显的50%,到难以置信的8000%。
长期以来NEON指令集都是各种高端ARMSoC的标配,从ARM11到CortexA8,
基本上所有高端SoC都包含了对应版本的NEON指令集。而在CortexA9时代,
它更是像是理所应当一样,作为一个基本而不可或缺的功能,出现在各大厂商最
高端SoC的蓝图中。
在德州仪器的OMAP4430和三星的Exynos4210中,每一个CortexA9核心都
拥有自己专属的NEON协处理器,拥有专用的32个64位寄存器,以多通道操作
的方式,加速系统的多媒体计算性能。而在MSM8x60中,高通甚至把它的NEON
协处理器的位宽增加到了128bit,两倍于标准的ARM实现,让NEON协处理器
可以一次性处理两倍的数据,带来更大的加速效果。
那么Tegra2呢?令人感到意外的是,不知道出于何种原因或者考虑,Tegra2没
有搭配NEON协处理器。这对于一颗定位于顶级的双核SoC而言是十分不可理解
的,因为NEON可以为几乎所有的多媒体过程提供明显的加速特性,而nVIDIA
却选择了放弃。可能有读者会说,Tegra2有强大的显示芯片,不需要NEON的
加速,但是不要忘记,显示芯片是不能完全独立处理所有的3D运算过程的,其中
诸如数据解包和组合这种操作还是需要CPU来完成,由于没有NEON,处理器
必须要花费几倍于对手的时间才能“喂饱”显示核心,最终的结果就是性能无法发
挥。
Tegra2实际上不支持NEON指令集
而在视频解码方面,Tegra2也会因为不具备NEON协处理器而受到很大的影响。
因为我们知道,Tegra2虽然号称可以支持诸多格式的1080p全高清解码,但是
它对视频的编码格式有着非常严格的要求,例如Tegra2的视频解码核心只能硬
件解码MainProfile的H.264视频,而对于其它的就只能靠处理器来进行软件解
压。这时没有NEON协处理器的帮助,视频解压就很难高效的进行,最终导致
Tegra2的多媒体特性缩水。
也许nVIDIA是认为NEON协处理器的授权价格过于昂贵,或者可能因为规模太
大而提升制造成本,而最终选择了放弃,但作为消费者而言,不具备NEON指令
集的Tegra2无疑会在多媒体方面的竞争中被对手远远甩开。好了,关于多媒体
的比拼也要告一段落了,最后我们照例为每个处理器给出评分。
Tegra2★
OMAP4430★★★★
MSM8x60★★★★★
Exynos4210★★★★
较量项目五:3D加速
说到3D加速,这个概念哪怕放在区区5年前,对于手机而言都几乎是可有可无的。
但是这几年随着iOS的崛起,与Android的飞速发展,3D加速一夜之间变成了高
端手机必备的特性,甚至成为了整个手机用户体验的决定性因素。
凭借强大的图形处理器,iPhone4的游戏画面表现已经击败早期的掌上游戏机
而在新一代双核CortexA9MPSoC中,图形处理器(GPU)的竞争彻底进入了白热
化阶段。从结构而言,四家的CPU好歹是一个蓝本(大家所采用的都是ARMv7
架构),但四家的GPU却选择了四种完全不同的方案,这的确从另一方面印证了
GPU的重要性与竞争的激烈性。
nVIDIA作为PC领域图形技术的领导者,在这方面是有着先天的巨大优势。Tegra
2所采用的GPU是nVIDIA自行研发的GeForceUltraLowPower,缩写为
GeForceULP。它拥有四个顶点处理器,四个像素处理器,支持OpenGLES
1.1/2.0、OpenVG等主流标准。在Tegra2发布的时候,这枚GeForceULP就是
nVIDIA的宣传重点,因此消费者对于它的性能也有着极大的期待。
NV当年演示的Tegra2平板游戏,引起了人们极大的期待
而作为曾经参与桌面竞争、当下专注嵌入式GPU的Imagination公司,自然不愿
意让出嵌入式独立GPU市场的性能领导地位。在OMAP4430上,我们看到的就
是这家公司设计的PowerVRSGX540。这是一颗大家很熟悉的GPU,因为早在
单核CortexA8时代,三星就在代号蜂鸟的处理器中采用了这颗GPU,它强大的
性能也让采用蜂鸟处理器的机型在单核时代傲视群雄。与GeForceULP不同的是,
PowerVRSGX540内并没有单独的顶点处理器或者像素处理器,而是包含了四组
通用处理器。这种类似于桌面显示核心统一渲染器的设计结构可以让PowerVR
GPU用最少的硬件获取最大的性能,从而节约成本和功耗。值得一提的是,也正
是由于通用处理器的设计,PowerVRSGX540成为了当前唯一一颗支持OpenCL
通用运算标准的GPU。
而在高通MSM8x60上,GPU则不出意外的是高通自行设计的Adreno。这是高
通从前ATi公司收购而来并自行发展的图形架构,经过四代的发展,来到美味的饺子 了最新
的Adreno220。相对于单核时代主流的Adreno205,这颗GPU可以达到前者两
倍的性能,从而得以参与到双核时代的GPU争夺战之中。当然,由于高通的“优
良传统”,Adreno系列的架构一直不得而知,详细参数也很难查明,但是考虑到
这是从ATi收购而来的架构,因此笔者猜测应该也是基于分离的顶点处理器和像
素处理器,只是各自的数量依然不甚明确。
而四大双核里最后登场的Exynos4210,它在GPU上的选择也是最为有趣的,因
为它所搭载的是由ARM官方设计的Mali400图形核心。这是一颗相对而言比较陌
生的显示核心,因为这还是它第一次在顶级SoC中露面。
从架构上而言,Mali400也基于分离的顶点处理器与像素处理器,从逻辑角度而言
要比PowerVRSGX540落后一些,也不支持OpenCL通用运算标准。但是这样
的结构在目前的应用需求下,性能也未必会显得落后。标准的Mali400GPU包含
一组顶点处理器,而像素处理器则可以在一组到四组之间自由搭配,取决于你愿
意支付多少授权费和制造成本。由于Exynos4210是三星最顶级的ARMSoC,
因此三星也当仁不让的选择了完整的四像素渲染器配置,即Mali400MP4。稍微岔
开一下话题,虽然ARM宣称Mali400的这种设计是“多核心”架构,但笔者认为
Mali400的“MP”与苹果A5处理器所采用的PowerVRSGX543MP2的多核是不一
样的,后者才是真正的多核心,而前者只能称之为像素处理器可变而已。
那么这四颗GPU的基础性能参数是怎样的呢?我们来看下面这张表格:
注:1、参数为网络数据,不保证绝对的准确性
2、数据为计算数值,未必是真实数值
3、网络搜索,准确数据无法确定
可以看到,在规格指标方面,Exynos4210是遥遥领先的,而Tegra2紧随其后。
至于具体的性能表现,我们在后面的测试中将简单介绍。值得注意的是,上表中
的参数未必是最终的实际性能,理论参数一般都会受到实际应用环境的强烈影响。
不过不管怎样,我们还是要打个分的,暂时按照物理参数吧。
Tegra2★什么是欲擒故纵 ★★★
OMAP4430★★★
MSM8x60★★
Exynos4210★★★★★
谁是纯爷们?四款双核大混战
经过上述炫目的技术分析,相信大家都累了。下面就让我们从一些性能测试中一
窥这几颗处理器在实际产品中的表现吧。首先介绍一下采用了这四颗芯片的实际
产品。
需要注意的是,下面的测试并不是每一个产品都可能会有数据,也许某些测试只
会有一部分的产品参与,而由于各个手机的分辨率不同,所以在3D测试里也需
要加以考虑,不能只看原始数据。有些测试因为太老,进入双核时代后大家的性
能都受限于垂直同步而导致没有足够的差异性,例如Neocore,因此这里就不列
成绩了。
作为对比,我们额外引入单核的NexusS,方便大家查看性能区别。
下面的测试对比就将在这五款机器中展开。首先让我们来看看Smartphone
Benchmark2011的结果。成绩来源为独立第三方手机性能测试网站Smartphone
Benchmarks的官网首页,选择分数的标准为能确认的原始频率下最高的得分,采
集时间为2011年7月15日,下同。
游戏,即GPU方面,可以看到Mali400MP4、SGX540、GeForceULP得分相近。
而生产力,即CPU方面,则是Exynos4210一枝独秀。当然这也有一部分原因
在于它的默认频率为1.2GHz。但是可以看到的是MSM8x60不论是GPU还是
CPU,都被远远的甩在了后面,甚至还不如单核的S5PC110,其原因不外乎老
旧的处理器核心与异步多核心架构。
然后我们来看看NenaMark2.0。成绩来源依然是官网,所有型号的成绩取平均值:
注:Optimus3D无法找到测试成绩。NexusS的成绩以同配置的GalaxyS代替。
在这个测试中,Exynos4210的成绩遥遥领先与所有对手,而Tegra2也许是因
为较低的内存带宽,导致成绩反而对党的寄语 不如MSM8x60,甚至和上一代的单核也相去不
多。当然,GalaxySII的分辨率只有800x480,这里需要再一次强调。
下面再来看看另一款测试,名叫Electopia。这是一款游戏内建的测试,成绩为论
坛收集:
注:由于没有Atrix4G的成绩,因此此处用同为Tegra2的Optimus2X代替,分
辨率800x480。OMAP4430成绩依然欠奉。
同样,Exynos4210依然遥遥领先,而在这项测试中Tegra2依然垫底,甚至不
如上一代S5PC110,而且落后MSM8x60的比例比之前更大。
最后我们再来看看GLBenchmark的测试。这是一款以3D为主的测试软件,我们
选取其中的Egypt场景作为对比,接着再来看看处理器性能。成绩来源为官网。
由于此测试历史久远,参测机型固件版本众多,导致平均值参考意义不大,因此
各自机型取最大值。
注:Atrix4G没能通过FSAA测试。
再一次,Exynos4210取得了压倒性的优势,性能几乎是第二名的两倍。而
MSM8x60的Adreno220甚至还比不过上一代的PowerVRSGX540,不论是单
核的S5PC110还是双核的OMAP4430。和上一个测试一样,Tegra2再次垫底,
原因可能也是因为带宽不足。
下面再来看看四款双核的处理器性能:
注:OMAP4430没有测试成绩。
在这次测试中我们又一次看到了CortexA9对Scorpion的压倒性优势。由于高通
依然沿用了上一代的架构,因此不论是整数性能还是浮点性能都远不如Cortex
A9。可惜的是OMAP4430没有测试成绩,不过应该和其余两款CortexA9MP相
去不大。
最后再让我们来看一个不算测试的测试:AndroZip解压。成绩来源为网站测试,
内容为1.2MB的压缩包解压,成绩为耗时,参与机型只有GalaxySII与Sensation。
可以看到,同样的频率下,MSM8x60所花费的时间为Exynos4210的300%多,
这样的差距足以说明在某些应用下,架构的区别可以带来多大的差距。退税时间
由于时间原因,诸如视频等多媒体方面的测试,这里就没法提供了,具体的情况
如果各位有兴趣,可以关注爱活网进行的后续测试。
看完了上面的测试,各位对这四大双核应该也能有一个概念了。总体而言,三星
没有食言,Exynos4210不论在任何方面,都是双核中最强的,领先第二名的程
度都非常明显。而OMAP4430则靠着各方面稳定而平均的表现,成为了双核时代
另外一个理想的选择。高通的MSM8x60在3D测试中体现出了一定的实力,但
由父亲的病读后感 于架构和核心原因,在牵涉到CPU性能的测试中均溃败给了所有对手,实际表
现和单核并没有太大差别,笔者认为追求双核性能的用户选择高通平台并不合
适。
至于Tegra2,作为世界上第一款双核心ARMA9处理器,我们只能说它光荣的
完成了双核心的铺路石作用。由于NV太过节省成本,Tegra2的内存带宽和多媒
体指令集都未能完善,导致实际使用中的体验下降,最终得分和高通MSM8x60
一起垫底。作为回顾,我们看看四款处理器都得到了多少颗星:
它们也很重要:功耗和成本
看完上述评测,也许很多人会觉得,为什么Tegra2如此之差?nVIDIA果然还是
这方面的菜鸟啊!如果这样想你就错了,因为在这些芯片的背后,还有一些重要
的参数和取舍,之前的文章里我们并没有提到,那就是成本。
众所周知,芯片是从硅晶圆上切割出来的,一块300毫米的晶圆价格高达数十万
美元。所以,就像切蛋糕一样,芯片面积越小,能切出来的芯片越多,成本自然
也就越低了。
但是芯片的面积又取决于晶体管的数量,而晶体管的数量往往正比于性能,因此
这是个取舍的过程。那么这四款双核的核心面积又是多大,笔者也查询了一些资
料。值得注意的是高通的SoC因为内置基带处理器,相对于其他的SoC而言多
出了几个模块,在考虑尺寸的时候需要注意一下。
网上查到的资料毕竟是粗略的,因此在此也不能保证绝对的准确性,请各位读者
原谅。
作为对比,我们加入了AppleA5的数据。可以看到的是,虽然大家在参数上看差
不多,但是面积方面相差却非常巨大,最小的Tegra2核心面积甚至不到最大的
AppleA5的一半,这意味着一片晶圆可以切割出的Tegra2数量是A5的两倍以
上,前者的成本也要大大低于后者。这都是厂商在设计芯片时的选择问题,到底
时倾向于成本,还是倾向于性能,nVIDIA的选择显然时前者,而事实上也是如
此。
对比苹果A5处理器我们会发现,单单是PowerVRSGX543MP2这一颗GPU,
占据的芯片面积就几乎和整颗Tegra2一样大。从这个角度而言,Tegra2是成功
的,因为它的GPU只用了对手不到八分之一的面积,就实现了几乎一半的性能,
性能成本比无疑非常可观。
苹果A5处理器巨大的芯片面积(X光扫描图)
Tegra2的OEM报价只需要15~25美元,而作为对比,上一代三星单核蜂鸟处
理器的报价就已经达到了20美元,而双核时代的猎户座必然要贵很多,因为猎户
座的核心面积也超过了Tegra2的两倍。与价格相同,芯片面积越多、晶体管规
模越大,满载时的功耗就也更大,因此Tegra2在满载时的功耗有可能会比其他
产品小。但问题是Tegra2为了降低成本而去掉的特性太多、砍掉的性能太狠,
很多时候反而得不偿失。丧失了成本与性能的平衡点,这也许才是nVIDIA犯下的
最大的错误。
这是一台采用Tegra2芯片的完整的电脑
而三星则试图追求最大的内部互联带宽,我们也看到了,Exynos4210可能是唯
一一颗采用了256bit内部总线的SoC,而这个总线无疑也会占据相当大的硅片面
积。而OMAP4430在各方面都较为平庸,因此芯片面积也居于中等水平。可以
说,厂家的侧重各有不同,导致最终产品之间的巨大差异,在这方面,德州仪器
做的无疑是最好的,不论是成本、功耗还是性能都是一个很适中的档次,而
Exynos4210与AppleA5则走在了性能的极端,实际上可以说忽略了成本与功耗
的表现。而最悲剧的依然是Tegra2,nVIDI**面追求低成本,导致性能方面惨不
忍睹,这可能是nVIDIA在Tegra2上需要学到的最大的教训。
写在最后:被透支的未来
好了,我们的文章至此也要结束了,如果你仔细阅读了我们的内容,相信你对市
面上的各种双核心手机已经心中有数。双核大战,四大巨头,看起来很热闹,不
是吗?但是在这片繁荣的背后,笔者看到的是我们被透支的未来。
2007年,手机硬件升级大战第一把火由苹果燃起,紧随其后的Android的发展,
把拼硬件之风成功发扬光大。而到了2011年,以nVIDIA为代表的PC企业的介
入,更是把拼硬件的速度与力度提到了史无前例的地步,一代手机的生命周期往
往只有12个月。
NV奉行的是“性能每年翻一番”的策略
性能在翻倍,功能在增加,随之而来的却是越来越高的功耗,越来越大的发热,
一天比一天重的电池,和一天比一天短的续航。根据高通提供的数据,工作在
1.2GHz的MSM8x60,仅CPU部分的功耗竟高达1.2瓦,再加上显示核心,功
耗更是不可想象。
其实,哪怕我们把时间推回到短短5年前的ARM11时代,续航、功耗,都不是
用户需要去关心的问题,但自从进入双核时代,高端手机的续航时间就已经开始
以半天甚至小时作为单位,而满载时外壳高达50度的巨大发热,也在不断考验着
用户的忍耐极限。每个人都应该问自己,这真是我们需要的手机吗?
相信有很多人会说不是。但厂家可不会理会这点。因为硬件升级是一场军备竞赛,
谁也不愿意落在后面。于是,我们在NV的路线图上看到了2011年底推出的四核
心芯片,看到了28纳米将首先用于制造ARM芯片。
再过半年多,新一代的CortexA15又将扛起新一轮拼硬件的大旗,而频率会直冲
2GHz。在这样恐怖的速度背后,我们还有多少资本可以支撑现在的发展速度?半
导体工艺是有物理极限的,业界迄今为止都对线宽10纳米以下的超大规模集成
电路束手无策,移动计算市场这辆由厂家和消费者共同催动的火车,已经能看到
近在咫尺的悬崖。
NV的路线图写得很清楚:今年年底要推出4核心手机处理器Tegra3
几年后,当人们手里拿着的都是装着散热器、风扇呼呼响的“手机”,终于意识到这
样不行的时候,却发现已经无路可退;当人们终于开始怀念聊天看书发短信,充
电一次管一周的手机时,却发现这样做的企业已经倒在了硬件大战滚滚洪流之中,
这才是移动产业的悲剧。
其实在这里写下这些文字,笔者的心中也充满着矛盾。消费者不可能放弃对更快
更好的追求,也不可能因为这种“与我无关”的事情而不再购买最新的手机,但如果
每个人都可以认识到自己到底需要什么,都只会选择足够需求的设备,我们的未
来就可能会更长远、更健康、更舒适。
本文发布于:2023-03-24 01:24:04,感谢您对本站的认可!
本文链接:https://www.wtabcd.cn/fanwen/zuowen/1679592246364193.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文word下载地址:手机cpu是什么.doc
本文 PDF 下载地址:手机cpu是什么.pdf
留言与评论(共有 0 条评论) |