當前位置:硬件評測網> 服務器評測 >> 性能大幅提升 Core i7 服務器應用測試

性能大幅提升 Core i7 服務器應用測試

時間:2008-10-23 13:44:59 作者: 來源: IT168

  【IT168評測中心】從上一年中開始,Intel就陸續放出酷睿處理器的下一代架構Nehalem的相關消息,45nm Penryn處理器的功耗以及性能已經讓我們非常滿意了,作為Penryn的下一代,Nehalem讓人期待不已。現在到了2008年十月,新架構Nehalem的處理器事物終于來到了我們的面前,同期到來的還有搭配的桌面級別主板兩塊(一塊Intel X58SO,一塊ASUS P6T Deluxe)。和以往Intel處理器架構總是先亮相于服務器或是移動平台不同,今次Nehalem架構的全新產品首先出現在了桌面平台上,對應于Core 2 Duo或是Core 2 Quad,Intel將這個全新的產品系列命名為Core i7。


Nehalem - Core i7 Extreme的黑色LOGO

採用LGA1366封裝的Core i7(左)與LGA775封裝的Core 2(右)相比大上了不少

Nehalem桌面測試平台

  預計Nehalem〞〞Core i7將于11月正式發布,而服務器版本仍然還有一段時日,Nehalem作為桌面級別產品的性能我們已經可以從這篇《再攀性能之巔 Intel全新酷睿i7深度評測》看到了,然而服務器方面的性能呢?我們IT168評測中心已經等不及了。

我們自行購買的Nehalem也是一個工程樣板

CPU-Z 1.48可以正常識別出關于CPU的詳細信息

  全球首批三款Nehalem架構處理器型號分別為Core i7 965 Extreme、Core i7 940及Core i7 920,我們拿到的這顆Core i7處理器型號為Core i7 940,是目前發布的三款Core i7產品中定位居中的一款,和頂級的Core i7 965 Extreme相比,它只是QPI規格稍低、倍頻向上鎖定以及缺少Turbo Mode功能。

由于加入了更多核心外的復雜設計,因此Core i7的背面也更加復雜

Core i7 940的緩存信息

  Core i7 965 Extreme、940及920處理器,核心代號Bloomfield,均採用原生四核心設計,基于45nm工藝生產,擁有7.31億個晶體管,每個核心擁有256KB的獨立二級緩存,四個核心共享8M容量的三級緩存,TDP為130W。由于緩存總容量較之Penryn四核還有所下降,所以其晶體管數量實際上還略低于Penryn四核心。但由于三級緩存及內存控制器等復雜設計的加入,Intel為Bloomfield設計了一個LGA 1366接口,這也直接使得最終產品看上去比起LGA 775接口的產品大了不少,處理器基板上的金屬觸點是為了Debug而設計。

測試平台、測試環境
測試分組
類別Core i7 Extreme 940平台雙路Xeon E5450平台
DELL PE2900 III服務器
處理器子系統
處理器Intel Core i7 Extreme 940雙路Intel Xeon E5450
處理器代號BloomfieldHarpertown
處理器封裝Socket 1366 LGASocke 771 LGA
處理器規格四核超線程
內置內存控制器
四核
處理器指令集MMX,SSE,SSE2,SSE3,SSSE3,
SSE4.1,SSE4.2,EM64T,VT
MMX,SSE,SSE2,SSE3,SSSE3,
SSE4.1,EM64T,VT
主頻2.93GHz3.00GHz
處理器外部總線QPI Link:3200MHzFSB:1333MHz
L1 D-Cache4x 32KB
8路集合關聯
4x 32KB
8路集合關聯
L1 I-Cache4x 32KB
4路集合關聯
4x 32KB
8路集合關聯
L2 Cache4x 256KB
8路集合關聯
12MB
16路集合關聯
L3 Cache8MB
16路集合關聯
主板
主板型號ASUS P6T DeluxeDELL PE2900 III
北橋芯片組(MCH)Intel X58Intel 5000X
北橋芯片特性Intel VT-d技術12MB Snoop Filter
內存控制器處理器內置三通道DDR3北橋集成四通道FBD DDR2
內存1GB DDR3 1066 SDRAM x62GB FBD DDR2 667 SDRAM x4
系統磁槃子系統
磁槃控制器Intel ICH10R RAID ControllerDELL Perc 5/i RAID Controller
磁槃控制器規格SATA 3GbpsSAS 3Gbps
磁槃控制器設置RAID 0RAID 5
磁槃控制器驅動Intel Matrix Storage Manager
8.5.0.10032
LSI SAS
2.20.0.64
磁槃Seagate
SV35.3
ST31000340SV x2
Seagate
Cheetah 15K.5
ST314655SS x3
磁槃規格7200RPM
1TB
SATA 3Gbps
32MB Cache
15000RPM
146GB
SAS 3Gbps
16MB Cache
磁槃設置SATA 3Gbps
50GB系統分區
SAS 3Gbps
20GB系統分區
網絡子系統
網卡Marvell Yukon 88E8056
PCI-E千兆網卡 x2
Broadcom BCM5708C
PCI-E千兆網卡 x2
網卡設置Marvell NIC Teaming
Load Balancing
Broadcom NIC Teaming
Load Balancing
網卡驅動Marvell Yukon for Win64
10.55.3.3
Broadcom NetXtreme 2 for Win64
11.04.01
軟件環境
操作系統Microsoft
Windows Server 2008
Enterprise x64 Edition SP1
Microsoft
Windows Server 2003 R2
Enterprise x64 Edition SP2

  我們使用了一套基于X58芯片組的主板搭配了測試平台,這塊主板是ASUS P6T Deluxe,關于它的解析將會稍後推出。主要對比平台是一台安裝了Windows Server 2003 R2 x64操作系統的DELL PowerEdge 2900 III服務器,包含了多款Xeon處理器的對比測試。DELL PowerEdge 2900 III服務器採用的主板基于Intel 5000X芯片組,帶有12MB Snoop Filter緩存,它可以提升重負荷下緩存同步、進程調度方面的性能。5000X芯片組比較少見。前段時間推出的5400 Seburg芯片組帶有24MB的Snoop Filter緩存。


我們使用的主板:ASUS P6T Deluxe


使用了6條DDR3-1066內存

Intel Xeon E54xx Harpertown處理器:

45nm Harpertown處理器

  45nm Xeon E5450的頻率為3.00GHz,和我們的Core i7 Extreme 940的頻率很接近。Core i7 Extreme 940的頻率是2.93GHz。

  ScienceMark v2.0 Membench

  ScienceMark v2.0是一款用于測試系統特別是處理器在科學計算應用中的性能的軟件,MemBenchmark是其中針對處理器緩存、系統內存而設計的功能模塊,它可以測試系統內存帶寬、L1 Cache延遲、L2 Cache延遲和系統內存延遲,另外還可以測試不同指令集的性能差異。


ScienceMark v2.0 Membench L1測試成勣


ScienceMark v2.0 Membench L2測試成勣


ScienceMark v2.0 Membench 內存測試成勣

  首先我們進行的是ScienceMark的測試,主要考察系統的緩存和內存子系統情況。L1/L2 Cache的成勣主要是跟處理器頻率相關,因為目前的處理器當中L1 Cache都是和處理器核心同頻率的,而L2 Cache基本上也是〞〞當前的處理器L2都是全速的(放置在處理器內但不在同一個芯片上的Pentium II為半速L2,而Pentium之前的處理器L2則和處理器分離,速度更低)。越快的頻率,L1/L2性能就越好。而內存帶寬主要由兩部分相關:比較大的部分是內存架構,小部分是內存操作指令(集),例如使用最新的SSE指令集比通常的ALU指令集會得到更大的吞吐量,而不同的SSE版本性能也有不同。

ScienceMark Membench

廠商NehalemDELL PE2900 III
產品型號單路Core i7 Extreme 940雙路E5450
內存技術參數1GB DDR3-1066 SDRAM x62GB FBD ECC DDR2-667 SDRAM x4
L1帶寬(MB/s)47986.2755707.30
L2帶寬(MB/s)19708.2616740.23
內存帶寬(MB/s)13491.824505.59
L1 Cache Latency(ns)
32 Bytes Stride1.021.00
L1 Algorithm Bandwidth(MB/s)
Compiler42946.57
REP MOVSD43613.84
ALU Reg Copy12113.23
MMX Reg Copy23883.50
SSE PAlign47242.50
SSE2 PAlign47986.27
L2 Cache Latency(ns)
4 Bytes Stride1.021.00
16 Bytes Stride1.021.34
64 Bytes Stride3.064.01
256 Bytes Stride3.064.01
512 Bytes Stride2.724.34
L2 Algorithm Bandwidth(MB/s)
Compiler18218.37
REP MOVSD19708.26
ALU Reg Copy8797.54
MMX Reg Copy14108.99
SSE PAlign18752.85
SSE2 PAlign18763.34
Memory Latency(ns)
4 Bytes Stride1.361.00
16 Bytes Stride1.704.68
64 Bytes Stride6.1219.38
256 Bytes Stride36.6559.48
512 Bytes Stride43.5466.16
Memory Algorithm Bandwidth(MB/s)
Compiler10216.663177.97
REP MOVSD13421.203223.82
ALU Reg Copy9015.342818.10
MMX Reg Copy9570.622992.21
MMX Reg 3dNow------
MMX Reg SSE12729.133962.02
SSE PAlign13379.864297.17
SSE PAlign SSE13311.124124.61
SSE2 PAlign13491.824293.79
SSE2 PAlign SSE13236.434126.98
MMX Block 4kb11442.954167.14
MMX Block 16kb12754.304480.38
SSE Block 4kb11424.754172.21
SSE Block 16kb12878.854505.59

  從測試結果來看,45nm Nehalem Core i7平台與45nm Penryn Xeon總體超出實在太多了。L1緩存因為與頻率密切相關,而且從上一頁的表格來看,Core i7 Extreme 940的L1 I-Cache(指令緩存)為4路集合關聯,要弱于Xeon E5450的8路集合關聯,因此L1延遲要高上一些,L1帶寬則要低上不少。


Nehalem的三級緩存架構

Core i7 940的緩存架構

  對于Core i7 Extreme 940來說,有一處特別的地方就是L3 Cache的存在,L2和L1很相像,都是小容量、低延遲。Xeon E5450就不是這樣,因此最終的結果是Nehalem的L2性能要強于Penryn Xeon。由于ScienceMark 2.0認不出Nehalem的L3,因此沒有相關的數據。


Nehalem的緩存設計

  到了內存延遲和內存帶寬測試上,Core i7 Extreme 940完勝,這和Nehalem的架構密切相關:


Nehalem的內置內存控制器架構

  由于內置了內存控制器,因此內存延遲極低,在使用同樣內存基礎頻率的情況下,Core i7的延遲只有Xeon的2/3,也就是64%左右。在帶寬方面,雖然Core i7只具有3個內存通道,而Xeon平台則具有4個內存通道,然而Xeon的內存數據還要經過狹窄的FSB來到達CPU,比起Core i7的完全獨享來自然大有不如,因此Core i7 Extreme 940的內存帶寬性能測試大約是Xeon E5450的3倍左右。它們的理論帶寬分別是25GB(三通道DDR3-1066)和20.8GB(四通道FBD DDR2-667),可見Core i7的內存帶寬效率也遠比現在的Xeon + 5000X要高。

  SiSoftware Sandra Pro Business 2009

  SiSoftware Sandra是一款可運行在32bit和64bit Windows操作系統上的分析軟件,這款軟件可以對于系統進行方便、快捷的基准測試,還可以用于查看系統的軟件、硬件等信息。從Sandra 2007開始支持SSE4指令集。SiSoftware Sandra所有的基准測試都針對SMP和SMT進行了優化,最高可支持32/64路平台,這也是我們選擇這款軟件的原因之一。我們在Core i7 Extreme平台上使用的是Sandra 2009,在E5450使用的是Sandra 2008。

SiSoftware Sandra Pro Business 2009
單Core i7 Extreme 940雙路Xeon E5450
Processor Arithmetic Benchmark
Dhrystone iSSE4.271538 MIPS
Dhrystone ALU 110320 MIPS
Whetstone iSSE361616 MFLOPS87861 MFLOPS
Processor Multi-Media Benchmark
Multi-Media Int x16 iSSE4.1148.56MPixel/s
Multi-Media Float x8 iSSE2114.78MPixel/s
Multi-Media Double x4 iSSE263.17MPixel/s
Multi-Media Int x8 iSSSE3 655876 iit/s
Multi-Media Float x4 iSSE2 358011 fit/s
Multi-Core Efficiency Benchmark
Inter-Core Bandwidth39.17GB/s
Inter-Core Latency 16ns
Memory Bandwidth Benchmark
Int Buff'd iSSE2 Memory Bandwidth19.11GB/s6264 MB/s
Float Buff'd iSSE2 Memory Bandwidth19.11GB/s6262 MB/s
Memory Latency Benchmark
Memory(Random Access) Latency94ns
Speed Factor64.50
Internal Data Cache4clocks
L2 On-board Cache11clocks
L3 On-board Cache53clocks
Cache and Memory Benchmark
Cache/Memory Bandwidth60.02GB/s75623 MB/s
Speed Factor27.30
.NET Arithmetic Benchmark
Dhrystone .NET16280MIPS12358 .netMIPS
Whetstone .NET38076MFLOPS52176 .netMFLOPS
.NET Multi-Media Benchmark
Multi-Media Int x1 .NET29.06MPixel/s120421 .netiit/s
Multi-Media Float x1 .NET12.59MPixel/s27648 .netfit/s
Multi-Media Double x1 .NET24.87MPixel/s

SiSoftware Sandra對比(一些測試項目有所不同,如Nehalem上測試的是Dhrystone iSSE4.2,在Penryn上就只是Dhrystone ALU,這是因為Penryn不支持iSSE4.2)

  雖然使用的Sandra版本不同,導致了部分數據不能直接對比之外,其他部分仍然可以一比高下。由于雙路志強E5450是實打實地具有8個CPU核心,而Core i7的8個執行核心其實是4個CPU核心通過超線程技術“變”出來的,因此處理器的理論性能上Core i7 940不敵同頻率的雙路Xeon E5450,只有65%(整數)~70%(浮點)左右。


Nehalem的超線程技術

  由于超線程技術實際上是使一個處理器內核的所有執行引擎的利用率提升的技術,因此其對性能提升的幅度就不如確實的處理器內核那麼高,按炤以往Pentium 4的經驗,超線程對處理器的性能提升約為10%~30%左右(極少數情況下,還具有負作用),因此我們可以推測出除了超線程之後,Nehalem內核具有的性能提升幅度,考慮到4內核8執行核心的Core i7 2.93GHz相當于8內核Xeon 3GHz的65%~70%,而超線程可以提升10%~30%,則每一個Nehalem物理內核會比一個Xeon E5450內核提升約10%~15%左右。

  內存帶寬方面,Sandra結果表示Core i7平台的性能是Xeon平台的3倍,與ScienceMark的結果相同。

  CineBench R10

  CineBench是基于Cinem4D工業三維設計軟件引擎的測試軟件,用來測試對象在進行三維設計時的性能,它可以同時測試處理器子系統、內存子系統以及顯示子系統,我們的平台偏向于服務器多一些,因此就只有前兩個的成勣具有意義。和大多數工業設計軟件一樣,CineBench可以完善地支持多核/多處理器,它的顯示子系統測試基于OpenGL。


Core i7 Extreme 940 CineBench R10 64bit測試成勣


Core i7 Extreme 940 CineBench R10 32bit測試成勣

CineBench R10 64bit
處理器單路Core i7 Extreme 940雙路Xeon E5430
顯卡NVIDIA 9500GT雙ATI 3870x2 CrossFire-X
CPU Benchmark
Rendering (1 CPU)3990 CB-CPU3257 CB-CPU
Rendering (x CPU)16919 CB-CPU19452 CB-CPU
Multiprocessor Speedup4.24x5.97x
OpenGL Benchmark
OpenGL Standard4599 CB-GFX2505 CB-GFX

沒有採用E5450,不過我們有E5430的成勣,E5430的頻率為2.66GHz,架構與E5450相同

  單處理器的渲染性能,Core i7 Extreme 940要比Xeon E5450高22.5%,這混合了處理器的提升,以及內存子系統的提升。多處理器的渲染性能Core i7不敵Xeon,原因在于Core i7事實上只有4個處理器核心,通過超線程才“變出來”8個執行核心。Multiprocessor Speedup就體現了這個因素:Core i7的是4.24倍,而Xeon則是5.97倍。一方面確實表現了超線程技術並不是真正的多處理器核心,另一方面也表現了Nehalem的超線程技術和多核心化的性能相去也不是很遠。例如,8個Xeon物理處理器核心的提升是5.97倍的話,那麼4個Nehalem物理處理器核心可以粗糙地認為是3倍提升,則超線程相當于4.24/3 = 1.41倍的性能,也就是說,一個“虛擬”的CPU相當于0.4個“真實”的CPU,Nehalem的超線程技術可以說是比起Pentium 4的遠為進化了。僅通過小部分線路就可以獲得如此之大的提升,Nehalem的超線程可謂物廉價美。

  WebBench v5.0

  WebBench是針對服務器作為Web Server時的性能進行測試,我們在被測服務器上安裝了IIS6.0組件,以提供測試所需的Web服務。在測試中我們開啟了網絡實驗室中的56台客戶端,分別使用了WebBench 5.0內置的動態CGI以及靜態頁面腳本對服務器進行了測試。

  靜態測試是由客戶端讀取預先放置在服務器Web Server下的Web頁面(wbtree),這項測試主要考察的是服務器磁槃系統以及網絡連接性能。我們使用了實驗室中的56台客戶端,配合Static_mt.tst多線程靜態腳本測試向被測服務器發送請求。

  動態測試偏重于對服務器CPU子系統的性能測試,它對于Web服務器提供了足夠的負載。我們將一個C語言編寫的CGI源文件Simcigi.c編譯為Simcgi.exe,並將其作為動態測試中的CGI腳本。在測試過程中,每台安裝了WebBench客戶端軟件的PC,會在300秒的時間內持續向服務器發送CGI請求,而控制台會紀錄並匯總服務器所響應CGI請求的數據。CGI測試的成勣高低,主要取決于服務器處理器子系統性能的優劣。處理器子系統包括CPU、內存以及內存控制器,CPU頻率、緩存以及內存容量大小和內存帶寬,都會影響該項成勣。


Nehalem平台 - WebBench靜態頁面性能

  Nehalem Core i7 Extreme 940大約可以達到25000每秒處理請求數,一般的服務器受限于千兆網卡帶寬,為18000左右。一般的雙千兆網卡捆綁可以達到22000每秒處理請求數的性能。


Nehalem平台 - WebBench動態頁面性能

  一般雙路Xeon 54xx系列服務器動態頁面性能可以達到11000左右,單路Nehalem Core i7 Extreme 940可以達到10860左右,略微低于雙路Xeon。要記住,Nehalem只有4個物理處理核心,雙路Xeon平台則是8個。

  如同我們一再強調的那樣,WebBench靜態頁面性能其實非常依賴于網卡帶寬,其次,它對內存子系統也具有一些要求,而WebBench動態頁面性能則不主要依賴于網卡帶寬而依賴于處理器性能、內存子系統性能,依靠著強大的內核、超線程技術、內置三通道高帶寬內存,Nehalem平台在所有測試當中力敵至強平台,這充分表明了Nehalem架構的威力,同時,超線程的實力也可見一斑,和真實的處理器核心有一拼之力。

注:

  Nehalem處理器使用的IIS 7.0在我們以前的測試當中證明具有強勁的靜態頁面性能以及相對IIS 6.0較弱的動態頁面性能,現在的測試的結果可以更加表明Nehalem的動態頁面性能優勢。

  【IT168評測中心】經過測試,我們對Nehalem的強大有了深刻的認識,經過總結,它可以簡單地歸結為三個方面:


Nehalem - Core i7 Extreme的黑色LOGO

處理器內核架構

  通過各式各樣的架構上的改進,並配合SSE4.2指令集,Nehalem處理器架構的性能比Penryn處理器要高10%~20%左右,這和Penryn通過SSE4.1達到主要的性能提升不一樣,Nehalem處理器的提升是著實地基于內核架構的提升(其實,SSE4.2指令集的數量很少)。這個數值也和Intel宣稱同頻率Nehalem比Penryn快約10%的說法相近。

內存子系統

  記得Intel的老對手AMD在首次將內置內存控制器運用到x86處理器上的情景麼?Athlon處理器,或者說K7處理器,由于內置了內存控制器,並使用了源自DEC Alpha的一系列技術,性能頗為強勁,風頭一時蓋過Intel,並促使了Core微架構最終代替了Pentium 4的NetBurst微架構。現在Intel也將內置內存控制器運用到了x86處理器上,Nehalem的三通道DDR3內存架構威力巨大,同時具有低延遲、高帶寬的特點,從測試上看,延遲比四通道DDR2-667降低了33%,帶寬提升了200%!在服務器、工作站應用上可以提升約10%的性能,處理器的數量越多,優勢越明顯。

超線程技術

  對于桌面平台而言,超線程的存在對Benchmark性能並沒有太大的提升,不過,在我們的服務器/工作站測試當中,Nehalem的超線程技術卻是具有重要的地位:一個虛擬出來的處理器,相當于0.4個實際處理器,而只需要增加少量電子線路就可以達到,在提升能效比、提升計算密度方面具有巨大的優勢,在桌面平台上,超線程技術其實也很有效果。超線程技術實是Nehalem的一大殺手齔。

(左)Nehalem - Core i7

  我們測試的Nehalem處理器並不是面向企業級市場,並且我們目前只能搭建單路平台,然而從測試成勣來看,在合適的條件下,單路Nehalem就可以和雙路Xeon Harpertown打個旗鼓相當,未來企業級版本Nehalem的性能更加讓人期待了!

網站首頁 -  網站地圖  -  網站投稿 -  廣告服務 -  幫助中心
硬件評測網[粵ICP備06004056號]