【IT168評測中心】從上一年中開始,Intel就陸續放出酷睿處理器的下一代架構Nehalem的相關消息,45nm Penryn處理器的功耗以及性能已經讓我們非常滿意了,作為Penryn的下一代,Nehalem讓人期待不已。現在到了2008年十月,新架構Nehalem的處理器事物終于來到了我們的面前,同期到來的還有搭配的桌面級別主板兩塊(一塊Intel X58SO,一塊ASUS P6T Deluxe)。和以往Intel處理器架構總是先亮相于服務器或是移動平台不同,今次Nehalem架構的全新產品首先出現在了桌面平台上,對應于Core 2 Duo或是Core 2 Quad,Intel將這個全新的產品系列命名為Core i7。

Nehalem - Core i7 Extreme的黑色LOGO
![]() |
| 採用LGA1366封裝的Core i7(左)與LGA775封裝的Core 2(右)相比大上了不少 |
![]() |
| Nehalem桌面測試平台 |
預計Nehalem〞〞Core i7將于11月正式發布,而服務器版本仍然還有一段時日,Nehalem作為桌面級別產品的性能我們已經可以從這篇《再攀性能之巔 Intel全新酷睿i7深度評測》看到了,然而服務器方面的性能呢?我們IT168評測中心已經等不及了。
![]() |
| 我們自行購買的Nehalem也是一個工程樣板 |
![]() |
| CPU-Z 1.48可以正常識別出關于CPU的詳細信息 |
全球首批三款Nehalem架構處理器型號分別為Core i7 965 Extreme、Core i7 940及Core i7 920,我們拿到的這顆Core i7處理器型號為Core i7 940,是目前發布的三款Core i7產品中定位居中的一款,和頂級的Core i7 965 Extreme相比,它只是QPI規格稍低、倍頻向上鎖定以及缺少Turbo Mode功能。
![]() |
| 由于加入了更多核心外的復雜設計,因此Core i7的背面也更加復雜 |
![]() |
| Core i7 940的緩存信息 |
Core i7 965 Extreme、940及920處理器,核心代號Bloomfield,均採用原生四核心設計,基于45nm工藝生產,擁有7.31億個晶體管,每個核心擁有256KB的獨立二級緩存,四個核心共享8M容量的三級緩存,TDP為130W。由于緩存總容量較之Penryn四核還有所下降,所以其晶體管數量實際上還略低于Penryn四核心。但由于三級緩存及內存控制器等復雜設計的加入,Intel為Bloomfield設計了一個LGA 1366接口,這也直接使得最終產品看上去比起LGA 775接口的產品大了不少,處理器基板上的金屬觸點是為了Debug而設計。
| 測試平台、測試環境 | ||||
| 測試分組 | ||||
| 類別 | Core i7 Extreme 940平台 | 雙路Xeon E5450平台 DELL PE2900 III服務器 | ||
| 處理器子系統 | ||||
| 處理器 | Intel Core i7 Extreme 940 | 雙路Intel Xeon E5450 | ||
| 處理器代號 | Bloomfield | Harpertown | ||
| 處理器封裝 | Socket 1366 LGA | Socke 771 LGA | ||
| 處理器規格 | 四核超線程 內置內存控制器 | 四核 | ||
| 處理器指令集 | MMX,SSE,SSE2,SSE3,SSSE3, SSE4.1,SSE4.2,EM64T,VT | MMX,SSE,SSE2,SSE3,SSSE3, SSE4.1,EM64T,VT | ||
| 主頻 | 2.93GHz | 3.00GHz | ||
| 處理器外部總線 | QPI Link:3200MHz | FSB:1333MHz | ||
| L1 D-Cache | 4x 32KB 8路集合關聯 | 4x 32KB 8路集合關聯 | ||
| L1 I-Cache | 4x 32KB 4路集合關聯 | 4x 32KB 8路集合關聯 | ||
| L2 Cache | 4x 256KB 8路集合關聯 | 12MB 16路集合關聯 | ||
| L3 Cache | 8MB 16路集合關聯 | |||
| 主板 | ||||
| 主板型號 | ASUS P6T Deluxe | DELL PE2900 III | ||
| 北橋芯片組(MCH) | Intel X58 | Intel 5000X | ||
| 北橋芯片特性 | Intel VT-d技術 | 12MB Snoop Filter | ||
| 內存控制器 | 處理器內置三通道DDR3 | 北橋集成四通道FBD DDR2 | ||
| 內存 | 1GB DDR3 1066 SDRAM x6 | 2GB FBD DDR2 667 SDRAM x4 | ||
| 系統磁槃子系統 | ||||
| 磁槃控制器 | Intel ICH10R RAID Controller | DELL Perc 5/i RAID Controller | ||
| 磁槃控制器規格 | SATA 3Gbps | SAS 3Gbps | ||
| 磁槃控制器設置 | RAID 0 | RAID 5 | ||
| 磁槃控制器驅動 | Intel Matrix Storage Manager 8.5.0.10032 | LSI SAS 2.20.0.64 | ||
| 磁槃 | Seagate SV35.3 ST31000340SV x2 | Seagate Cheetah 15K.5 ST314655SS x3 | ||
| 磁槃規格 | 7200RPM 1TB SATA 3Gbps 32MB Cache | 15000RPM 146GB SAS 3Gbps 16MB Cache | ||
| 磁槃設置 | SATA 3Gbps 50GB系統分區 | SAS 3Gbps 20GB系統分區 | ||
| 網絡子系統 | ||||
| 網卡 | Marvell Yukon 88E8056 PCI-E千兆網卡 x2 | Broadcom BCM5708C PCI-E千兆網卡 x2 | ||
| 網卡設置 | Marvell NIC Teaming Load Balancing | Broadcom NIC Teaming Load Balancing | ||
| 網卡驅動 | Marvell Yukon for Win64 10.55.3.3 | Broadcom NetXtreme 2 for Win64 11.04.01 | ||
| 軟件環境 | ||||
| 操作系統 | Microsoft Windows Server 2008 Enterprise x64 Edition SP1 | Microsoft Windows Server 2003 R2 Enterprise x64 Edition SP2 | ||
我們使用了一套基于X58芯片組的主板搭配了測試平台,這塊主板是ASUS P6T Deluxe,關于它的解析將會稍後推出。主要對比平台是一台安裝了Windows Server 2003 R2 x64操作系統的DELL PowerEdge 2900 III服務器,包含了多款Xeon處理器的對比測試。DELL PowerEdge 2900 III服務器採用的主板基于Intel 5000X芯片組,帶有12MB Snoop Filter緩存,它可以提升重負荷下緩存同步、進程調度方面的性能。5000X芯片組比較少見。前段時間推出的5400 Seburg芯片組帶有24MB的Snoop Filter緩存。

我們使用的主板:ASUS P6T Deluxe

使用了6條DDR3-1066內存
Intel Xeon E54xx Harpertown處理器:

45nm Harpertown處理器
45nm Xeon E5450的頻率為3.00GHz,和我們的Core i7 Extreme 940的頻率很接近。Core i7 Extreme 940的頻率是2.93GHz。
ScienceMark v2.0 Membench
ScienceMark v2.0是一款用于測試系統特別是處理器在科學計算應用中的性能的軟件,MemBenchmark是其中針對處理器緩存、系統內存而設計的功能模塊,它可以測試系統內存帶寬、L1 Cache延遲、L2 Cache延遲和系統內存延遲,另外還可以測試不同指令集的性能差異。

ScienceMark v2.0 Membench L1測試成勣

ScienceMark v2.0 Membench L2測試成勣

ScienceMark v2.0 Membench 內存測試成勣
首先我們進行的是ScienceMark的測試,主要考察系統的緩存和內存子系統情況。L1/L2 Cache的成勣主要是跟處理器頻率相關,因為目前的處理器當中L1 Cache都是和處理器核心同頻率的,而L2 Cache基本上也是〞〞當前的處理器L2都是全速的(放置在處理器內但不在同一個芯片上的Pentium II為半速L2,而Pentium之前的處理器L2則和處理器分離,速度更低)。越快的頻率,L1/L2性能就越好。而內存帶寬主要由兩部分相關:比較大的部分是內存架構,小部分是內存操作指令(集),例如使用最新的SSE指令集比通常的ALU指令集會得到更大的吞吐量,而不同的SSE版本性能也有不同。
ScienceMark Membench | ||
| 廠商 | Nehalem | DELL PE2900 III |
| 產品型號 | 單路Core i7 Extreme 940 | 雙路E5450 |
| 內存技術參數 | 1GB DDR3-1066 SDRAM x6 | 2GB FBD ECC DDR2-667 SDRAM x4 |
| L1帶寬(MB/s) | 47986.27 | 55707.30 |
| L2帶寬(MB/s) | 19708.26 | 16740.23 |
| 內存帶寬(MB/s) | 13491.82 | 4505.59 |
| L1 Cache Latency(ns) | ||
| 32 Bytes Stride | 1.02 | 1.00 |
| L1 Algorithm Bandwidth(MB/s) | ||
| Compiler | 42946.57 | |
| REP MOVSD | 43613.84 | |
| ALU Reg Copy | 12113.23 | |
| MMX Reg Copy | 23883.50 | |
| SSE PAlign | 47242.50 | |
| SSE2 PAlign | 47986.27 | |
| L2 Cache Latency(ns) | ||
| 4 Bytes Stride | 1.02 | 1.00 |
| 16 Bytes Stride | 1.02 | 1.34 |
| 64 Bytes Stride | 3.06 | 4.01 |
| 256 Bytes Stride | 3.06 | 4.01 |
| 512 Bytes Stride | 2.72 | 4.34 |
| L2 Algorithm Bandwidth(MB/s) | ||
| Compiler | 18218.37 | |
| REP MOVSD | 19708.26 | |
| ALU Reg Copy | 8797.54 | |
| MMX Reg Copy | 14108.99 | |
| SSE PAlign | 18752.85 | |
| SSE2 PAlign | 18763.34 | |
| Memory Latency(ns) | ||
| 4 Bytes Stride | 1.36 | 1.00 |
| 16 Bytes Stride | 1.70 | 4.68 |
| 64 Bytes Stride | 6.12 | 19.38 |
| 256 Bytes Stride | 36.65 | 59.48 |
| 512 Bytes Stride | 43.54 | 66.16 |
| Memory Algorithm Bandwidth(MB/s) | ||
| Compiler | 10216.66 | 3177.97 |
| REP MOVSD | 13421.20 | 3223.82 |
| ALU Reg Copy | 9015.34 | 2818.10 |
| MMX Reg Copy | 9570.62 | 2992.21 |
| MMX Reg 3dNow | --- | --- |
| MMX Reg SSE | 12729.13 | 3962.02 |
| SSE PAlign | 13379.86 | 4297.17 |
| SSE PAlign SSE | 13311.12 | 4124.61 |
| SSE2 PAlign | 13491.82 | 4293.79 |
| SSE2 PAlign SSE | 13236.43 | 4126.98 |
| MMX Block 4kb | 11442.95 | 4167.14 |
| MMX Block 16kb | 12754.30 | 4480.38 |
| SSE Block 4kb | 11424.75 | 4172.21 |
| SSE Block 16kb | 12878.85 | 4505.59 |
從測試結果來看,45nm Nehalem Core i7平台與45nm Penryn Xeon總體超出實在太多了。L1緩存因為與頻率密切相關,而且從上一頁的表格來看,Core i7 Extreme 940的L1 I-Cache(指令緩存)為4路集合關聯,要弱于Xeon E5450的8路集合關聯,因此L1延遲要高上一些,L1帶寬則要低上不少。

Nehalem的三級緩存架構
![]() |
| Core i7 940的緩存架構 |
對于Core i7 Extreme 940來說,有一處特別的地方就是L3 Cache的存在,L2和L1很相像,都是小容量、低延遲。Xeon E5450就不是這樣,因此最終的結果是Nehalem的L2性能要強于Penryn Xeon。由于ScienceMark 2.0認不出Nehalem的L3,因此沒有相關的數據。
![]() |

Nehalem的緩存設計
到了內存延遲和內存帶寬測試上,Core i7 Extreme 940完勝,這和Nehalem的架構密切相關:


Nehalem的內置內存控制器架構
由于內置了內存控制器,因此內存延遲極低,在使用同樣內存基礎頻率的情況下,Core i7的延遲只有Xeon的2/3,也就是64%左右。在帶寬方面,雖然Core i7只具有3個內存通道,而Xeon平台則具有4個內存通道,然而Xeon的內存數據還要經過狹窄的FSB來到達CPU,比起Core i7的完全獨享來自然大有不如,因此Core i7 Extreme 940的內存帶寬性能測試大約是Xeon E5450的3倍左右。它們的理論帶寬分別是25GB(三通道DDR3-1066)和20.8GB(四通道FBD DDR2-667),可見Core i7的內存帶寬效率也遠比現在的Xeon + 5000X要高。
SiSoftware Sandra Pro Business 2009
SiSoftware Sandra是一款可運行在32bit和64bit Windows操作系統上的分析軟件,這款軟件可以對于系統進行方便、快捷的基准測試,還可以用于查看系統的軟件、硬件等信息。從Sandra 2007開始支持SSE4指令集。SiSoftware Sandra所有的基准測試都針對SMP和SMT進行了優化,最高可支持32/64路平台,這也是我們選擇這款軟件的原因之一。我們在Core i7 Extreme平台上使用的是Sandra 2009,在E5450使用的是Sandra 2008。
| SiSoftware Sandra Pro Business 2009 | ||
| 單Core i7 Extreme 940 | 雙路Xeon E5450 | |
| Processor Arithmetic Benchmark | ||
| Dhrystone iSSE4.2 | 71538 MIPS | |
| Dhrystone ALU | 110320 MIPS | |
| Whetstone iSSE3 | 61616 MFLOPS | 87861 MFLOPS |
| Processor Multi-Media Benchmark | ||
| Multi-Media Int x16 iSSE4.1 | 148.56MPixel/s | |
| Multi-Media Float x8 iSSE2 | 114.78MPixel/s | |
| Multi-Media Double x4 iSSE2 | 63.17MPixel/s | |
| Multi-Media Int x8 iSSSE3 | 655876 iit/s | |
| Multi-Media Float x4 iSSE2 | 358011 fit/s | |
| Multi-Core Efficiency Benchmark | ||
| Inter-Core Bandwidth | 39.17GB/s | |
| Inter-Core Latency | 16ns | |
| Memory Bandwidth Benchmark | ||
| Int Buff'd iSSE2 Memory Bandwidth | 19.11GB/s | 6264 MB/s |
| Float Buff'd iSSE2 Memory Bandwidth | 19.11GB/s | 6262 MB/s |
| Memory Latency Benchmark | ||
| Memory(Random Access) Latency | 94ns | |
| Speed Factor | 64.50 | |
| Internal Data Cache | 4clocks | |
| L2 On-board Cache | 11clocks | |
| L3 On-board Cache | 53clocks | |
| Cache and Memory Benchmark | ||
| Cache/Memory Bandwidth | 60.02GB/s | 75623 MB/s |
| Speed Factor | 27.30 | |
| .NET Arithmetic Benchmark | ||
| Dhrystone .NET | 16280MIPS | 12358 .netMIPS |
| Whetstone .NET | 38076MFLOPS | 52176 .netMFLOPS |
| .NET Multi-Media Benchmark | ||
| Multi-Media Int x1 .NET | 29.06MPixel/s | 120421 .netiit/s |
| Multi-Media Float x1 .NET | 12.59MPixel/s | 27648 .netfit/s |
| Multi-Media Double x1 .NET | 24.87MPixel/s | |
SiSoftware Sandra對比(一些測試項目有所不同,如Nehalem上測試的是Dhrystone iSSE4.2,在Penryn上就只是Dhrystone ALU,這是因為Penryn不支持iSSE4.2)
雖然使用的Sandra版本不同,導致了部分數據不能直接對比之外,其他部分仍然可以一比高下。由于雙路志強E5450是實打實地具有8個CPU核心,而Core i7的8個執行核心其實是4個CPU核心通過超線程技術“變”出來的,因此處理器的理論性能上Core i7 940不敵同頻率的雙路Xeon E5450,只有65%(整數)~70%(浮點)左右。

Nehalem的超線程技術
由于超線程技術實際上是使一個處理器內核的所有執行引擎的利用率提升的技術,因此其對性能提升的幅度就不如確實的處理器內核那麼高,按炤以往Pentium 4的經驗,超線程對處理器的性能提升約為10%~30%左右(極少數情況下,還具有負作用),因此我們可以推測出除了超線程之後,Nehalem內核具有的性能提升幅度,考慮到4內核8執行核心的Core i7 2.93GHz相當于8內核Xeon 3GHz的65%~70%,而超線程可以提升10%~30%,則每一個Nehalem物理內核會比一個Xeon E5450內核提升約10%~15%左右。
內存帶寬方面,Sandra結果表示Core i7平台的性能是Xeon平台的3倍,與ScienceMark的結果相同。
CineBench R10
CineBench是基于Cinem4D工業三維設計軟件引擎的測試軟件,用來測試對象在進行三維設計時的性能,它可以同時測試處理器子系統、內存子系統以及顯示子系統,我們的平台偏向于服務器多一些,因此就只有前兩個的成勣具有意義。和大多數工業設計軟件一樣,CineBench可以完善地支持多核/多處理器,它的顯示子系統測試基于OpenGL。

Core i7 Extreme 940 CineBench R10 64bit測試成勣

Core i7 Extreme 940 CineBench R10 32bit測試成勣
| CineBench R10 64bit | ||
| 處理器 | 單路Core i7 Extreme 940 | 雙路Xeon E5430 |
| 顯卡 | NVIDIA 9500GT | 雙ATI 3870x2 CrossFire-X |
| CPU Benchmark | ||
| Rendering (1 CPU) | 3990 CB-CPU | 3257 CB-CPU |
| Rendering (x CPU) | 16919 CB-CPU | 19452 CB-CPU |
| Multiprocessor Speedup | 4.24x | 5.97x |
| OpenGL Benchmark | ||
| OpenGL Standard | 4599 CB-GFX | 2505 CB-GFX |
沒有採用E5450,不過我們有E5430的成勣,E5430的頻率為2.66GHz,架構與E5450相同
單處理器的渲染性能,Core i7 Extreme 940要比Xeon E5450高22.5%,這混合了處理器的提升,以及內存子系統的提升。多處理器的渲染性能Core i7不敵Xeon,原因在于Core i7事實上只有4個處理器核心,通過超線程才“變出來”8個執行核心。Multiprocessor Speedup就體現了這個因素:Core i7的是4.24倍,而Xeon則是5.97倍。一方面確實表現了超線程技術並不是真正的多處理器核心,另一方面也表現了Nehalem的超線程技術和多核心化的性能相去也不是很遠。例如,8個Xeon物理處理器核心的提升是5.97倍的話,那麼4個Nehalem物理處理器核心可以粗糙地認為是3倍提升,則超線程相當于4.24/3 = 1.41倍的性能,也就是說,一個“虛擬”的CPU相當于0.4個“真實”的CPU,Nehalem的超線程技術可以說是比起Pentium 4的遠為進化了。僅通過小部分線路就可以獲得如此之大的提升,Nehalem的超線程可謂物廉價美。
WebBench v5.0
WebBench是針對服務器作為Web Server時的性能進行測試,我們在被測服務器上安裝了IIS6.0組件,以提供測試所需的Web服務。在測試中我們開啟了網絡實驗室中的56台客戶端,分別使用了WebBench 5.0內置的動態CGI以及靜態頁面腳本對服務器進行了測試。
靜態測試是由客戶端讀取預先放置在服務器Web Server下的Web頁面(wbtree),這項測試主要考察的是服務器磁槃系統以及網絡連接性能。我們使用了實驗室中的56台客戶端,配合Static_mt.tst多線程靜態腳本測試向被測服務器發送請求。
動態測試偏重于對服務器CPU子系統的性能測試,它對于Web服務器提供了足夠的負載。我們將一個C語言編寫的CGI源文件Simcigi.c編譯為Simcgi.exe,並將其作為動態測試中的CGI腳本。在測試過程中,每台安裝了WebBench客戶端軟件的PC,會在300秒的時間內持續向服務器發送CGI請求,而控制台會紀錄並匯總服務器所響應CGI請求的數據。CGI測試的成勣高低,主要取決于服務器處理器子系統性能的優劣。處理器子系統包括CPU、內存以及內存控制器,CPU頻率、緩存以及內存容量大小和內存帶寬,都會影響該項成勣。

Nehalem平台 - WebBench靜態頁面性能
Nehalem Core i7 Extreme 940大約可以達到25000每秒處理請求數,一般的服務器受限于千兆網卡帶寬,為18000左右。一般的雙千兆網卡捆綁可以達到22000每秒處理請求數的性能。

Nehalem平台 - WebBench動態頁面性能
一般雙路Xeon 54xx系列服務器動態頁面性能可以達到11000左右,單路Nehalem Core i7 Extreme 940可以達到10860左右,略微低于雙路Xeon。要記住,Nehalem只有4個物理處理核心,雙路Xeon平台則是8個。
如同我們一再強調的那樣,WebBench靜態頁面性能其實非常依賴于網卡帶寬,其次,它對內存子系統也具有一些要求,而WebBench動態頁面性能則不主要依賴于網卡帶寬而依賴于處理器性能、內存子系統性能,依靠著強大的內核、超線程技術、內置三通道高帶寬內存,Nehalem平台在所有測試當中力敵至強平台,這充分表明了Nehalem架構的威力,同時,超線程的實力也可見一斑,和真實的處理器核心有一拼之力。
注:
Nehalem處理器使用的IIS 7.0在我們以前的測試當中證明具有強勁的靜態頁面性能以及相對IIS 6.0較弱的動態頁面性能,現在的測試的結果可以更加表明Nehalem的動態頁面性能優勢。
【IT168評測中心】經過測試,我們對Nehalem的強大有了深刻的認識,經過總結,它可以簡單地歸結為三個方面:

Nehalem - Core i7 Extreme的黑色LOGO
處理器內核架構
通過各式各樣的架構上的改進,並配合SSE4.2指令集,Nehalem處理器架構的性能比Penryn處理器要高10%~20%左右,這和Penryn通過SSE4.1達到主要的性能提升不一樣,Nehalem處理器的提升是著實地基于內核架構的提升(其實,SSE4.2指令集的數量很少)。這個數值也和Intel宣稱同頻率Nehalem比Penryn快約10%的說法相近。
內存子系統
記得Intel的老對手AMD在首次將內置內存控制器運用到x86處理器上的情景麼?Athlon處理器,或者說K7處理器,由于內置了內存控制器,並使用了源自DEC Alpha的一系列技術,性能頗為強勁,風頭一時蓋過Intel,並促使了Core微架構最終代替了Pentium 4的NetBurst微架構。現在Intel也將內置內存控制器運用到了x86處理器上,Nehalem的三通道DDR3內存架構威力巨大,同時具有低延遲、高帶寬的特點,從測試上看,延遲比四通道DDR2-667降低了33%,帶寬提升了200%!在服務器、工作站應用上可以提升約10%的性能,處理器的數量越多,優勢越明顯。
超線程技術
對于桌面平台而言,超線程的存在對Benchmark性能並沒有太大的提升,不過,在我們的服務器/工作站測試當中,Nehalem的超線程技術卻是具有重要的地位:一個虛擬出來的處理器,相當于0.4個實際處理器,而只需要增加少量電子線路就可以達到,在提升能效比、提升計算密度方面具有巨大的優勢,在桌面平台上,超線程技術其實也很有效果。超線程技術實是Nehalem的一大殺手齔。
![]() |
| (左)Nehalem - Core i7 |
我們測試的Nehalem處理器並不是面向企業級市場,並且我們目前只能搭建單路平台,然而從測試成勣來看,在合適的條件下,單路Nehalem就可以和雙路Xeon Harpertown打個旗鼓相當,未來企業級版本Nehalem的性能更加讓人期待了!