訂閱電子報∣ 友善列印字體大小 文章分享-Facebook 文章分享-Plurk 文章分享-Twitter
英特爾公布CPU、GPU和IPU重大世代架構轉換
CTimes王岫晨
獲取產業訊息零時差!立即訂閱電電公會電子報。

英特爾加速運算系統及圖形產品事業群總經理 Raja Koduri 和英特爾架構師們,於2021年英特爾架構日提供關於兩款全新x86核心架構的細節;英特爾首款混合式架構,代號「Alder Lake」,配備智慧型Intel Thread Director工作負載排程器;「Sapphire Rapids」,下一世代資料中心的Intel Xeon可擴充處理器;全新基礎設施處理器 (IPU);以及即將推出的圖形架構,包含Xe HPG和Xe HPC微架構,以及Alchemist和Ponte Vecchio SoC。

這些新架構為即將推出的高效能產品注入動力,並成為英特爾下個創新時代的基石,藉以滿足全球對於更多運算能力不斷增長的需求。

Raja Koduri 特別表示架構進步對於滿足此需求的重要性,說道:「架構就像是硬體和軟體的煉金術一般。它為某個引擎融合了絕佳的電晶體,並整合高頻寬、低功耗的快取,它們更為混合式運算叢集,配備大容量記憶體與低延遲可擴充互連至單一封裝之中,透過先進封裝結合起來,並同時確保所有軟體均能無縫加速。隨著從桌面到資料中心的工作負載,變得更大、更多、更複雜和更多元,我們在架構日所揭曉的突破更加顯現出,優秀的架構將如何滿足更多運算效能的迫切需求。」

x86核心

英特爾的全新效率核心微架構,先前代號稱為「Gracemont」,專為吞吐量效率而設計,為現代多工開啟一道可擴充的多執行緒效能大門。這是英特爾最具效率的x86微架構,追求極小化的晶片面積,讓多核心工作負載效能能夠隨著核心數量成長。它也提供相當廣泛的運作頻率範圍。這款微架構與細心設計成果,允許效率核心於低電壓下運作,降低電力消耗,並為高頻率運作預留功耗餘裕。這讓效率核心能夠為更高需求的工作負載提升效能。

效率核心採用多種先進技術對工作負載排出優先順序,而不浪費其運算資源,並透過提升每週期指令數量(IPC)直接強化效能,包含:

‧ 5,000條分支目標快取,達成更為精確的分支預測

‧ 64 KB指令快取,將有用的指令放在距離較近之處,避免額外產生記憶體子系統的功耗

‧ 英特爾首款隨選型指令長度解碼器,負責產生預解碼資訊

‧ 英特爾的叢集亂序解碼器,於維持電力效率的同時,每週期最高能夠解碼6條指令

‧ 寬廣的後端每週期支援5條分派(five-wide allocation)和8條引退(eight-wide retire),256條目亂序視窗和17個執行埠

‧ 強式安全功能支援IntelR Control-Flow Enforcement Technology 以及 IntelR Virtualization Technology Redirection Protection

‧ 導入AVX指令集架構,以及支援整數人工智慧(AI)運算的新延伸指令集

與英特爾最為豐富的中央處理器(CPU)微架構 – Skylake CPU核心相互比較,效率核心於單執行緒條件下,相同功耗可多出40%效能,或是降低40%功耗並提供相同效能表現。多核心處理下,4個效率核心相較以4條執行緒方式運作的Skylake雙核心,能夠提供多出80%效能並降低功耗,或是減少80%功耗並維持相同的效能。

英特爾的全新效能核心微架構,先前代號稱為「Golden Cove」,專為速度、將低延遲推向極限、單執行緒應用程式效能所設計。當工作負載的程式碼數量正不斷增長,並且要求更多的執行能力。資料也同步大幅度地成長,隨之而來的是資料頻寬需求。英特爾全新效能核心微架構提供顯著的效能提升,對於蘊含大量程式碼的應用程式也有更好的支援。

效能核心具備更寬、更深、更聰明的架構:

‧ 更寬:6個解碼器(先前為4個);微指令(μop)快取每週期輸出8條(先前為6條);每週期6條分派(先前為5條);12個執行埠(先前為10個)

‧ 更深:更多的實體暫存器檔案;更深的512條目重排序緩衝區

‧ 更聰明:改善分支預測精準度;降低有效L1延遲;L2全快取寫入預測及頻寬最佳化

效能核心是英特爾迄今最高效能的CPU核心,並將低延遲和單執行緒應用程式效能推向極限,例如:

‧ 於相同運作頻率之下,相較目前的第11代IntelR Core?架構(Cypress Cove),在廣泛及多樣的工作負載能夠提供幾何平均約19%的改善1

‧ 更寬、更深的設計顯露出更高的平行度,同時提升執行的平行度

‧ IntelR Advanced Matrix Extensions,針對下一世代深度學習和訓練效能,而發展的內建AI加速。包含專用硬體和新款指令集架構,能夠顯著地提升矩陣乘法運算速度

‧ 降低延遲並提升大量資料與大型程式碼應用程式的支援性

PC客戶端

英特爾下一代的PC客戶端架構,代號Alder Lake,為英特爾首款混合式架構,第一次整合兩種核心類型-效能核心和效率核心,於多種工作負載種類均可顯著提升效能。Alder Lake採用 Intel 7 製程打造,並支援最新的記憶體和最快的I/O。

Alder Lake藉由利用單一、高度可擴充的系統單晶片(SoC)架構,支援超輕薄筆記型電腦,再到狂熱玩家和商用桌上型電腦的全系列PC客戶端市場,將可提供令人難以置信的效能,有三種設計:

‧ 以最大化效能為前提,採用兩顆晶片打造平台,具CPU插座的桌上型電腦,提供領先群倫的效能、能源效率、記憶體和I/O

‧ 高效能行動電腦晶片採BGA封裝,增加影像處理、更大的Xe 圖形核心和Thunderbolt 4連接性

‧ 輕薄,低功耗、高密度封裝,I/O與電力供應最佳化

建造如此高度可擴充架構的挑戰,在於如何不犧牲功耗表現的情況下,滿足運算以及各種I/O令人難以置信的頻寬需求。為解決這項挑戰,英特爾已設計出3種獨立的交織結構(fabric),每種均具備即時、隨選式啟發演算法:

‧ 運算交織結構每秒最高能夠支援1000 GB(GBps),表示每叢集或是每核心可分得100GBps,並透過末級快取將核心與圖形銜接至記憶體

‧ I/O交織結構最高支援64 GBps,將不同類型的I/O和內部裝置相互連結,並能夠無縫切換速度而不影響裝置的正常運作,選擇適合資料傳輸量所要求的交織結構速度

‧ 記憶體交織結構能夠提供最高204 GBps的資料,並動態調整匯流排寬度與速度,支援高頻寬、低延遲或低功耗等多個運作點

資料中心端

次世代Intel Xeon可擴充處理器(代號Sapphire Rapids)

Sapphire Rapids代表著英特爾最大的資料中心平台進展。該處理器於動態且不斷提升需求的資料中心使用當中,提供可觀的運算效能並為工作負載最佳化,能夠在雲端、微服務和AI等彈性計算模型(elastic compute model)提供高效能。

平舖的(tiled)、模組化的SoC架構位於Sapphire Rapids中心,其利用英特爾嵌入式多晶片互連橋接(EMIB)技術,於提供驚人擴充性的同時,依舊保持單一(monolithic)CPU晶片所享有的優勢。Sapphire Rapids提供單一且平衡的統一記憶體存取架構,每條執行緒均可完全存取所有晶片(tile)的所有資源,包含快取、記憶體和I/O。其結果讓整個SoC均提供一致的低延遲和高跨區頻寬。

Sapphire Rapids採用 Intel 7 製程技術製造,並具備英特爾全新效能核心微架構,專為速度、將低延遲推向極限、並兼顧單執行緒應用程式效能所設計。

Sapphire Rapids提供業界最為廣泛的資料中心相關加速器,包含新款指令集架構和整合IP,以便提升客戶廣泛的工作負載和使用效能。這些架構上的進展讓Sapphire Rapids為雲端、資料中心、網路和智慧邊緣當中,最為廣泛的工作負載和部署模型,提供絕佳的立即可用效能。該處理器透過先進的記憶體和次世代I/O,包含PCIe 5.0、CXL 1.1、DDR5和HBM技術,驅動產業技術轉型。

訂閱電子報 友善列印 字體大小:
獲取產業訊息零時差!立即訂閱電電公會電子報。