訂閱電子報∣ 友善列印字體大小 文章分享-Facebook 文章分享-Plurk 文章分享-Twitter
電腦架構在未來10年面臨的挑戰
獲取產業訊息零時差!立即訂閱電電公會電子報。
過去10年,很多電腦體系結構研究學者都在感歎體系結構的研究步履維艱,在很多國際會議的討論中出現了類似“體系結構正在消亡(Architecture is dying)”,“永生的體系結構(Long lived architecture)”等有趣的爭論,其背後的動因是對傳統的馮·諾伊曼體系結構在應對多樣化應用的局限的深刻認識和對摩爾定律的放緩甚至終結的擔心。這篇文章源於2016國際體系結構年會(ISCA 2016)上的Workshop討論和公開問卷。然而,主旨並不是回答體系結構是否還值得無數的學者前赴後繼,而是以一個更加開放的心態去探討體系結構如何求變以為新應用提供更好服務。本文的貢獻者達到近40人,大部分來自具有悠久體系結構研究歷史的美國一流大學,學術背景也很多樣化。不同領域的思想碰撞為我們勾勒出未來15年體系結構研究可能的圖譜。

應用趨勢、器件技術和系統結構的發展驅動了資訊技術的進步。然而,這一進步的早期引擎——摩爾定律和登納德縮放定律(Dennard scaling)——收益正在快速地變得越來越小。電腦界已經直接面臨新的挑戰:如何確保資訊技術有一個堅實的未來。

在過去幾年,電腦體系結構領域的學者進行了一些願景規劃的活動。五年前,計算社區聯盟(Computing Community Consortium)發佈了一篇《21世紀的電腦架構》白皮書,影響了學術界和工業界的專案資助計畫。最近,《IEEE重啟計算倡議》一文又從體系結構、器件和電路等方面探索計算系統的未來。

本文將努力延續這一話題的討論,深入接觸應用和器件/電路學界,瞭解他們的趨勢和願景。我們的目標是發現彌合應用領域和器件領域之間的鴻溝的機遇。

為什麼現在要做這件事?因為近五年來發生了許多變化,尤其是以下五個方面:
1.硬體和應用的專用化鴻溝。現有的硬體性能與應用需求之間存在顯著的專用化差距。一些應用,諸如虛擬實境和自治系統等,在沒有專用硬體的支援下無法實現,但設計專用硬體仍然既昂貴又困難。

2.雲計算。目前無處不在的雲計算提供了一種清晰的“創新抽象”。雲創造了巧妙且跨層次優化成本效益的規模經濟。雲經常是透明地提供這些創新,對最小的創業公司和新興企業也是如此。

3.垂直化趨勢。採用晶片疊加和整體製造的垂直化三維集成製造工藝,使矽基片變得更厚,顯著降低了延遲,增加了頻寬,提高了能效。

4.更接近實體層。器件與電路學者們正在努力探索新型材料,這些材料可以實現更加有效的信號轉換、更加密集的佈局方式及新的計算模型,例如,混合信號、碳納米管、量子力學效應、生物聚合物等。

5.機器學習作為核心負載已經興起。機器學習技術,諸如深度學習,讓系統設計者驚喜地發現其可以用於許多方面,例如使用者偏好預測、電腦視覺和自主導航等。

專用化的鴻溝:硬體設計大眾化
為了延續計算機工業創新的光榮歷史,開發硬體必須像開發軟體一樣簡單、便宜和靈活。

廣泛和新興的看法一直認為,經典的CMOS工藝縮放路線——基於電晶體越來越小、集成度越來越高的摩爾定律的技術引擎——將在不到3代半導體工藝(6~9年)之後面臨終結。而且,登納德縮放——隨著CMOS的集成度提高但能夠使每個晶片的功耗保持不變的技術趨勢——也將在21世紀中葉終結,這將導致處理器設計的巨大變革:運算能效已經取代面積效率或峰值邏輯門開關,成為最重要的一項限制峰值性能的設計約束。

從近期工業界的動向中可以窺見到經典工藝縮放路線即將到來的後果。例如,英特爾已經放棄了長期奉行的“工藝年-構架年(tick-tock)”開發模式,從原先每代工藝推出兩款主要晶片設計,現已改為三款。這個改變意在通過維繫“苟延殘喘”的摩爾定律從而延長每代產品的市場壽命。更有甚者,美國半導體行業協會(Semiconductor Industry Association)也已放棄維持了數十年、每兩年更新一次的國際半導體技術路線圖(International Technology Roadmap for Semiconductors, ITRS)的老傳統,這一技術文檔為整個半導體產業界協調技術、製造與系統開發提供了指導。由於沒有明確的方向維繫縮放路線,ITRS的價值也在逐漸衰退。
然而,新應用的不斷湧現,對計算能力的需求在日益增長。其中最突出的就是那些由大規模機器學習所驅動的、從前難以想像的應用:從圖像和語音辨識到無人駕駛汽車,再到擊敗圍棋頂尖高手。同樣可以看到對視覺資料處理和理解的需求的爆發式增長,有些前瞻性應用或許要求為世界上每個人提供每秒千兆圖元級的運算能力。

過往計算技術的進步主要來源於對通用計算設計的巨大投入,而這些設計依賴於經典的縮放路線,並且完全由少數幾家處理器製造商完成。得益於這些通用設計的電腦應用綜合市場的龐大體量,足以分攤這些廠商的大量投入。

隨著傳統縮放路線的衰落,只通過改進少數通用計算平臺將無法繼續滿足新興應用對計算性能的需求。相反,在過去的5~10年裡,在一些計算密集型應用領域,一種新的性能優化手段策略已經興起——專用硬體設計。與在通用處理晶片上運行軟體的方案相比,專用硬體方案(如專用積體電路)單位操作上可提高能效10000倍。此能效的提升對於新興的物聯網的豐富應用是至關重要的。專用化已經在圖形渲染和視頻播放等方面取得了巨大成功。機器學習應用也開始取得商業成功。實際上,電腦體系結構領域的科研人員已經認識到專用化的重要性並投身其研究:2016年體系結構領域三大頂級會議(ISCA、HPCA、MICRO)共收錄論文175篇,其中38篇是關於圖形處理器(GPU)和專用加速器設計的,還有17篇是關於機器學習專用化設計的。

然而,迄今為止,專用設計的商業化的成功,只限於擁有巨大市場的應用(例如視頻遊戲、移動視頻播放等),值得像通用處理器廠商那樣投資。以上市時間和金錢來衡量,設計和製造專用硬體的成本極高,只有極少數的設計可以在這樣巨大的市場逐步攤銷。

為了繼續有效創新的週期,關鍵是排除專用系統設計的障礙,從而在所有應用中體現出專用化在能效方面的優勢。我們的願景是“大眾化”硬體設計,也就是讓硬體設計變得像軟體設計那樣敏捷、便宜和開放。軟體發展團隊可以利用豐富的、擁有現成的可重用部件的生態系統(通常是免費和開源的),使用高階語言加速提高單個開發者的能力,並依靠強大和自動化的程式分析、綜合、測試和調試來保證品質。

儘管經過了幾十年的投入,電腦輔助設計仍未能達到一個小開發團隊即可進行硬體設計的水準。硬體系統設計者需要更好的工具,提高在硬體描述方面的能力,更快的性能評估手段,更敏捷的原型化方法和更嚴謹的軟/硬體協同設計驗證方法。工具鏈要成熟,可以跨越多個硬體層次,從通用可程式設計處理核到大規模可程式設計邏輯陣列、可程式設計加速器以及專用積體電路,從而能夠輕易實現重定位。更好的抽象描述對於硬體的元件化和可重用是必需的,這些抽象可以是以可綜合的智慧財產權(IP)模組的形式,甚至可以是以物理晶片或晶片組的形式存在,在製造時可便宜地集成到系統中。對於體系結構領域的研究者來說,這是一次努力彌補通用和專用系統之間的鴻溝的機會,並開發出一系列工具和框架平臺,使大眾化硬體設計成為現實。

雲計算是對體系結構創新的抽象
利用規模化和虛擬化技術,雲計算提供商可以透明和低成本地提供硬體創新,即使最小的客戶也是如此。
雲計算對傳統商業模式的顛覆已被廣泛認可。雲計算能夠促使新興企業的規模發展遠快於傳統的基礎設施投資。新產品的用戶可以在短短幾天時間內從幾百個增長到幾百萬個,2016年7月迅速風靡全球的手機遊戲“口袋妖怪”(Pokemon Go)就是很好的例證。但是,雲計算也打破了傳統財富500強的商業模式,因為以前擁有自己的IT基礎設施的企業實現了出租雲資源帶來的成本收益。

雲計算提供商利用規模化不僅是為了自身業務,也是為了投資IT的客戶的利益。因此,這些提供商往往會發現,進行巨大的、非重複性的工程投資是合算的,例如,在內部開發全新的軟體和硬體系統,而不依賴協力廠商產品供應商。

我們開始看到出現了使得雲計算實現前所未有的性能的專用電腦架構。無論是高端的超級電腦,還是商業的雲端產品,GPU變得無處不在。微軟公司公開披露了Catapult專案,該專案致力於整合現場可程式設計閘陣列(FPGA)以促進其資料中心的計算專用化。Cavium公司已經發佈了一個互聯網服務應用的專用架構ThunderX。穀歌公司公佈了張量處理器TPU,這是一個面向機器學習應用的專用輔助處理器。上述專案表明,已經有很多經濟原因促使雲計算提供商投資專用電腦架構。

對學術界的電腦體系結構研究者來說,現在是抓住這個機遇並展示跨層專用化願景的時機。例如,專用積體電路雲(ASIC Clouds)專案展示了如何協同開發大量高度專用的處理器,從而讓關鍵應用得到明顯加速。

雲計算模型的第二個關鍵優勢是虛擬化。虛擬化這類技術將新的硬體和軟體創新透明地引入現有的軟體系統。虛擬化使得雲提供商可以為了更快、更便宜的技術替換處理器、記憶體和網路部件,而不必與消費者溝通協調。虛擬化也促成了資源的超額認購——在消費者對特定資源的需求具有時變、碎片化特徵的情況下,在消費者之間進行透明的資源分享。超額訂購對雲計算的成本結構很重要,和單獨的消費者購買專屬資源比較,它使得雲供應商以極低的價格提供IT資源。

學術界的電腦體系結構研究長期以來對實現虛擬化起到重要作用,例如威睿(VMWare)這個最被認可的虛擬化技術供應商,就是從一個大學研究計畫發起的。學術界的體系結構研究者必須繼續在開發虛擬化技術中扮演關鍵角色,來縮短虛擬化性能與裸機性能之間的差距。此外,體系結構研究者必須開發新型的虛擬化抽象,從而實現對專用硬體單元,比如Catapult、TPU和ASIC Clouds等的透明使用和超額訂購。

垂直化趨勢
三維(3D)集成提供了一個新的可擴展維度。
摩爾定律終結的重要後果是使得晶片設計師再也不能“無償地”每18個月將自己設計中的電晶體數量提高一倍。與此同時,最近幾代晶片中,相對於計算,驅動全域匯流排開銷的增長很快,因此不斷提升了互聯在晶片功耗預算中所占比例。

3D集成為晶片設計提供了一個新的擴展維度,儘管摩爾定律終結了,仍然可以在一個單系統上集成更多的電晶體,可以從3個維度縮減互聯開銷,並實現各種混合製造技術的緊密集成。因此,3D集成使3D結構內部的系統元件具有更高的能效、更寬的頻寬和更低的延遲。

從架構上來講,3D集成也說明平衡系統的計算必須儘量靠近資料。儘管快閃記憶體和其他記憶體設備早已通過3D方式進行容量擴展,但將記憶體設備與高性能邏輯集成的嘗試才剛剛開始。例如,美光(Micron)公司推出的混合記憶體立方體(Hybrid Memory Cube),實現了快速邏輯和密度記憶體的3D堆疊,為學術界重新刮起“近資料計算”(near-data computing, NDC)和“記憶體處理”(processing-in-memory, PIM)架構的學術研究風潮。儘管這個研究問題早在20年前已相當流行,但受限於當時的工藝技術,PIM架構並沒有進一步實現商業應用。近幾年,隨著實用晶片堆疊和多技術垂直集成技術的出現,這些架構成為提升擴展性的有效途徑。

儘管3D集成為晶片設計賦予了新能力,但同時也在實現高可靠性和高收益方面提出許多複雜的新挑戰,其中高可靠性和高收益可以通過架構支援解決。比如,3D集成記憶體啟發我們重新思考傳統記憶體和存儲架構。3D集成也對功率和溫度管理引入了全新的問題,這是由於傳統的散熱技術不足以應對高性能集成設計帶來的功率密度提升。這些問題和挑戰開啟了全新的、豐富的體系架構創新的可能性。

體系結構“更接近實體層”
經典縮放定律的終結,給電腦底層架構帶來更多的本質變化。

新的器件技術和電路設計技術歷來引發新結構的產生。未來有若干可能的情況給電腦體系結構帶來深遠的影響。這些情況分為兩大類。第一類是通過更有效的資訊編碼,更接近類比信號,來更好地利用目前的材料和器件。對模擬計算的關注再次興起,因為它很適合需要控制準確度的應用。而且和數位資訊處理相比,類比資訊處理通過把資訊更密集地映射到類比信號上,以及更高效的功能單元,能夠保證功耗更低。然而,這類計算更易受到雜訊影響,需要有新的容錯方法才能實際應用。

第二類機會是“新”材料的使用,包括更高效的交換、更密集的佈局和獨特的計算模型。下面我們列出一些值得體系結構領域注意的努力方向。

新的記憶體件。幾十年來,資料一直存儲在動態隨機存取記憶體(DRAM)、快閃記憶體或磁片上。但是,新的記憶體件(例如Intel/Micron 3D XPoint記憶體)正在進入商用化,與傳統存儲層次部件相比,這些新器件在開銷、密度、延遲、輸送量、可靠性和壽命等方面完全不同。

碳納米管。基於碳納米管(CNTs)的電子學研究持續取得顯著進展,最近的結果表明,只使用碳納米管搭建出一個簡單的微處理器是可行的。碳納米管可以保證更高的密度和更低的功耗,並且可用在三維琪底上。這使得碳納米管成為體系結構方案是非常可行的。

量子計算。量子計算利用量子力學現象存儲和操縱資訊。它的主要優點是,“疊加”量子現象有效地允許同時表達0和1狀態,這使得量子計算實現選擇演算法時比傳統計算有了指數級加速。

超導邏輯。量子計算的一個姊妹方向是超導邏輯,使用約瑟夫森結等超導器件的系統,能夠提供“免費”的通信,因為在超導線上傳輸信號幾乎不消耗能量。另一方面,在資料操作上比傳輸資料有更高的能耗。這些權衡與CMOS矽電路正好相反,在CMOS電路上大部分能量消耗在通信而不是資料操作。

微軟、穀歌、IBM和I-ARPA等公司和機構都已經宣佈在量子計算和超導邏輯進行了大量投資。我們認為量子電腦結構得到再次關注的時機是成熟的,量子計算在十年內可能會產生實際影響。

借鑒生物學。利用生物學基底做計算很早就想到了,有可能實現。DNA計算已經演示了簡單的邏輯操作,最近的許多結果也表明DNA作為檔案記憶體和納米結構自組裝的數位元媒介具備潛力。對研究人員來說,生物科技產業推動的DNA操縱技術所取得的進展使得體系結構研究人員認為,使用生物是可行的。除了DNA,還有諸如蛋白質等其他生物分子能夠用於計算,這些生物分子工程在過去十年進步顯著。

機器學習作為核心負載
機器學習正在改變我們實現應用的方式。硬體性能提升使得機器學習應用於大資料成為可能。

機器學習在過去十年中取得了長足的進步,產生了很多長期以來只存在於科幻小說裡的應用。可以說,這一進步在很大程度上受益于豐富的資料和強大的計算能力。大規模機器學習應用也促進了存儲系統和專用硬體(GPU, TPU)等的設計。

儘管目前的重點是支持雲端的機器學習,但是在諸如智慧手機和超低功耗感測器節點等低功耗設備中支援機器學習應用也有非常重要的機會。幸運的是,許多機器學習內核具有相對規整的結構,能夠在準確率和資源需求之間進行權衡。因此,它們適用於專用硬體、重構和近似計算等技術,為體系結構的創新開啟了新空間。

機器學習從業者在計算上花費相當長的時間用於模型訓練。即便使用超大規模的計算集群,花費一星期到一個月來訓練一個模型也是普遍的。雖然這樣的計算資源投資能夠分攤到對模型多次調用,但模型較長的更新反覆運算週期可能會對用戶體驗產生負面影響。因此,對體系結構研究人員來說,設計能更好地支援機器學習模型訓練的系統是一個新的機遇。
訂閱電子報 友善列印 字體大小:
獲取產業訊息零時差!立即訂閱電電公會電子報。