而在運算能力上,有了AMX,可讓Sapphire Rapids具備更強大的AI效能。 例如,在每個處理器運算執行週期當中,AMX可以完成2,048個INT8整數運算,以及1,024個BF16浮點運算。 若以現行的AVX-512指令集來處理,只能完成256個INT8整數運算,以及64個BF16浮點運算;英特爾也基於早先發展的Sapphire Rapids產品,透露矩陣乘法微型測試結果,結果發現:相較於現有AI加速指令集AVX-512 VNNI,採用AMX的處理速度可達到7倍之高。 以製程而言,由於英特爾採用了新的命名方式,也使得Xeon Scalable系列處理器的下一代與下下一代產品,也將對應不同的製程名稱,如Sapphire Rapids原本是10奈米Enhanced SuperFin製程,現改名為Intel 7製程。
接著是7月底舉行的Accelerated 2021發表會,公布多項製程與封裝創新消息之餘,也提到新款伺服器處理器進度。 因此,Sapphire Rapids如今要搶先一步支援上述新規格,此舉可說是顛覆了過去大家的刻板印象。 事實上,英特爾過去通常會耐心等待相關技術與應用成熟,屆時再進場提供支援,也難怪各界會詫異有這樣的改變。 Intel 向來以閘極長度當作製程節點的命名方式,但隨著 Intel Foundry Services(晶圓代工服務)成立,未來將以製程節點的每瓦效能為基準,導入全新命名方式,也讓客戶更易於識別。 現階段它並沒有被分配任何用途,Meteor Lake CPU 也暫時用不到 EMIB 技術。 先說 Meteor Lake,該公司展示了一種全新的晶片布局,讓我們更好地瞭解了具有各種 IP 區塊的小晶片,主要拆分為 CPU、圖形區塊、單晶片系統、以及 IOE 區塊。
emib: 《DJ在線》異質整合再進化…Intel EMIB點燃ABF載板長線需求
Intel也在這次活動中發表了更多Xe HPC運算卡的資訊,它能提供領先業界的浮點運算效能與運算密度,加速AI、高效能運算(HPC)以及多種大數據分析的工作負載。 至於S-IOV,能夠在虛擬機器/容器與PCIe裝置之間,提供通用的硬體加速機制。 舉例來說,S-IOV可橫跨數千臺虛擬機器/容器,提供硬體加速器的可擴展式共享,以及直接存取等兩種方式。 這種作法能夠比現行大家熟知的SR-IOV,提供更大的延展性,而且比起僅限軟體的裝置擴展方式,S-IOV可提供更高的效能。 另一個是加速器介接架構(AIA),針對加速器、裝置的連接,可在系統的使用者模式(User Mode)層級,以原生、有效率的方式,執行調度、同步、訊號傳遞等任務,而不是到工作繁忙的核心模式(Kernel emib Mode)執行。 第三,針對多租戶服務這類資料中心運作模式,P-Core具備多種功能,像是:VM快速遷移、進階的快取與TLB服務品質確保(QoS),以便提供一致的效能。
同時,Xe-HPC的架構支援多堆疊式(Multi-Stack)設計,英特爾強調這也是業界首創的作法。 而且,每一座Xe-HPC Stack堆疊中的Xe Memory Fabric,可以直接相互連結,如此可促成兩座Xe-HPC Stack之間,能有統合、一致的記憶體。 處理器大廠英特爾(intel)27 日正式首次詳盡揭露製程與封裝技術最新藍圖,並宣布一系列半導體製程節點命名方式,為 2025 年之後產品注入動力。 除首次發表全新電晶體架構 RibbonFET 外,尚有稱為 PowerVia 的業界首款背部供電方案。 英特爾強調迅速轉往下一世代 EUV 工具的計畫,稱為高數值孔徑(High NA)EUV。
emib: 金字塔結構與原則
由於高度性能計算(high-performance computing, HPC)晶片的需求正在急遽增加,因此,數據中心和雲端計算基礎架構變得至關重要,尤其是可支持新的高性能技術的AI和5G設備。 但這些設備面臨的挑戰是,該設備及其多核心架構的高效能,將會附帶有高寬頻密度和低延遲的問題。 而異質整合成為HPC晶片需求飆升的因素,並為3D IC封裝技術打開嶄新的一頁。
預計在 2022 下半年準備量產,2023 上半年開始出貨,消費級的 Meteor Lake 和資料中心的 Granite Rapids 將率先採用。 Intel 揭曉截至 2025 年的最新製程與封裝技術發展藍圖,不僅導入全新的製程節點命名方式,同步發表全新的電晶體架構 RibbonFET 和業界首款背部供電方案 PowerVia。 台積電則繼續升級其基板上晶片(Chip-on-Wafer-on-Substrate, CoWoS)、扇出型晶圓(Integrated Fan-out, InFO)、和其他2.5D的IC生產解決方案,同時開發SoIC和WoW(wafer-on-wafer)等3D晶片堆疊技術。 其實,台積電的SoIC基於Chip-on-Wafer概念,具有支持一對多或不同製程節點的靈活性,而其WoW集成了兩個晶圓,產量時更穩定,可用於相同尺寸的產品,或由成熟的製程技術進行製造。 ABF載板過去一波的高峰主要應用在PC市場,近二年的需求再起,主要可應用在伺服器/基地台/車用等產品,主要是用在需要高速運算的產品,因在高速運算之下產生高熱,板子會發生翹曲的現象,而在細線路的設計下,板子變形就會造成產品的報廢,所以ABF載板耐高溫的優勢即很適合不需要輕薄短小設計的應用市場。
Intel在2021架構日活動中除了發表家用處理器與顯示卡的資訊外,也帶來多款伺服器端的處理器、基處設施處理器、運算卡等產品資訊。 而在加密處理作業上,英特爾表示,QAT如今可提供400Gb/s的效能(對稱式加密),而同時進行壓縮與解壓縮的處理上,均可達到160 Gb/s。 而在英特爾運用Zlib L9壓縮演算法的測試當中,處理器使用率降低50%,壓縮速度是未啟用QAT的22倍。 相對地,若不啟用QAT,要得到同樣的效能,英特爾預估要運用1千顆P-Core才能達成目的。 Intel 7原名「強化版 10nm SuperFin」,持續將 FinFET(鰭式場效電晶體)最佳化,相較 Intel 10nm SuperFin 的每瓦效能可提升大約10% ~ 15%。 率先應用於今(2021)年登場的客戶端(消費級)產品 Alder Lake ,以及 2022 年第一季量產的資料中心產品 Sapphire Rapids 。
emib: EMIB的所有定義
也因此,從1990年代開始,多晶片封裝類型的產品在市場上屢見不鮮,包含各位科科並不陌生的高效能處理器,透過「分而治之」,讓每個不同功能的IP,都位於最適合自己的製程工藝節點。 在效能方面,以設計定案送交製造的第一版為例,根據英特爾內部測試,FP32運算效能超過45 TFLOPS,記憶體存取頻寬達到5 TB/s以上,連結頻寬是2 TB/s以上。 若使用ResNet框架來進行推論,每秒可處理4.3萬張以上的圖片,若使用ResNet進行訓練,每秒可處理3,400張以上的圖片。 英特爾期盼透過這樣的產品,搭配新世代Xeon Scalable系列伺服器處理器,也就是代號為Sapphire Rapids的產品,以及橫跨多種運算架構的統一程式開發模式:OneAPI,實現百萬兆級(exascale)運算。 當時,他們也宣布美國阿貢國家實驗室Aurora系統,將運用上述產品來建置運算節點。 EMIB:2017 年產品出貨開始,以首款 2.5D 嵌入式橋接解決方案持續引領產業。
- Foveros Direct 是 Foveros Omni 的補充技術,為降低互連電阻,改採直接銅對銅接合技術,模糊了晶圓製造終點與封裝起點的界線。
- 由於高度性能計算(high-performance computing, HPC)晶片的需求正在急遽增加,因此,數據中心和雲端計算基礎架構變得至關重要,尤其是可支持新的高性能技術的AI和5G設備。
- Foveros Omni 採用晶片與晶片連結與模組化設計,提供不受限的靈活高效能 3D 堆疊技術,允許混合多個頂層晶片塊與多個基底晶片塊,以及橫跨多種晶圓廠節點的分拆晶片(die disaggregation)設計,預計於 2023 年準備大量生產。
- 但這些設備面臨的挑戰是,該設備及其多核心架構的高效能,將會附帶有高寬頻密度和低延遲的問題。
PowerVia 為英特爾獨特、業界首次實作的背部供電,藉由移除晶圓正面供電迴路,以達最佳化訊號傳遞工作。 英特爾也很高興公布高通(Qualcomm)將採用 Intel 20A 製程。 基本上,SVM能在處理器的虛擬定址空間,讓裝置與Intel架構運算核心能夠在此存取共用資料,可避免記憶體固定於一處與進行內容複製的常態負擔,適用於整合型、獨立型、裸機型、虛擬機器型的執行個體服務。 相較於過往的伺服器級處理器,Sapphire Rapids採用了許多首創的設計方式。 例如,在封裝的部分,這系列處理器採用新的系統單晶片(SOC)架構,也就是模組化、磚片型(tiled)架構,而能具備足夠的延展性;同時,它們也是首批採用嵌入式多晶片互連橋接技術(EMIB)的產品,而能維持單體(monolithic)的中央處理器介面。
emib: 10-21 金字塔原理-解決問題的邏輯 2/3
同時,它內建了8埠交換器,可用於單節點、8個完全連結的GPU,而不需要其他元件的協助。 透過圖解的呈現方式,英特爾也逐一示範單節點的多種GPU連接架構,從最基本的2個GPU,常見的4個GPU,到因應更大型處理需求的6個GPU、8個GPU。 Foveros Direct:為降低互連電阻,改採直接銅對銅接合技術,模糊晶圓製造終點與封裝起點的界線。 Foveros Direct 能達到低於 10 微米的凸點間距,提升 3D 堆疊一個等級互連密度,為原先認為無法達成的功能性晶片分割開啟新頁。 Foveros Direct 是 Foveros Omni 的補充技術,同樣預計 2023 年問世。 Meteor Lake 將是 Foveros 客戶端產品實作的第二世代,具 36 微米凸點間距,晶片塊橫跨多種製程節點,熱設計功耗 5~125 瓦。
- 就晶片設計方式而言,今年英特爾架構日也揭露Ponte Vecchio的特點。
- 但天底下沒有足以滿足「所有功能」的半導體製程,像數位邏輯、I/O、各式各樣的記憶體、類比/射頻等,特性都大相逕庭,勉強將其「送作堆」,要嘛東西做不出來,要嘛犧牲產品良率,要嘛就是某些功能難以到達最佳化的程度。
- 預計在 2022 下半年準備量產,2023 上半年開始出貨,消費級的 Meteor Lake 和資料中心的 Granite Rapids 將率先採用。
- 也因此,從1990年代開始,多晶片封裝類型的產品在市場上屢見不鮮,包含各位科科並不陌生的高效能處理器,透過「分而治之」,讓每個不同功能的IP,都位於最適合自己的製程工藝節點。
- Intel 18A 已進入開發階段,持續改良 RibbonFET,預計於 2025 年初問世,將為電晶體帶來另一次的重大性能提升。
- Ponte Vecchio已成功過電開機,正處於驗證階段,並開始小量寄送樣品予客戶,預計於2022年推出至HPC和AI運算市場。
- Intel透露,其 Meteor Lake SKU 的功耗設計從 100W 不等,但採用小晶片設計的 CPU 性能仍與單片式設計相當。
另有 CPU / IOE 區塊,且通向 SOC 區塊的圖形區塊之間有兩個 Die-To-Die 連接。 這些瓦片之間透過 36 μm 間距(晶片-晶片)互連方案,與基礎區塊完成連接。 Base Tile 帶有大電容,輔以 IO / 供電 / D2D 路徑的金屬層。 第二種應用將ODI完全置於晶片下方,用來連接其他的功能單元,如I/O、記憶體或輔助處理器(請各位科科盡情發揮想像力補完這個失落的環節)。
其中主 CPU 區塊將採用 Intel 4(7nm emib EUV)工藝節點,而 SoC emib 與 IOE 小晶片採用了台積電 6nm 工藝(N6)製造。 Toyota社長豐田章男近日表示,電動車不該是汽車產業未來的唯一方向,業界「沉默的大多數」都對此抱有疑慮。 今年美國聯準會為了解決高通膨環境,採取激烈升息行動,引發市場景氣出現快速反轉,股市面臨重挫,高估值的科技巨頭股紛紛暴跌,最慘的是臉書母公司Meta雪崩近7成,就連跌幅最少的蘋果也大跌超過25%,分析師甚至警告,科技股的糟糕表現將延續至2023年,前景仍相當黯淡。 財信傳媒董事長謝金河表示,自行車大廠巨大砍單延票率先敲響庫存警鐘,他把所有上市櫃公司存貨盤點一遍,除了被鴻海存貨8805億元嚇到,廣達、華碩、緯創、仁寶等四家電子大廠也逾千億,晶片供需逆轉,一票IC設計也難逃庫存壓力,至少要調整2~3季,現在開始,全球經濟都會籠罩在一片壞消息中。
目前早期開發階段的Ponte Vecchio晶片已具有傑出的效能表現,於主流AI訓練與推論測試皆創下領先業界的紀錄。 emib 目前A0步進的晶片在FP32資料型態下具有超過45 TFLOPS效能,並有高於5 TB/s的記憶體交織結構頻寬與2 TB/s的連接頻寬。 為了滿足Xe HPC運算卡之間的資料傳輸,Intel推出頻寬高達2TB/s的Xe Link匯流排提供GPU之間的連接性,讓8張運算卡能夠建立完全連接之拓撲,成為效能向上提升(Scale-Up)的成功關鍵。
得益於 Intel 4 技術的協同最佳化,其有望帶來較 Alder Lake CPU 更高的睿頻潛力,且 Base Tile 的總電流達到了 500 。 金屬化的頂背,也是 Foveros 無源晶片所在的位置,正下方就是上述各個小晶片區塊。 Intel宣稱 Meteor Lake 是其邁入小晶片生態的第一步,但據業內人士所述,情況並非如此,稱 Meteor Lake 的 tGPU 一直定的台積電 5nm(N5)設計。 距離年底封關只剩最後一周,隨著2023年到來,雖主要利空還未消除,但在市場反應逐漸鈍化後,部分個股仍有機會揮別2022年沉悶的狀態。 篩選過去十年間的元月常勝軍,緯創(3231)、英業達(2356)等14檔個股,本周獲法人資金進場加持。
伴隨每瓦效能提升約 20%,以及面積改進,Intel 4 將於 2022 下半年準備量產,2023 年開始出貨,客戶端 Meteor Lake 和資料中心 Granite Rapids 將率先採用。 Mount Evan為高階定位產品,提供高效能網路與儲存虛擬化卸載,同時維持高度控制。 在內建快取記憶體的部分,Sapphire Rapids支援大容量的共用快取,以便讓整顆處理器能夠動態共享這些內容,因此在L3快取上,英特爾決定配置比過往配置多一倍的容量(100 MB以上),並強化服務品質確保的機制。 英特爾強調,EMIB讓Sapphire Rapids運用嵌入基板的矽晶片互連機制,而不需用到大型矽晶片矽中介層,相較於標準封裝的互連方式,EMIB能提供2倍頻寬密度,以及4倍電力使用效率。
由於物理上的極限,在半導體製程微縮上發展已經面臨到瓶頸,各方皆預期在2030年左右會達到理論極限。 因此,在半導體產業中的發展大概可以分成兩個趨勢:尋找新的半導體元件以取代CMOS製程以及超脫2D的限制。 在More than Moore的分支中,主要是尋找在3D Dimension的整合技術來提高系統整合的多樣性,例如Intergration in Package或者更加具挑戰性的real emib 3D–chip die stacking。 整體而言,無論是Ponte Vecchio或Xe-HPC,就英特爾本次公布的硬體架構設計,以及層層堆疊的擴充性,的確具有一定的說服力,然而,能否讓市場接受,進而挑戰競爭廠商的領導地位,關鍵可能在於軟體生態系的健全與開放,以及各種應用場景的拓展。
乍看之下好像跟EMIB沒什麼差異,但下面這個為了高效能運算,讓處理器直連記憶體的範例,應該就可以讓各位科科比較有感了,然後也可以猜猜看ODI藏到哪裡去了。 在2004年的高階伺服器市場,殺遍天下無敵手的IBM Power5,更是將4顆雙核心的Power5處理器和4塊36MB L3快取記憶體,集中成整塊八核心的巨大模組。 本文透過閱讀《金字塔原理》書中「將金字塔結構反映在螢幕上」的章節,希望能在不改變投影片的主要架構下,幫助報告人建構良好的報告投影片。 這項介面可針對GPU對GPU之間的連結,提供高速、一致的I/O交織存取,支援載入/儲存、大量資料傳輸。 Xe-Core當中的每個向量引擎可支援512位元寬度的向量,以此處理整數運算與浮點運算,若是FP16、FP32、FP64型別,每個週期可分別執行512、256、256個運算。 全新的AMX(Advanced Matrix Extensions)加速引擎,可大幅提升深度學習演算法與張量運算效能,與AVX-512 VNNI延伸指令集版本相比可以代來超過7倍效能增益。
英特爾副總裁Koushik Banerjee指出,利用異質整合技術於單系統級封裝,將可以透過多個處理技術節點,實現業界長期以來對矽智財、晶片功能、以及低耗能和高頻低延遲的晶片需求。 英特爾計畫推出首款Foveros 3D封裝產品,該產品是將10奈米的HPC晶片與低耗能的22奈米基本晶片互相結合,並在頂部堆疊記憶體,形成一種嵌入式多晶片互連橋(Embedded Multi-Die Interconnect Bridge, EMIB)的組合。 搭配功能更強大的運算核心之餘,英特爾在Sapphire Rapids也首度導入加速器引擎的設計,針對資料中心層級通用的作業模式,提供高階的最佳化處理機制,藉此減輕常態下的運作負擔,以及提升P-Core的資源利用率,進而拉抬使用者工作負載的效能。 這樣的優勢除了能夠在設計過程中透過堆疊小晶片提升整體運算效能,也提供單一且平衡的統一記憶體存取架構,讓每條執行緒均可完全存取快取、記憶體和I/O等完整資源,達成SoC一致的低延遲和高頻寬資料傳輸。 另一方面,由於SoC是由多個小晶片組合而成,所以當生產過程中有某個小晶片出現瑕疵,也只需廢棄該小晶片,而不用廢棄整個SoC,對良率的提升也有正面幫助。 此外,P-Core本身也內建多種加速指令集架構與功能支援,可因應資料中心的應用需求。
emib: 英特爾在下一代 Meteor / Arrow / Lunar Lake 晶片設計上搭起了積木
史上最重打炒房政策的《平均地權條例》修正草案,可望農曆年前過關,投資客拋售恐爆逃命潮。 事實上,今年在央行升息壓力下,8月起房價已開始鬆動,北市的北投、大同和中山三區跌幅約20%左右,若以每戶40坪的均價來看,南港區、大同區跌價都超過450萬最多。 對此,專家分析兩大原因,包括大坪數非市場主流,以及無電梯老舊公寓難支撐房價。 右边的EMIB芯片就不同了,CPU、GPU核心可以使用10nm工艺,这两部分对新工艺要求更高,IO单元、通讯单元则可以使用14nm工艺,内存部分则可以使用22nm工艺,EMIB封装可以把三种不同工艺的单路单元做成一个处理器。
無論是向量引擎或矩陣引擎,都可支援寬型的載入/儲存單元(Load/Restore),每個運算週期可餵送512 Bytes資料。 至於矩陣引擎的部分,每個內建8個脈動陣列(systolic array),而且,在每個運算週期中,可執行8組512位元寬度的向量處理。 Intel 3:汲取 FinFET 最佳化優勢與提升 EUV 使用比例,以及更多面積改進,Intel 3 相較 Intel 4 約提供 18% 每瓦效能成長幅度。 每張運算卡可由2個Stack構成,採用PCIe Gen5匯流排,並搭載HBM2e記憶體(官方透露容量將超過40GB)。
第二個新世代處理器內建的加速器引擎,是英特爾發展已久的Quick Assist Technology(QAT),-而且,Sapphire Rapids將提供的是新一代QAT引擎,可大幅提升效能與實用性,並且不僅支援最常見的加密、雜湊、壓縮等演算法,還能將這些作法串在一起使用。 而對於資料中心環境當中,能以加密方式針對全部數據的儲存、傳輸、使用進行保護,面對持續增長的資料量,企業也能善用這項技術,促使相關數據維持在壓縮的格式。 英特爾表示,若以QAT來處理這些資料,會比使用P-Core還要快,而且執行同樣的功能時,還能減少需要的運算核心數量。 首先是前面我們曾提到的資料串流加速器(DSA),這是專為資料中心環境最常見的資料搬移作業,舉凡封包處理、資料縮減、虛擬機器遷移時的快速建立檢查點,所設計的卸載功能,能夠提升整體工作負載的效能,適用範圍可涵蓋處理器、記憶體、快取,以及各種透過I/O介面連接的記憶體、儲存裝置、網路設備之間的資料搬移活動。 她強調,這樣的設計能針對所有的工作負載,提供平衡的擴充性與一致的效能,對於資料中心規模的伸縮度與資源利用率的最佳化而言,這會是關鍵。 到了今年,英特爾目前已連續在三場強調公司轉型策略的重大活動當中,提到Sapphire Rapids的最新技術進展。
同時,用戶者還可以在此啟用Sub-NUMA與Sub-UMA層級的叢集,以獲得額外的效能與延遲度改善。 Foveros Direct 是 Foveros Omni 的補充技術,為降低互連電阻,改採直接銅對銅接合技術,模糊了晶圓製造終點與封裝起點的界線。 Foveros Direct 能夠達成低於 10µm 的凸點間距,提升 3D 堆疊一個量級的互連密度,為原先被認為無法達成的功能性晶片分割開啟新頁,預計於 2023 年問世。 目前應用初期高頻高速應用主要以基地台為主,但未來5G還有雲端、物端跟使用者,汽車領域在車聯網下也是需要超強的運算,高速運算的需求推動CPU、GPU等元件整合設計,則是未來的半導體大廠設計趨勢。 科技業「黑色鍊金術」的半導體,不只有晶片設計和晶圓製造,以封裝測試為主的後段製程,更造就了巨大的下游產業。 emib 在摩爾定律預期的製程技術演進之外,封裝也是充滿大量高深學問的專業知識領域,一點都不簡單,所以科科們也不要不切實際的期待看完這篇科科文就能徹底了解什麼是晶片封裝,只要能夠記得這些廠商想幹哪些好事就夠了。
RibbonFET 為英特爾環繞式閘極(Gate All Around)電晶體的實作成果,同時也是自 2011 年推出 FinFET 後,首次全新電晶體架構。 該技術可於於較小的面積當中堆疊多個鰭片,於相同的驅動電流提供更快的電晶體開關速度。 Intel 4原稱 7nm,全面使用極紫外光(EUV)微影技術,透過超短波長的光,印製極小的形狀。