報告導讀
AMD系列新品重磅來襲,MI 300X表現亮眼,成為AI算力增量市場的有效補充,但暫未撼動英偉達在GPU市場的統治地位。
摘要
(相關資料圖)
投資建議:AMD MI300系列為AI算力市場貢獻增量,芯片市場“贏家通吃”英偉達仍占AI芯片主導地位,推薦標的英偉達(NVDA.O)。
以MI 300X為代表的AMD系列新品重磅發布,整體表現亮眼。AMD舉行“AMD數據中心與人工智能技術首映會”,發布了一系列新產品。其中,MI 300X針對大語言模型進行優化,產品性能大幅突破。MI 300X與MI 300A類似,由多個chiplets組成,在chiplets間內存和網絡鏈接可實現共享。但MI300X移除了MI300A 上原有的CPU chiplets,成為了純GPU產品。從參數上看,MI300X基于CDNA 3,擁有192GB的HBM3 DRAM內存,5.2TB/s的內存帶寬,Infinity Fabric帶寬896GB/s和1530億個晶體管,采用5nm和6nm的制程并含13個chiplets。
AMD的MI 300系列產品作為全球AI算力的新供給,是AI算力增量市場有效補充,但暫時難以撼動英偉達在AI芯片市場的統治格局。第一,在硬件端,英偉達具備系統性集成競爭優勢。GH200集合了Grace Hopper架構,并應用第四代Tensor Core提升計算性能、進行模型優化,以及NVLink實現高速傳輸,這些系統性的優化并不僅是MI 300X部分硬件參數的提升所能比擬的,而這超異構創新正形成了英偉達在硬件端的競爭壁壘,實現了芯片和系統耦合。
第二,軟件端CUDA打造高兼容性的GPU通用平臺,形成的壁壘短期內ROCm無法打破。CUDA具備ROCm難以企及的開發人員數量,目前CUDA 擁有超過400萬開發人員,歷史上CUDA總下載量達到4000萬,整體而言,在發布時間、硬件支持、操作系統和開發者數量等維度上CUDA均具備優勢,展現出更加繁榮的生態。
此外,量產時間、合作伙伴網絡和研發人員等因素均成為了英偉達的競爭優勢的有力加持。MI300 X目前仍未送樣,距離實現量產也還有較長時間,仍需經過產業實踐;而英偉達H100已在去年9月實現量產,GH200目前也已投入量產,上市時間指日可待;英偉達已形成了多元而龐大的客戶群和完備的合作伙伴網絡,整體積淀暫時優于AMD;隨著英偉達研發人員數量和研發投入的高增,我們看好后續英偉達產品的迭代速度。
風險提示:AI應用發展不及預期;產品出貨時間不及預期;地緣政治沖突。
目錄
報告正文
1
AI算力新供給,AMD MI300新品重磅發布
在2023年6月13日AMD舉行的“AMD數據中心與人工智能技術首映會”中,AMD發布了一系列新產品,包括第四代AMD EPYC(霄龍)產品組合、EPYC“Bergamo”CPU、EPYC “Genoa” CPU 、EPYC “Genoa-X” CPU、P4 DPU等。其中最受人關注的莫屬AMD AI Platforms中的硬件端MI300A、MI300X和Instinct Platform的發布。
1.1.MI300A專為AI和HPC打造
MI300A成為全球首個為AI和HPC打造的APU加速卡。公司CEO蘇姿豐率先公布了MI300A,稱這是全球首個為AI和HPC(高性能計算)打造的APU加速卡。MI300A總共包含1460億個晶體管,含13個chiplets,24個Zen 4 CPU核心,1個CDNA 3GPU和128GB HBM3內存,采用5nm和6nm的制程,CPU和GPU共用統一內存。與MI 250相比,MI 300A提供了8倍的性能和5倍的效率。目前,MI300A已經送樣。
1.2MI300X針對LLM進行優化,性能高于MI 300A
MI 300X表現亮眼,內存帶寬大幅突破。MI300X與MI 300A類似,也是由多個chiplets組成的芯片,在chiplets間內存和網絡鏈接可實現共享。但與MI 300A不同的是,MI 300X移除了 MI300A 上原有的CPU chiplets,成為了純GPU產品。MI300X同樣基于CDNA 3,擁有192GB的HBM3 DRAM內存,5.2TB/s的內存帶寬,Infinity Fabric帶寬896GB/s和1530億個晶體管,同樣采用5nm和6nm的制程并含13個chiplets。MI300X計劃于23Q3送樣、23Q4出貨。
MI300X性能顯著高于MI300A。對比MI 300X 和MI 300A,MI300A是由3個Zen4 CPU chiplets和多個GPU chiplets組成的,但在MI300X中,CPU被換成了2個額外的CDNA 3 chiplets,MI300X的晶體管數量也從1460億增加到了1530億。為滿足大語言模型對內存的需求, MI 300X的DRAM內存從MI300A的128GB增加到了192GB,內存帶寬從800GB/s增加到了5.2TB/s。
MI300X是針對大語言模型進行了優化的版本。MI 300X能夠在內存中處理高達800億參數的大型語言模型的芯片,蘇姿豐將其稱為“生成式AI加速器”,并表示其包含的CDNA 3 GPU chiplets是專門為AI和HPC工作負載而設計。此外,她在發布會中展示了MI300X如何使用Falcon-40B大型語言模型在內存中運行一個40億參數的神經網絡,而不需要將數據在外部內存中來回移動。
MI300X部分性能可對標英偉達H100GPU。蘇姿豐表示,MI300X將提供英偉達H100 Hopper GPU2.4倍的內存密度和1.6倍的內存帶寬。我們認為,AMD MI300X在內存密度和內存帶寬等參數上已優于英偉達可比產品,MI 300X將一定程度影響AI加速卡市場份額。
1.3 AMD Instinct Platform實現現有基礎架構的直接使用
Instinct Platform實現在現有的基礎架構中直接使用MI300X的AI計算能力和內存。蘇姿豐在發布會中同時發布了AMD Instinct Platform,Instinct Platform將結合8個MI300X和1.5TB的HMB3內存,并采用工業級標準化設計。通過利用行業標準的OCP基礎架構,Instinct Platform可直接使用MI300X的AI計算能力和內存,在降低了客戶總體開發成本的基礎上也加速了客戶的上市時間,實現了輕松部署的效能。
2
英偉達在GPU市場統治地位短期不會改變
英偉達持續加大研發投入,注重創新能力培育。據FourWeekMBA統計,截至2023年1月,英偉達全球員工總數共26196人,其中研發人員19532人,研發人員占比約75%,四年間英偉達研發人員數量近乎翻倍。其中很多員工來自英特爾和AMD,由于英偉達在GPU市場的龍頭地位,其對于芯片開發者而言具備較高的吸引力,頭部效應吸引大量高端人才注入,因此維護了自己的研發能力優勢。
英偉達以超異構創新構建面向大規模AI計算的超級計算機。我們認為,英偉達的核心競爭優勢在于,構建了AI時代面向大規模并行計算而設的全棧異構的數據中心。英偉達NVLink性能快速迭代,同時NVSwitch可連接多個NVLink,在單節點內和節點間實現以NVLink能夠達到的最高速度進行多對多GPU通信,滿足了在每個GPU之間、GPU和CPU間實現無縫高速通信的需求,同時基于DOCA加速數據中心工作負載的潛力,實現DPU的效能提升,GPU +Bluefield DPU+Grace CPU的結合開創性地實現了芯片間的高速互聯。同時CUDA充當通用平臺,引入英偉達軟件服務和全生態系統。我們認為,芯片和系統耦合的實現使得英偉達真正實現了超異構創新。
英偉達自研Grace Hopper超級芯片,為AI數據中心而生。Grace Hopper是適用于大規模AI和HPC應用的突破性加速CPU。通過NVLink-C2C 技術將Grace和Hopper架構相結合,為加速AI和HPC應用提供 CPU+GPU 相結合的一致內存模型。它采用新型900 GB/s一致性接口,比PCIe 5.0快7倍,并可運行所有的英偉達軟件棧和平臺,包括 NVIDIA HPC SDK、NVIDIA AI和NVIDIA Omniverse。
英偉達CUDA構筑軟件業務底層框架基石,打造高兼容性的GPU通用平臺。借助英偉達 CUDA 工具包,開發者可以在GPU加速的嵌入式系統、桌面工作站、企業數據中心、基于云的平臺和HPC超級計算機上開發、優化和部署應用程序。CUDA最初用于輔助GeForce提升游戲開發效率,但隨著CUDA的高兼容性優勢彰顯,英偉達將GPU的應用領域拓展至計算科學和深度學習領域。CUDA可以充當英偉達各GPU系列的通用平臺,因此開發者可以跨GPU配置部署并擴展應用。目前,通過 CUDA 開發的數千個應用目前已部署到嵌入式系統、工作站、數據中心和云中的GPU。
CUDA形成的壁壘短期內ROCm無法打破,成為英偉達與AMD市場份額差距的重要影響因素。在COMPUTEX 2023中,英偉達表示,目前CUDA 擁有超過400萬開發人員,歷史上CUDA 的總下載量也達到驚人的4000萬。而ROCm作為AMD為對標英偉達而打造的開放式軟件平臺,2016年4月首次發布,相比2007年發布的CUDA目前使用的人數依舊較少。ROCm操作系統直至2023年4月才支持Windows,改變了僅支持Linux的尷尬局面,同時長期僅支持Radeon Pro系列GPU,近期才開始陸續拓展。此外,ROCm缺少類似于CUDA的社區支持和成熟的生態體系。我們認為,目前CUDA已形成極高的準入壁壘,也成為了英偉達持續擴展人工智能領域市場的品牌影響力來源,帶動了英偉達GPU的高市場份額,短期內ROCm的軟件支持難以匹敵CUDA。
MI 300較英偉達GH 200部分硬件參數差距有望對標,但整體仍存在一定差距。GH200超級芯片是英偉達系統性競爭優勢的集大成者,將72核的Grace CPU、H100 GPU、96GB的HBM3和512 GB的LPDDR5X 集成在同一個封裝中,它集合了最先進的Grace Hopper架構,并應用第四代Tensor Core提升計算性能、進行模型優化,NVLink實現了高速的傳輸,這都將進一步形成英偉達的競爭壁壘。通過將英偉達GH 200和MI 300進行對比,我們認為,MI 300還有許多參數有待后續公布,但從算力、內存等指標上有望和英偉達實現對標,但在架構、制程和晶體管數量上仍與英偉達GH 200存在一定差距。
芯片市場具有一定的“贏家通吃”性。1)以全球x86 CPU服務器處理器市場為例,據Mercury Research,英特爾占超80%的市場份額;2)以獨立顯卡市場為例,據JPR測算,英偉達長期占全球獨立顯卡的市場份額近80%;3)以基帶芯片市場為例,據TechInsights,高通在2022年以61%的收入份額領先基帶芯片市場。而目前,英偉達就基于其繁榮的生態,構筑了AMD暫時難以逾越的生態壁壘。
綜上所述,我們認為英偉達短期內仍占AI芯片主導地位,主要基于如下原因:
1)英偉達具備系統性集成競爭優勢,GH200集合了Grace Hopper架構,并應用第四代Tensor Core提升計算性能、進行模型優化,以及NVLink實現高速傳輸,這些系統性的優化并不僅是部分硬件參數的提升所能比擬的,而這超異構創新正是英偉達在硬件端的競爭壁壘,實現了芯片和系統耦合;
2)CUDA具備ROCm難以企及的開發人員數量,而英偉達基于CUDA而形成的軟件生態的繁榮程度高于AMD的ROCm;
3)MI300 X目前仍未送樣,距離實現量產可能也還有較長時間,仍需經過產業實踐;而英偉達H100已在去年9月實現量產,GH200目前也已投入量產,上市時間指日可待;
4)英偉達已形成了多元而龐大的客戶群和完備的合作伙伴網絡,在其合作伙伴網絡列表中,截止2023年6月14日,共公示了976家公司,英偉達的客戶群和合作伙伴積淀暫時優于AMD;
5)研發人員的數量反映了公司長期的研發能力,隨著英偉達研發人員數量和研發投入的高增,我們看好后續英偉達產品的迭代速度。
整體而言,AMD的MI 300系列產品作為全球AI算力的新供給,是AI算力增量市場有效補充,但暫時難以撼動英偉達的市場統治格局,推薦標的英偉達(NVDA.O)。
3
風險提示
AI應用發展不及預期;產品出貨時間不及預期;地緣政治沖突。
來源:券商研報精選
責任編輯:Rex_16