AMD叫板英偉達為何吃力不討好？國產(chǎn)GPU不能只看算力

2023-07-04 來源：賢集網(wǎng)

2645

近日，芯片巨頭AMD推出全新AI GPU MI300系列芯片，與英偉達在AI 算力市場展開競爭。

AMD首席執(zhí)行官蘇姿豐介紹稱，MI300X提供的高帶寬內(nèi)存（HBM）密度是英偉達H100的2.4倍，HBM帶寬是競品的1.6倍。華爾街分析師也普遍認為，AMD的這款芯片將對目前掌握AI芯片市場逾八成份額的英偉達構成有力挑戰(zhàn)，這款MI300X加速器，有望替代英偉達的同類產(chǎn)品。

然而，市場對本次新品的反響似乎并不熱烈。截至隔夜收盤，AMD股價下跌超3.6%，被挑戰(zhàn)的英偉達不跌反漲，股價單日大漲3.90%。

躥紅的英偉達

2022年ChatGPT橫空出世，把AI 行業(yè)的發(fā)展推向了一個新的高潮，生成式 AI 需要基于海量的數(shù)據(jù)進行推理訓練，高算力的 GPU 加速卡自然也成了市場的搶手貨。乘著AI的東風，英偉達坐上了“算力霸主”的寶座。

據(jù)悉，微軟用幾億美元，耗費上萬張英偉達A100芯片打造超算平臺，只為給ChatGPT和新版必應提供更好的算力。不僅如此，微軟還在Azure的60多個數(shù)據(jù)中心部署了幾十萬張GPU，用于ChatGPT的推理。特斯拉CEO馬斯克也購買了約1萬個GPU，用于公司的兩個數(shù)據(jù)中心之一。除此之外，像亞馬遜、阿里、百度等眾多科技公司都在競相部署AI芯片。

供需的極度不平衡讓英偉達的GPU一芯難求，開啟漲價。據(jù)市場消息人士透露，英偉達的A100和H100 AI GPU訂單還在不斷增加，A800和H800的售價已上漲40%，新訂單交期可能要延長到12月份。

在炙手可熱的AI浪潮下，英偉達賺得盆滿缽滿。英偉達表示，其截至 7 月的本季度銷售額預計將達 110 億美元，較華爾街之前的估計高出 50%以上。不過，作為AI的基礎設施，算力芯片環(huán)節(jié)的“一家獨大”顯然不是有利于行業(yè)長遠發(fā)展的生態(tài)，市場迫切需要引入新的競爭者，AMD的出現(xiàn)或許有望“分擔”AI市場的壓力。

AMD叫板英偉達

MI300是AMD發(fā)布的第一款數(shù)據(jù)中心、高性能計算機群（HPC）級的APU，采用與英偉達Grace Hopper相同的CPU+GPU架構，但是硬件參數(shù)更高。

MI300在CPU部分集成了24個ZEN4內(nèi)核，GPU部分集成了6塊使用CDNA3架構的芯片，擁有1460億個晶體管，比英特爾GPU Ponte Vecchio多460億個晶體管，比英偉達H100多660億個晶體管，而且MI300的統(tǒng)一內(nèi)存可降低不同內(nèi)存間來回復制、同步和轉(zhuǎn)換數(shù)據(jù)所導致的編程復雜性。

封裝工藝方面，MI300使用最近爆火的3D Chiplet封裝技術，而GH200則使用CoWoS（2.5D）封裝，3D對比2.5D的優(yōu)勢在于性能更高、延遲和功耗更低。

從硬件參數(shù)上來看，AMD MI300已經(jīng)具備和英偉達叫板的能力，但顯卡領域完善軟件生態(tài)比堆硬件參數(shù)更難，AMD的軟件生態(tài)能否貼合人工智能行業(yè)的市場需求，是MI300能否搶走英偉達既有市場的重要影響因素。

英偉達壟斷人工智能訓練芯片市場的主要原因是其自研的CUDA生態(tài)。所以AMD MI300想要替代英偉達，首先需要兼容英偉達的CUDA生態(tài)，AMD為此推出ROCm生態(tài)圈，并實現(xiàn)通過HIP完全兼容CUDA。

作為AMD的GPU軟件開發(fā)框架，HIP對應的是CUDA API，其提供的HIPify-perl和HIPify-clang工具，可用于CUDA到HIP的代碼轉(zhuǎn)換，轉(zhuǎn)碼后可在AMD GPU上編譯運行，基于HIP開發(fā)的應用也可用于AMD和英偉達的GPU上。

在此背景下，同一個數(shù)據(jù)中心內(nèi)，理論上可以同時使用AMD和英偉達的GPU，但不同公司的GPU產(chǎn)品對數(shù)據(jù)精度的標準和計算方法及順序配置不同，混合使用GPU難免會導致計算精度缺失等問題，直接影響模型訓練效果。

而且從技術層面來看，兼容意味著被動、落后，因為CUDA每一次升級，ROCm都需要做出對應升級，技術團隊無法將所有精力用于ROCm生態(tài)圈的迭代上，應用場景和使用體驗都會落后于英偉達。

回顧二者發(fā)展歷程，英偉達2007年發(fā)布CUDA，AMD2016年才發(fā)布ROCm，前者自問世起就支持Linux、Windows多平臺，后者則長期只能支持Linux系統(tǒng)，且不支持部分Linux的更新，并于今年4月才登錄Windows平臺。

同樣是今年4月，AMD剛解決消費級產(chǎn)品與ROCm的適配，此前僅支持AMD高端GPU，限制了市場份額的提升。最后就是由于切入時間更晚，AMD開發(fā)者數(shù)量遠低于英偉達的400萬。

對比CUDA和ROCm的開發(fā)活躍度，在全球最大的開發(fā)者社區(qū)之一StackOverflow中，“CUDA”的標簽下有超過14000個問題討論，而ROCm在“amd-rocm”的標簽下只有不到100個問題討論。在Github上，貢獻CUDA軟件包倉庫的開發(fā)者超過32600位，而ROCm只有不到600個。

為改變這種被動局面，AMD也在積極豐富其軟件生態(tài)。雖然目前僅有部分SKU支持Windows系統(tǒng)，但主流Radeon顯卡用戶可以開始試用過去僅專業(yè)顯卡才能使用的AMD ROCm(5.6.0Alpha)。

今年1季度，AMD宣布ROCm系統(tǒng)融入PyTorch2.0框架，目前TensorFlow和Caffe深度學習框架也已加入第五代ROCm。

故此，從軟件生態(tài)方面來看，現(xiàn)有的AMD MI300還不足以威脅英偉達的市場份額，想撼動英偉達在人工智能行業(yè)的地位，AMD還需時間。

國產(chǎn)GPU迎來發(fā)展黃金期

龐大的市場需求和歐美的芯片封鎖，迫使得國產(chǎn)GPU被推到了聚光燈下，迎來了絕佳的發(fā)展期。有業(yè)內(nèi)人士稱：“國產(chǎn)GPU在信創(chuàng)方面已經(jīng)實現(xiàn)逐步替代，AI&數(shù)據(jù)中心、智能汽車、游戲等應用領域的國產(chǎn)GPU需求量也有極大的提升，國產(chǎn)GPU迎來發(fā)展黃金期，我們看好國產(chǎn)GPU公司的發(fā)展與投資機遇。”

近日，國內(nèi)多個GPU廠商，從老牌的景嘉微，到初創(chuàng)的沐曦，都順應市場需求，相繼推出了各自在GPU領域的最新拳頭產(chǎn)品。

中天恒星：６月１５日在北京發(fā)布國產(chǎn)自主GPU架構“天狼星”，擁有完全自主知識產(chǎn)權，自研核心架構確保產(chǎn)品迭代自主可控，同時擁有完備的交付能力，并已實現(xiàn)量產(chǎn)。

景嘉微：成功研發(fā)JM54 系列、JM72 系列、JM92 系列三代 GPU 產(chǎn)品。應用于臺式機、筆記本、一體機、服務器、工控機、自助終端等設備。

天數(shù)智芯：６月１０日發(fā)布天垓100加速卡的算力集群，已經(jīng)具備支持百億級參數(shù)大模型訓練的能力。是國內(nèi)第一款全自研、GPU 架構下的云端訓練芯片，實現(xiàn)了我國通用GPU從0到1的重大突破。

芯動科技：芯動發(fā)布的“風華 2 號”是一款集超低功耗、強渲染、4K 高清三屏顯示、4K 視頻解碼及智能 AI 計算于一體的桌面和筆記本 GPU，實現(xiàn)了多個自研技術的創(chuàng)新突破。

摩爾線程：基于MUSA架構打造了兩顆全功能GPU芯片“蘇堤”和“春曉”；面向信創(chuàng)市場推出了桌面級顯卡MTT S10、MTT S30和MTT S50。

沐曦：6 月 1４日宣布曦云系列的最新產(chǎn)品MXC500成功點亮，產(chǎn)品直接對標英偉達 A100，采用通用 GPU 架構，兼容 CUDA。

盡管國產(chǎn)GPU的推出步伐不斷加快，其中也不乏一些對標國際高端GPU的產(chǎn)品，但不得不承認，國產(chǎn)GPU要走向真正成熟可靠，實現(xiàn)完全國產(chǎn)替代還有很長的距離。

國產(chǎn)GPU整個商業(yè)生態(tài)尚未成熟

在芯片“斷供”之前，國內(nèi)購買海外高端GPU芯片之路暢通，很少有客戶在重大項目采購時會考慮國產(chǎn)GPU，都普遍傾向海外最先進、最穩(wěn)定的產(chǎn)品，以保證項目順利完成。究其原因有二，一是畢竟國產(chǎn)GPU的發(fā)展才剛剛起步，在性能和穩(wěn)定性方面尚未取得長時間，多項目的驗證，不少國產(chǎn)GPU在實際應用中出現(xiàn)了工作負載低，芯片性能不穩(wěn)定，兼容性差的情況。二是軟件生態(tài)不夠完善，如果一個芯片沒有與之配套的軟件生態(tài)，則很難真正形成大面積的應用。

在當下GPU應用最火的AI大模型訓練中，騰訊云新一代HCC（High-Performance Computing Cluster）高性能計算集群使用的是英偉達最新代次H800 GPU；阿里曾在 2018-2019 年采購了上萬塊英偉達的V100和T4 GPU用于近年來的云計算和大模型訓練，其他字節(jié)、百度、美團、B站等都清一色采購英偉達的A100、H100 GPU或是去年禁令后英偉達專門推出的減配版 A800、H800 GPU。

這使得國產(chǎn)GPU在國內(nèi)鮮有大企業(yè)應用成功的案例，大部分還僅僅圍繞在PC、圖形渲染領域，或是應用在專門的軍事、政府等部門。商業(yè)市場的大門，只是開了一條縫。

另外，國產(chǎn)GPU廠商的硬件架構，軟件API接口不盡相同，客戶基本只能多選一，兼容和替換都不夠靈活，比較難實現(xiàn)技術生態(tài)的統(tǒng)一。

只靠算力，無法做英偉達的PlanB

英偉達的強不只是體現(xiàn)在硬件產(chǎn)品上，在軟件平臺中，英偉達也有自己的護城河。

CUDA就是英偉達推出的基于GPU的并行計算平臺和編程模型，可以用來加速大規(guī)模數(shù)據(jù)并行計算，使得GPU可以用于更加廣泛的科學計算和工程計算等領域。CUDA的良好生態(tài)系統(tǒng)吸引了眾多學術機構和高性能計算中心的關注和使用，也為英偉達提供了強有力的市場競爭優(yōu)勢。現(xiàn)在AMD也在做同樣的事情，只是英偉達已經(jīng)占了先發(fā)優(yōu)勢，AMD搭建起來可能會更為艱難。

CUDA的重要性不言而喻，但是提供CUDA兼容層，需要廠商具備足夠的研發(fā)實力，上文提到的與CUDA兼容的有沐曦、海光、壁仞、天數(shù)智芯等公司，因此是否兼容CUDA也成為衡量AI芯片公司的標的之一。

至于是否一定要兼容CUDA，業(yè)界有著不同見解。專家稱，在小模型上CUDA仍然很重要，但在大模型上它的地位越來越輕了。如果未來中國市場以小模型為主，那CUDA還是有很大的影響力，而如果是以大模型為主，對于CUDA的依賴就越來越小了。

總而言之，重視軟件配適開發(fā)至關重要。

對于建立國產(chǎn)IT系統(tǒng)的行動建議包括：設置合理國產(chǎn)系統(tǒng)及芯片性能要求和驗證目的，從非關鍵應用開始嘗試導入部分國產(chǎn)芯片；加強軟件配適開發(fā)，確保軟件對不同系統(tǒng)的兼容性、穩(wěn)定性和運營性能；建立加強對國內(nèi)基礎IT軟硬件廠商的投資，確保廠商對產(chǎn)品開發(fā)計劃的影響力；優(yōu)先考慮國內(nèi)供應鏈和成熟平臺，積極采用半導體創(chuàng)新技術。

登入后，方可留言>>

行業(yè)動態(tài)

芯馳科技亮相日本名古屋汽車工程展覽會，與知名車企深度交流

我國互聯(lián)網(wǎng)發(fā)展多項指標全球領先

中興通訊金篆數(shù)據(jù)庫GoldenDB蟬聯(lián)銀行本地部署市場第一

熱讀文章

苗圩出席統(tǒng)籌推進疫情防控和產(chǎn)業(yè)轉(zhuǎn)型升級促進制造業(yè)通信業(yè)穩(wěn)定發(fā)展發(fā)布會

一圖讀懂2020年《政府工作報告》

工業(yè)富聯(lián)：擬7763萬美元收購鴻海精密美國子公司相關資產(chǎn)