想要做AI就繞不開英偉達?這種情況或將被改寫
英偉達獨霸時代結束了?在醞釀數年后,微軟的人工智能芯片或將在下個月露面。
10月6日,媒體援引知情人士消息稱,微軟計劃在下個月的年度開發者大會上推出首款為人工智能設計的芯片,來降低成本并減少對英偉達的依賴。
報道稱,微軟芯片用于數據中心服務器,為訓練大語言模型(LLM)等軟件而設計,同時可支持推理,能為ChatGPT背后的所有AI軟件提供動力。
知情人士稱,微軟內部仍在爭論是否會將這款芯片提供給微軟Azure云客戶,不過如果微軟自研芯片亮相開發者大會,這表明其正在試圖吸引未來云客戶的興趣。
運行ChatGPT的微軟數據中心服務器目前用了上萬塊英偉達A100 GPU,為云客戶提供先進的LLM,包括OpenAI和Intuit,并支持微軟應用程序中的一些列人工智能功能。
微軟希望其Athena芯片能夠與英偉達供不應求的H100 GPU相媲美。 此前有消息爆出 ,微軟秘密組建的300人團隊,在2019年時就開始研發一款名為"雅典娜"(Athena)的定制芯片。今年開始,微軟加快了推出專為LLM設計的AI芯片的時間軸。
媒體分析指出,在谷歌、微軟和亞馬遜的芯片大戰中,微軟一直處在落后的位置,在推出Athena后,微軟將基本趕上亞馬遜和谷歌。
想逐步擺脫英偉達?
為了發展ChatGPT,微軟已經搶購了不少GPU,隨著算力需求的增加,微軟在后續或許需要更多的芯片支持。如果一如既往地購買英偉達GPU,這對微軟來說將是一筆昂貴的支出,于是,對于微軟的自研AI芯片市場上出現了更多探討。
根據最初的計劃,“雅典娜”會使用臺積電的5nm工藝打造,預計可以將每顆芯片的成本降低1/3。如果在明年能夠大面積實裝,微軟內部和OpenAI的團隊便可以借助「雅典娜」同時完成模型的訓練和推理。這樣一來,就可以極大地緩解專用計算機緊缺的問題。
據報道,微軟認為自己的 AI 芯片并不能直接替代英偉達的芯片,但隨著微軟繼續推動在Bing、Office、GitHub和其他地方推出AI 驅動的功能,自研芯片可能會大幅削減成本。
研究公司 SemiAnalysis 的分析師Dylan Patel指出,如果Athena具有競爭力,與英偉達的產品相比,它可以將每芯片的成本降低三分之一。
OpenAI:這兩家,我都不想要
對于OpenAI來說,能同時減少對微軟和英偉達芯片的依賴,顯然是最好的。
據OpenAI網站上的幾則招聘信息顯示,公司正在招聘能夠幫助其評估和共同設計AI硬件的人員。路透社也報道,OpenAI正在計劃下場生產自己的AI芯片。此前,CEO Sam Altman曾將獲得更多AI芯片作為公司的首要任務。
一方面,OpenAI所需的GPU十分短缺,另外,運行這些硬件時產生的成本「令人瞠目結舌」。如果算力成本一直居高不下,長遠來看于整個AI行業來說可能并不是一個好消息。
畢竟如果掘金的「鏟子」賣的比金子本身都貴,那么還會有人去做挖金子的人嗎?
根據Stacy Rasgon的分析,ChatGPT每次查詢大約需要4美分。如果ChatGPT的查詢量增長到谷歌搜索規模的十分之一,那么就將需要價值約481億美元的GPU,并且每年需要價值約160億美元的芯片來維持運行。
目前還不清楚OpenAI是否會推進定制芯片的計劃。
據業內資深人士分析,這將是一項投資巨大的戰略舉措,其中每年的成本可能高達數億美元。而且,即使OpenAI將資源投入到這項任務中,也不能保證成功。除了完全的自研之外,還有一種選擇是像亞馬遜在2015年收購Annapurna Labs那樣,收購一家芯片公司。據一位知情人士透露,OpenAI已經考慮過這條路,并對潛在的收購目標進行了盡職調查。
但即使OpenAI繼續推進定制芯片計劃(包括收購),這項工作也可能需要數年時間。在此期間,OpenAI還是將依賴于英偉達和AMD等GPU供應商。
因為就算強如蘋果,在2007年收購了P.A. Semi和Intristy,到2010年推出第一款芯片A4,也經歷了3年的時間。而OpenAI,自己本身都還是一家初創公司,這個過程也許走得會更加艱難。而且英偉達GPU最重要的護城河,就是它基于CUDA的軟硬件生態的積累。
OpenAI不但要能設計出性能上不落后的硬件,還要在軟硬件協同方面趕超CUDA,絕對不是一件容易的事情。
但是,另一方面,OpenAI做芯片也有自己獨特的優勢。
OpenAI要做的芯片,不需要向其他巨頭推出的芯片一樣,服務于整個AI行業。他只需滿足自己對模型訓練的理解和需求,為自己定制化的設計一款AI芯片。這和谷歌、亞馬遜這種將自己的AI芯片放在云端提供給第三方使用的芯片會有很大的不同,因為幾乎不用考慮兼容性的問題。這樣就能在設計層面讓芯片能更高效地執行Transformer模型和相關的軟件棧。
而且,OpenAI在模型訓練方面的領先優勢和規劃,能讓它真正做到在未來把模型訓練相關的硬件問題,用自己獨家設計的芯片來解決。
不用擔心自己的芯片在「滿足自己需要」的性能上,相比與英偉達這樣的行業巨頭會有后發劣勢。
都是成本的問題
設計自己的AI芯片,與英偉達直接「剛正面」如此之難,為什么巨頭們還要紛紛下場?
最直接的原因就是,英偉達的GPU太貴了!
加上云提供商在中間還要再賺一筆。這樣,包括OpenAI在內,使用英偉達GPU+云提供商的基礎模型企業成本肯定居高不下。
有國外媒體算過這樣一筆賬:
現在,購買一個使用英偉達H100 GPU的人工智能訓練集群,成本約為10億美元,其FP16運算能力約為20 exaflops(還不包括對矩陣乘法的稀疏性支持)。而在云上租用三年,則會使成本增加2.5倍。
這些成本包括了集群節點的網絡、計算和本地存儲,但不包括任何外部高容量和高性能文件系統存儲。購買一個基于Hopper H100的八GPU節點可能需要花費近30萬美元,其中還包括InfiniBand網絡(網卡、電纜和交換機)的分攤費用。
同樣的八GPU節點,在AWS上按需租用的價格為260萬美元,預留三年的價格為110萬美元,在微軟Azure和谷歌云上的價格可能也差不多。
因此,如果OpenAI能夠以低于50萬美元的單價(包括所有成本)構建系統,那么它的成本將減少一半以上,同時還能掌握自己的「算力自由」。
將這些費用削減一半,在投入資源不變的情況下,OpenAI的模型規模就會擴大一倍;如果成本能夠減少四分之三,則翻四倍。在模型規模每兩到三個月翻倍的市場中,這一點非常重要。
所以長遠來看,也許任何一個有野心的AI大模型公司,都不得不面對的一個最基本問題就是——如何盡可能的降低算力成本。
而擺脫「金鏟子賣家」英偉達,使用自己的GPU,永遠都是最有效的方法。
