英偉達(dá)新“王炸” 未發(fā)先難產(chǎn)
繼B200/GB200芯片交付推遲后,王炸英偉達(dá)或又面臨新品難產(chǎn)的英偉問題。
12月24日,達(dá)新據(jù)Wccftech報道,先難英偉達(dá)最新旗艦芯片B300/GB300的王炸參數(shù)已經(jīng)確認(rèn)。其中B300的英偉顯存規(guī)格從上代產(chǎn)品的192Gb提升至288Gb;GB300平臺將首次使用LPCAMM內(nèi)存模塊設(shè)計,并配備帶寬提升至1.6Tbps的達(dá)新光模塊,以確保數(shù)據(jù)高速傳輸。先難
在性能大幅提升的王炸同時,B300/GB300的英偉功耗也被拉到史無前例的高度,TDP(熱設(shè)計功耗)達(dá)到1400W。達(dá)新作為對比,先難Hopper架構(gòu)的王炸拳頭產(chǎn)品H100芯片,其TDP為350W。英偉
這對于服務(wù)器的達(dá)新散熱設(shè)計來說,無疑是個巨大的挑戰(zhàn)。
而就在上周,天風(fēng)國際分析師郭明錤在研報中表示,英偉達(dá)在為B300/GB300開發(fā)測試DrMos技術(shù)時,發(fā)現(xiàn)芯片存在嚴(yán)重的過熱問題,這可能會影響B(tài)300/GB300的量產(chǎn)進(jìn)度。
盡管黃仁勛此前曾多次表示,英偉達(dá)未來將嚴(yán)格遵循“一年一換代”的原則,但旗下GPU在改用Blackwell架構(gòu)后,不止一次出現(xiàn)“跳票”的情況。
Blackwell架構(gòu),真有問題?
在郭明錤發(fā)布的研報中,指出了B300/GB300目前面臨的問題:由AOS(Alpha & Omega Semiconductor)公司提供的5*5 DrMos方案在測試中過熱。
先來說說DrMos是什么。
這是英特爾在2004年推出的技術(shù),主要原理是將驅(qū)動器和MOS集成在一起,以減小多個元件的空間占用以及降低寄生參數(shù)帶來的負(fù)面影響,從而提升轉(zhuǎn)換效率和功率密度。
簡單地來說,它就是一個高度集成的電源解決方案。
消費級顯卡RTX3060上的DrMos,由AOS供應(yīng)
在英偉達(dá)Hooper架構(gòu)芯片上,包括H100/A100/H800/A800在內(nèi),其DrMos方案全部由MPS(Monolithic Power Systems)供應(yīng),可能是基于“不把雞蛋放在同一個籃子”的原則,在Blackwell架構(gòu)芯片上,英偉達(dá)開始測試AOS的方案。
那是否能說明,AOS應(yīng)該為B300芯片的過熱問題“背鍋”呢?
恐怕并不能。
首先,AOS的5*5 DrMos芯片是一款散熱能效高,且十分成熟的方案設(shè)計,這在行業(yè)內(nèi)已經(jīng)得到廣泛驗證。
其次,郭明錤的財報中也提到了,有產(chǎn)業(yè)鏈人士指出,B300的發(fā)熱問題除了DrMos芯片本身之外,還源于系統(tǒng)芯片管理的設(shè)計不足。
這已經(jīng)不是Blackwell第一次被曝出存在設(shè)計問題。
今年8月,據(jù)《The Information》報道,B200在臺積電流片過程中,發(fā)現(xiàn)設(shè)計存在缺陷。
起初業(yè)內(nèi)認(rèn)為可能是臺積電的N4P制程工藝存在問題,但在與高盛的投資人溝通會中,黃仁勛說出了問題所在:由于GPU芯片、LSI橋、RDL中介層和主板基板之間的熱膨脹特性不匹配,導(dǎo)致封裝結(jié)構(gòu)出現(xiàn)彎曲。
“100%是英偉達(dá)的責(zé)任。”
在芯片設(shè)計被曝出缺陷后,B200/GB200芯片的交付時間從今年3季度被推遲至4季度。而且從實際情況來看,現(xiàn)階段仍沒有公司拿到B200芯片,從公開資料中得知,馬斯克憑借10.8億美元的訂單,獲得了B200芯片的優(yōu)先交付權(quán),這些芯片將被用于增強(qiáng)xAI的超級計算集群Colossus。
而即便是獲得優(yōu)先交付權(quán)xAI,也得等到明年1月份才能收到B200芯片。
回到B300芯片上,這是一枚原定在明年3月GTC大會上發(fā)布的旗艦產(chǎn)品,現(xiàn)在卻面臨“未發(fā)布先難產(chǎn)”的問題。
完全壟斷AI服務(wù)器芯片的英偉達(dá),為什么會在Blackwell上一再翻車。
一個很重要的原因是,英偉達(dá)過于追求芯片性能上斷代領(lǐng)先,從而導(dǎo)致Blackwell系列芯片作為量產(chǎn)型產(chǎn)品,幾乎變成一個實驗性平臺。
比如CoWoS-L封裝技術(shù)的應(yīng)用。
這里需要說一個背景是,Blackwell是一枚基于MCM(多芯片封裝)設(shè)計的GPU,即在同一個芯片上集成兩顆GPU die。
為了配合英偉達(dá)的需求,臺積電方面首次將CoWoS-L技術(shù)應(yīng)用在這枚芯片的封裝上。而在此之前,CoWoS-L封裝也沒有經(jīng)過大規(guī)模驗證。
有業(yè)內(nèi)人士指出,CoWoS-L封裝現(xiàn)階段的良率可能在90%左右,作為一項后段工藝,這個數(shù)字很不理想。
需求是否過于樂觀?
在Blackwell架構(gòu)芯片推出后,知名華爾街投行Keybanc Capital Markets曾發(fā)出了一份預(yù)測:
“Blackwell芯片將推動英偉達(dá)數(shù)據(jù)中心業(yè)務(wù)的收入,從2024財年(截至2024年1月)的475億美元增長到2025年的2000多億美元。”
眾所周知,在大模型的訓(xùn)練與部署中,英偉達(dá)的GPU居功至偉,但BlackWell架構(gòu)芯片真的能憑一己之力帶動業(yè)績翻倍上漲嗎?
即便忽略掉B200/B300的延期交付問題,僅從市場需求來看,可能并不是特別的樂觀。
對于各大互聯(lián)網(wǎng)公司來說,一個首當(dāng)其沖的問題是,如果大規(guī)模引入基于Blackwell芯片的服務(wù)器,那么算力中心的建設(shè)成本將會被大大提高。
因為B200芯片高達(dá)1000W的TDP實際上已超過了傳統(tǒng)風(fēng)冷散熱的極限,許多服務(wù)器廠商為了解決散熱問題,不得以堆砌3D VC(真空腔均熱板)的數(shù)量和面積,由此導(dǎo)致在42U的標(biāo)準(zhǔn)服務(wù)器機(jī)柜中,可容納的芯片越來越少。
而到了B300芯片上,風(fēng)冷散熱方案無論如何修修補(bǔ)補(bǔ)都無法壓住1400W的功耗,必須全面改用液冷。
但對于已經(jīng)搭建好計算中心的廠商而言,改用液冷會導(dǎo)致其成本驟增。比如在傳統(tǒng)服務(wù)器機(jī)房中在搭建時都會對空調(diào)系統(tǒng)進(jìn)行重點設(shè)計,一些大型計算中心的空調(diào)系統(tǒng)可以支持0°以下的送風(fēng)。
如果改用液冷,則意味著在加入配套基礎(chǔ)設(shè)施的同時,過去花大價錢打造的空調(diào)系統(tǒng)淪為閑置。
另外就是服務(wù)器本身的價格問題?,F(xiàn)階段,一組基于GB200的AI服務(wù)器根據(jù)帶寬配置的差異,定價約在200-300萬美元之間,而如果這些服務(wù)器全部基于GB300改用液冷方案,價格甚至可能會翻倍。
還有一個很重要的問題是,市場對于最先進(jìn)GPU的需求是否強(qiáng)烈?
就在12月14日的NeurIPS大會上,OpenAI聯(lián)合創(chuàng)始人Ilya Sutskever)表示,大模型預(yù)訓(xùn)練即將結(jié)束,因為AI的化石燃料“數(shù)據(jù)”已經(jīng)用盡了。
如果Ilya的判斷沒有問題,一個顯而易見的轉(zhuǎn)變將是大模型的研究重心將從訓(xùn)練轉(zhuǎn)向推理,在這樣的背景下,雖然英偉達(dá)Blackwell系列芯片具備強(qiáng)大的“訓(xùn)推一體”能力,但有多少廠商未來愿意持續(xù)性地高成本投入,還有待觀察。