“蘋果砍掉造車項目,核心團隊轉向人工智能?!?/p>
這是上周車圈,乃至整個科技圈最炸裂的新聞。
馬斯克表示“salute”,賈躍亭覺得“是個大錯誤”,李想認為“完全正確”,雷軍則深表“震驚”。
不過,就在大家都在為蘋果砍掉造車項目感到震驚時,或許更應該被關注的是后者。
作為擁有萬億市值的全球科技巨頭,蘋果一直都不是新技術的創(chuàng)造者,但卻往往能成為新規(guī)則的制定者,這就是過往這半個世紀蘋果展現出的魔力。
這次,“后知后覺”的蘋果,也要開始重金投入生成式AI了。
實際上,在經歷了這幾年的狂熱后,生成式AI正在撬動整個科技產業(yè)的底層邏輯,例如芯片。
倘若生成式AI是未來的必然,是否應該為全新的計算模式設計一顆配套芯片?
于是,在谷歌主導了TPU項目研發(fā)的Jonathon Ross,于2016年從谷歌離職創(chuàng)業(yè),開始專心做這樣一顆AI芯片。
八年后,一次偶然的機會,這顆芯片得到了全世界的關注。
01
谷歌造芯計劃
談起AI,曾經的谷歌,是商業(yè)帝國中當之無愧的霸主。
這是因為谷歌起家的主業(yè)——搜索業(yè)務,對人工智能技術一直有著很高的需求。
從這一點上來看,作為中國搜索領域*霸主的百度,也或多或少借鑒了谷歌的發(fā)展經驗,不僅在2017年的首屆AI開發(fā)者大會上喊出“All in AI”,還從AI芯片、AI算法、AI硬件,一路干到了大模型。
近幾年,百度還將一手培養(yǎng)起來的NLP專家王海峰,提拔到了百度CTO的位置上。
谷歌是在2016年由剛剛上任CEO不久的Sundar Pichai提出的“AI First”戰(zhàn)略。
在此之前,谷歌雖然奉行的是“Mobile First”戰(zhàn)略,但由于搜索、云計算,以及一些創(chuàng)新業(yè)務對AI的迫切需求,谷歌一直在向AI領域追加投入。
甚至在2014年砸了6億美元,收購了一家名為DeepMind的英國人工智能創(chuàng)業(yè)團隊。
值得注意的是,這個團隊在2010年成立時,創(chuàng)始人Demis Hassabis提出的*目標,就是要。
而谷歌動為人工智能,或者說當時很時髦的機器學習算法研發(fā)一顆芯片的想法其實要更早,可以追溯到2006年。
起因依然是谷歌核心業(yè)務對AI算法的強需求,當然還有另一個重要原因是,云計算技術這一年在谷歌內部業(yè)務上開始被使用。
而究其根源,實際上是谷歌大量互聯網業(yè)務對“日益增長的服務器算力資源需求”與“服務器算力資源無法滿足谷歌業(yè)務需求”之間的矛盾。
怎么解決這一矛盾?
好的算法谷歌自然不缺,畢竟有那么多優(yōu)秀的軟件工程師,然而,要想解決上面這一問題,*的方法還是軟硬一體,也就是蘋果那套玩法。
既然如此,那就別糾結了,開干吧。
谷歌是在2014年完成這顆芯片研發(fā)的,并為這顆基于ASIC架構開發(fā)的AI加速專用處理器取了一個還不錯的名字——TPU,張量處理器。
這顆芯片在研發(fā)成功后,直接被應用到了谷歌的數據中心中,用上TPU的谷歌數據中心被Sundar Pichai稱為“AI First數據中心”。
這樣的數據中心,具體有怎樣的AI表現呢?
以前文提到被谷歌收購的DeepMind研發(fā)出曾轟動一時的AlphaGo為例:
2015年10月,AlphaGo擊敗歐洲圍棋冠軍,當時背后支撐AlphaGo的算力是由1202塊CPU+176塊GPU提供;
2016年3月,AlphaGo擊敗世界圍棋冠軍李世石,當時背后支撐AlphaGo的算力則是由50塊TPU提供;
2017年5月,AlphaGo擊敗世界圍棋冠軍柯潔,當時背后支撐AlphaGo的算力已經是由4塊TPU提供。
由此可見,TPU對于機器學習算法,尤其是機器學習中的推理有多重要。
Jonathon Ross,正是谷歌TPU項目的主要設計者之一。
不過,就在谷歌TPU研發(fā)完成后,Jonathon Ross也從谷歌離職開始創(chuàng)業(yè),并在投資人的幫助下,將谷歌TPU初創(chuàng)團隊10人中的8人拉到了他的新團隊中。
這位眼光毒辣的投資人是Chamath Palihapitiya。
02
八位“叛逃者”
Palihapitiya被視為是硅谷最耿直的年輕一代投資人,他是在2014年年底一次會議上聽說谷歌在搞TPU。
當時他還在想,谷歌難不成要和英特爾、高通、英偉達這樣的芯片巨頭競爭?
當時離谷歌TPU正式對外發(fā)布還有兩年,市面上只有傳言,沒有實證。
在幾經調查后,Palihapitiya在一定程度上驗證了自己的猜想,并最終有了另外一個大膽的想法——找到這個團隊的核心成員,搞一個AI芯片的創(chuàng)業(yè)項目。
作為一位頗具資源的投資人,他最擅長的就是找人,不過,為了找出谷歌TPU核心團隊人員名單,他還是花了將近一年半的時間。
之后,就有了Jonathon Ross在內的谷歌TPU團隊8位核心員工的離職組建新團隊。
新團隊名為Groq。
雖然頂著“谷歌TPU核心團隊”的光環(huán),但在Groq最初成立的幾年里,團隊一直比較低調,也沒有弄出像DeepMind團隊AlphaGo這樣的大動靜。
媒體上對它的報道也都浮于表象,只是說它籌集了1000萬美元,在Delaware州注冊了公司,好像是在搞AI芯片。
CNBC在2017年找到Palihapitiya求證此事時,Palihapitiya也只是用“現在談具體細節(jié)還為時尚早”搪塞了過去。
不過,他還是確認了這個團隊確實在研發(fā)AI芯片,一種被稱作“下一代芯片”,“可以讓 Facebook、亞馬遜、特斯拉等公司利用機器學習做一些以前做不到的事情的芯片?!?/p>
這顆芯片真正炸場是在全球經歷了百模大戰(zhàn)后,就在前不久谷歌和OpenAI掰手腕時,每秒能輸出超500個token的Groq意外走紅。
從響應速度上來看,Groq比OpenAI的GPT-4和谷歌的Gemini快了10-18倍。
不過,對話內容的質量還是不如GPT-4和Gemini。
Groq響應速度之所以這么快,正是因為使用了自研的GroqChip,這也是一個名為LPU的新型處理器。
其實GroqChip實現的理論基礎,Groq團隊在2020年發(fā)表的一篇論文中有提到,即TSP架構。
Groq在2022年的另一篇論文中又著重介紹稱,這種架構更適用于大規(guī)模機器學習。
彼時,百模大戰(zhàn)還未正式開啟,Jonathon Ross很可能也沒想過Groq會在兩年后因為大模型火遍全球。
不過,這不是關鍵。
關鍵在于,Groq不是一個計算密集型處理器,而是一個訪存密集型處理器。
03
芯片戰(zhàn)前傳
在講計算密集型處理器與訪存密集型處理器有何不同之前,我們先來聊一聊另一個古老的故事。
2023年10月,在夏威夷的驍龍峰會上,手機處理器巨頭高通在發(fā)布會上一反常態(tài),花大篇幅講了一顆PC芯片的故事。
這不是高通*次向PC芯片大佬英特爾發(fā)起挑戰(zhàn),雖然前幾次戰(zhàn)況慘烈,高通都未能如愿在主流PC市場打起多少水花。
但這次有了蘋果這個攪局者,讓高通有了更多信心。
實際上,作為芯片領域霸主,英特爾的隱患自其出生以來,就一直存在。
這和英特爾當時的一個選擇有關。
1968年7月,硅谷“八叛徒”中的兩位——Robert Noyce和Gordon Moore從仙童半導體“叛逃”,創(chuàng)立了英特爾公司,并開始開展他們的芯片設計宏圖大業(yè)。
英特爾初入市場時,復雜指令集是當時設計芯片*主流范式,沒得選的英特爾就開始使用復雜指令集設計芯片。
大約是在英特爾成立十年后,一種名為精簡指令集被IBM研究中心John Cocke提出,后經時任斯坦福大學校長的John Hennessy寫進了美國大學的計算機課本。
RISC一經提出,學術界一致認為RISC處理器要好于CISC處理器。
RISC處理器不僅解決了CISC處理器設計復雜,實現同樣性能需要更高集成度的問題,還一定程度上避免了由此帶來的功耗問題。
從技術實現上來看,也確實如此。
彼時,基于RISC處理器設計的工作站,運行速度普遍快于基于CISC處理器設計的工作站,而且是肉眼可見的差距。
然而,當時英特爾在CISC處理器上已經有了十年的技術積累,轉向RISC處理器就意味著要放棄這樣的技術積累和好不容易構建起的市場優(yōu)勢。
幾經斟酌后,英特爾選擇了“逆技術潮流而行”,依然采用CISC設計處理器,這樣也保持了前向兼容。
英特爾之所以敢這么做,很大一個原因是當時RISC陣營沒有出現像ARM這樣強勁的對手。
英特爾最后也確實賭贏了。
前谷歌高級研究員吳軍曾指出,英特爾之所以能贏得這場戰(zhàn)爭有幾個原因:
*,英特爾堅持自己系列產品的兼容性,積累了軟件生態(tài);
第二,英特爾利用規(guī)模優(yōu)勢,大強度投入研發(fā),英特爾每款處理器的研發(fā)投入都高于當時市面上任意一款RISC處理器的投入;
第三,英特爾曾研發(fā)過兩款RISC處理器,但用戶依然選擇了英特爾的CISC處理器,事實證明,用戶對兼容性比對性能要求更高;
第四,RISC處理器陣營當時沒有像樣的對手。
總結而言,“英特爾不是靠技術,而是靠市場打贏了這場戰(zhàn)爭?!?/p>
然而,在PC市場敗北,并沒有影響RISC處理器的崛起,后來高通和ARM的出現,以及移動互聯網的來臨,讓基于ARM架構的RISC處理器最終成了智能手機的核心。
高通在智能手機市場一騎絕塵后,也開始試探性地進攻PC市場,例如2018年推出驍龍8cx系列處理器,2019年推出驍龍7c、8c兩款處理器。
因為本質上,基于ARM架構的芯片確實有機會成為PC處理器。
不過,在和英特爾幾番交手后,高通最終沒討到什么好處,相關芯片后來也就不了了之。
然而,令英特爾沒有想到的是,2020年11月,蘋果基于ARM架構的M1芯片一經發(fā)布,徹底闖入了英特爾嚴防死守的腹地。
尤其是隨著蘋果Apple Silicon戰(zhàn)略的持續(xù)推進,蘋果在這一年后,逐漸為自家PC換上了自己的M系列芯片,這意味著全球至少有近10%的PC,將邁入遲來的RISC時代。
正因有了蘋果的勝利,高通才借著AI PC的新窗口期,重新打起了自己的小算盤。
也是在這時,在這個AGI新時代,芯片產業(yè)還有一個更大的潛在變量也在醞釀中。
04
“噩夢”的開始
什么是計算密集型?
計算密集型是指,算法模型的計算密度較大,算法模型訪存少而計算量大,性能受到處理器*計算峰值限制的計算類型。
什么是訪存密集型?
訪存密集型是指,算法模型的計算密度較小,算法模型訪存多而計算量少,性能受到處理器內存帶寬限制的計算類型。
由于網絡、硬件等在過去40年里一直保持著超高速發(fā)展,算力一直處于供不應求狀態(tài),計算密集型處理器也就成了主流。
然而,大模型的出現,改變了這一現狀。
在中,我們提到過:
如今的大模型追根溯源都是基于Transformer架構,作為自回歸模型,基于Transformer的AI模型生成每一個新token,都需要將所有輸入過的token計算一遍。
為了避免重復計算,在實際應用時,AI模型會將實際計算過的數據預存下來,這就導致這類模型對訪存的需求要求普遍會很高。
這就導致了現在基于傳統架構的計算密集型AI芯片難以滿足這樣的需求。
GroqChip,正是一款訪存密集型處理器。
Groq團隊解決當下大模型普遍遇到的“性能受到處理器內存帶寬限制”問題的方法,是換用低帶寬存儲器SRAM。
相較于GPU使用的高帶寬存儲器HBM,SRAM的運行速度至少要快20倍,從而大大提高了訪存帶寬。
這就是為什么Groq每秒能輸出超500個token的原因。
然而,由于GroqChip采用的SRAM帶寬只有230MB,實際上相當于是在用空間換時間。
前阿里技術副總裁賈揚清就曾指出,Groq在運行Llama-2 70B模型時,需要305張Groq卡才足夠,而用H100則只需要8張卡。從目前的價格來看,這意味著在同等吞吐量下,Groq的硬件成本是H100的40倍,能耗成本是10倍。
不過,可以看到的是,Groq只是在百模大戰(zhàn)正酣、AGI被提上日程的現在一次大膽的嘗試。
也可以說,Groq是芯片產業(yè)這場變革“噩夢”的開始。
接下來,將會有更多專為大模型設計的訪存密集型芯片出現。
不知道芯片巨頭們,準備好了嗎?
鄭重聲明:此文內容為本網站轉載企業(yè)宣傳資訊,目的在于傳播更多信息,與本站立場無關。僅供讀者參考,并請自行核實相關內容。