在上周,DeepSeek開源了五個代碼庫,這些代碼庫不是大模型本身,而是大模型運行所需要的構架內容——這是之前預告過的內容,五天分別開源五個用來優化大模型效率的庫。不過到了上周六,來了個意外驚喜,他們公布了V3/R1模型運行的成本利潤率,理論上可以高達545%,這給業界驚訝的同時,也難免讓人聯想,為什么會額外公布這方面的信息呢?
因為在公布這篇內容的時候,DeepSeek專門注冊了一個官方知乎賬號,而就在之前,國內一家從事大模型云服務的公司潞晨科技,這家公司的老板尤洋公開在知乎發布長文炮轟maas(模型即服務)在中國市場跑不通,DeepSeek的模式一個月要虧幾個億。
DeepSeek公布成本利潤率是否是對炮轟言論的一種回復,我們不得而知。但是面對這篇內容,這位來自于伯克利的高材生顯然有些破大防,不僅攻擊其他友商,而且還說出了一些非常匪夷所思的話,比如說指責DeepSeek沒有感恩之心之類的話,隨后還宣布停止DeepSeek的模型服務,雖然后續也有一貫的刪文道歉,但是觀感上實在是很糟糕。并且這家公司還被扒出之前曾經涉嫌盜用代碼等問題。
其實這個事情背景并不復雜,V3/R1模型爆火之后,各家云服務廠商都在自家平臺上線了模型,國內各路大模型云服務的使用率飆升,這當然是好事,可是定價卻有點麻煩了。一下子爆發出的藍海市場競爭激烈,家大業大的云服務巨頭可以短時間免費,哪怕是較小的云服務廠商,也選擇了和DeepSeek官方一樣的定價,因為V3/R1模型的復雜性,以這個價格運行是否能賺錢,確實是個很看技術水平的事情。
至于尤洋的伯克利身份,這個倒是不必過多糾結,畢竟DeepSeek在MOE(專家混合模型)領域的優化設計,大概率是世界第一,美國人的高等學府比不上倒也正常。
簡單的介紹一下,MOE模型和普通的大模型的區別在于,當遇到一個token的時候,MOE模型只會激活其中的一部分參數,也就是其中的一個小模型,這類模型模型雖然可能會占據更多的內存,但是優勢在于,進行大規模并行推理服務的時候MOE的并行能力更加優秀,所以大廠為外界提供服務的模型往往是這類模型,而單純的密集模型,更適合部署在本地。
比起目前世界上公開的其他同類模型,DeepSeek的模型更加復雜,類似的模型往往是幾個類似的小模型堆在一起,而V3/R1有大量大小不一的模型,是目前開源模型之中最復雜的MOE,考慮成本上的優勢,美國大廠閉源的那些模型里也很難有超過它的,在這方面的設計,確實可以說是世界第一。
甚至有一種猜想,是DeepSeek的技術人員先設計出了這一套高效運行的構架,在這個基礎上才才開發出了V3/R1。
因為DeepSeek的復雜設計,如何高效部署模型無疑是個挑戰,讓很多工作者都掉了不少頭發,DeepSeek以極具開源精神的方式,公布了運行的多個關鍵代碼庫,這樣透徹的開源,全球是獨一家的,從這個角度來說,全球大模型行業中,DeepSeek無疑是對開源社區最有感恩精神的了。
而潞晨科技的業務除了提供服務器之外,很大程度還要提供大模型運行的構架,當開源的構架比他們自研版本都好的時候,確實就被砸到了飯碗,后面如何回答投資人的質問就很有挑戰性了。
在之前文里我們提到過,在大模型時代,互聯網的開源精神受到了沖擊,除了扎克伯格的llama之外,美國的AI大廠幾乎不進行開源。OpenAI變成了closeai,馬一龍雖然日常攻擊OpenAI,但是Grok開源了早期型號之后,后續依然沒有開源。
相反,國內企業的開源倒是一直很有精神,不說DeepSeek,阿里的qwen系列一直在各路開源榜單上霸榜,騰訊混元開源了他們的混元模型,階躍星辰開源了多個多模態,minimax開源了線性注意力的模型,哪怕是之前認為開源沒有前途的百度,也宣布即將開源多個模型。相比之下,美國的大廠雖然各個表示受到了震撼,但是依然不改,OpenAI的奧特曼可是在2023年底就承諾2024要開源一些有價值的東西,然而他還是鴿了。
很多人會感慨美國企業是否失去了開源精神,但是筆者對此倒是有其他的理解,那就是關于大模型這筆經濟賬,到底應該怎么算的問題。這或許也是尤洋陷入迷茫的重要原因。在大模型之前的時代,有很多開源項目,是由大廠進行,并且不收費的。那么這些硅谷大廠是否是大善人呢?雖然確實還有點開源精神,但是更大的價值在于,通過免費推廣自家的產品,來建立標準,這背后往往會有更大的利益。
Deepseek選擇開源,應該也有這方面的考慮,不過這估計很有挑戰,一來是標準的確立和運行,需要時間,二來是美國對于中國開源模型的阻礙,三來是DeepSeek的思路確實天馬行空,其他人能不能跟得上不好說,比如說在這次開源的代碼庫中,有一個叫做是flashMLA的,就是優化DeepSeek v2和v3的MLA框架效率,但是按照DeepSeek公布的新研究,他們下一代的構架很可能就不是這個,而是叫做NSA的構架,這二者能不能融合,融合之后是什么樣的,是個很難說的事情。
但是到了大模型時代,通過開源獲得更多收益的思路為什么不太行了呢?因為大模型的開發成本太高了,按照硅谷標準,當下頂級的大模型開發成本是十億美元級別的,如果考慮數據中心建設成本還會更高,下一代模型規劃的成本已經到達了百億美元級別。硅谷各家企業的技術路線雖然有所不同,但是堆卡都搞的挺猛的,在這種情況,如果開源,如何回收成本呢?
雖然智算算力當然是個好東西,可是這樣堆卡的路線,恐怕并非是唯一解。我們看到馬斯克堆了二十萬張卡的Grok3雖然有了提升,但是很難說是否有性價比,而GPT4.5的token價格則是離譜到了抽象的地步,而很多傳言告訴我們,OpenAI的很多訂閱服務是要倒貼錢的。
這也是之前DeepSeek沖擊美國AI市場的一個邏輯,雖然美國的AI大廠依然可以靠財力支持堆卡,但是如果性能領先的優勢是如此之小,那么又應該靠什么方式才能收回前期巨額投資的成本呢?要知道,當下美國AI市場,數據中心的投資回報率和資產折舊率,如果不是有AGI這塊大餅畫著,很難有人認為這是一個有價值的投資。雖然美股市場肯定會保證AI巨頭們暫時不爆炸,但是DeepSeek代表中國AI向美國業界提出的質問,并沒有消失。
因為現實條件的限制,我國的AI企業,則是選擇了不太一樣的路線,在成本控制上做出了很多努力,在去年上半年開始,國內AI企業進入了價格戰之后,各方的成本優化進步了很多,并且很多廠商可以保持不錯的利潤率。而這樣的模式繼續發展,導向又會是什么呢?
其實很多從業者已經提出了一個可能性,未來的大模型會作為一種社會基礎設施,就像是自來水和電力一樣。他們沒有高額的利潤,但是依靠這些模型誕生的種種應用,會有更大的價值。這樣的模式,聽起來似乎比賽博朋克的世界線好不少,但是這恐怕并不符合硅谷AI人的想象。
過去幾年,我們看到硅谷諸位AI大佬吹捧的模式里,AI似乎更類似某種神秘的工具,能提供壟斷式的利潤,而他們可以賺的盆滿缽滿,在他們的眼里,似乎賽博朋克式的世界觀并不是什么壞事。再考慮到這幫人士和黑暗啟蒙右翼之間的關系,這想一想就讓人腦仁疼。而最近不約而同的,OpenAI和Anthropic的老板都開始吹大語言模型能讓人長生不老,也不知道是要給特朗普獻上長生不老藥,還是要轉移熱點。
雖然在如此復雜的技術領域話題,筆者并不喜歡誰戰勝誰,誰領先誰多少年的說法,但筆者還是要說,AI作為某種未來的基礎設施來推進社會運行,似乎比賽博朋克巨企壟斷的世界觀要好上不少。如果可能的話,我們還是不要進入賽博朋克式世界觀比較好,反烏托邦只停留在小說和游戲里邊就得了,我們又不是大名鼎鼎的V,沒必要真的去夜之城。這或許也是我國人工智能企業開源的意義之一了。
回到潞晨科技,其實類似的問題不光是陷入AI競賽的云服務企業,而是整個云服務企業的挑戰。過去的十年,云服務是十分關鍵的熱點,但是云服務這事,巨頭總是有很大的優勢,這是個贏者通吃的行業,巨頭砸錢擴張乃是常態。
人工智能的云服務也是如此,DeepSeek的moe模型就是典型的越多人用效率越高的那種,雖然545%這個數據是理想情況,實際利潤率是明顯低于這個水平的,但是DeepSeek高負載帶來的高效率確實是小的云服務商難以做到的。在這種情況下,較小的AI云服務提供商,確實有很多需要思考的東西,如何做出特色,在全新的競爭之中存活下來,這可能是比攻擊友商更有價值的事情。
回到尤洋先生的問題,在討論這件事情的時候,有人會討論尤洋先生愛國不愛國,他在這次關于DeepSeek和攻擊友商的發言確實十分奇異搞笑,但是問題的關鍵也不是愛國不愛國這么簡單。
尤洋后續在小紅書上的陰陽怪氣和找補
在GhatGPT橫空出世之后,國內的輿論場無疑很混亂,其中人工智能從業人士的發言很是有趣,雖然有很多理性的人工智能從業者冷靜的分析了相關的內容,但是也有一部分人工智能從業者對國內發表了比現在的尤洋還陰陽怪氣冷嘲熱諷得多的言論。
現在兩年多過去,我們可以理性一點來說,人工智能技術很有價值,但是并沒有那么夸張的價值,人工智能技術存在門檻,但是也沒有那么夸張,對人工智能進行船貨崇拜,是一種非常非常無趣的行為。
程序員群體的立場一直很復雜,但是當我們討論一個群體的立場時,就不能單純用心理學那一套。長期以來,國內學計算機的主要理想之一就是去硅谷大廠就業,畢竟有更高的待遇和更體面的地位;而要搞個什么項目,往往也是參考美國那邊開源的東西;各種論文研究,也確實是美國占了大頭。
這種情況下,對美國的研究有光環實在是人之常情。從這個角度來說,我們也可以理解部分程序員對美國的崇拜和對中國的偏見。在技術上有建樹,不代表對于各方面事務都有深刻的理解,相反,他們的看法可能會更加幼稚,相信最近大企業家馬斯克先生的各種表演,已經告訴了大家這一點。
當然,事情正在起變化。雖然硅谷人工智能熱度很高,但是現在去硅谷就業的難度大了不少,特朗普先生推進的各項事業,肯定會加劇對華人的歧視。而且在大語言模型領域的開源方面,中國企業和開發者做出了比美國同行更多的貢獻。或許很多之前陷入某種偏見的程序員,可以回頭看一看自己的觀點是否有些偏見了?
在一個更公平的世界中,這些偏見或許從一開始就不應該形成,而不是需要靠DeepSeek他們去打破。之前梁文峰談論創新的時候就說到,中國人是有能力創新的,但是很多從業者和投資者不相信。很顯然,這樣的思想鋼印已經嚴重背離了現實,已經成為當下創新的阻礙。DeepSeek團隊并沒有什么在國外大廠工作的人,這種本土化是十分難得的,也告訴我們有些思想鋼印到了必須被打破的時候了。
人工智能技術的發展無疑是剛剛起步,中國人肯定會在這方面有很多的貢獻,我們沒理由因為美國人做不到,就覺得中國人也一定做不到,用這套邏輯去衡量國內這些新一代的技術工作者非常不公平。這完全不是科學,而是某種宗教。新的時代,我們已經不再需要這樣的宗教,不是嗎?
「 支持烏有之鄉!」
您的打賞將用于網站日常運行與維護。
幫助我們辦好網站,宣傳紅色文化!
歡迎掃描下方二維碼,訂閱烏有之鄉網刊微信公眾號
