歲末年初,中國資本市場和AI以一種出人意料的方式被勾連起來:A股在2024年最后一個交易日和2025年前三個交易日持續下跌,同時中國一個以較低成本達到與硅谷最先進AI幾乎同樣效果的全新大模型橫空出世,而其脫胎于被指責對股市下跌推波助瀾的量化私募基金之一。
2024年12月26日,中國AI初創企業DeepSeek(深度求索)官方微信公眾號推文稱,旗下全新系列模型DeepSeek-V3首個版本上線并同步開源,其為自研MoE模型,671B參數,激活37B,在14.8T token上進行了預訓練;DeepSeek-V3多項評測成績超越了Qwen2.5-72B和Llama-3.1-405B等其他開源模型,并在性能上和世界頂尖的閉源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。
該模型一經發布可謂震撼了整個AI圈,在硅谷掀起的討論度甚至高過國內。谷歌前CEO埃里克·施密特(Eric Schmidt)近期在訪談中表示:“中國現在手握兩款看起來是史上最強的AI模型,而且它們是完全開源的,一個是超級強大的問題求解器,另一個是大語言模型,在某些情況下它與Llama-3的4000億參數效果相當甚至更勝一籌,這讓我很震驚,之前我一直以為他們在這方面落后了兩三年,現在看來只落后了不到一年。”他明確指出DeepSeek就是中國正在快速追趕美國領先AI模型的一個最新例證。
可能同樣令施密特震驚的是,DeepSeek這家公司成立的時間不到兩年,且未如月之暗面、智譜AI、Minimax等一眾AI初創公司一樣“投靠”大廠。根據企查查的數據,DeepSeek由幻方量化創始人梁文鋒牽頭創立于2023年7月,是一家通用人工智能模型AGI研發商,專注于開發先進的大語言模型(LLM)和相關技術,以滿足人工智能領域的各種需求。
眾所周知,大模型是一個極其“燒錢”的游戲,但梁文鋒曾在接受“暗涌Waves”采訪時表示,大模型業務短期內沒有融資計劃,面臨的問題從來不是錢,而是高端芯片的獲取問題。
幻方量化為中國量化私募巨頭,旗下包含浙江九章資產和寧波幻方量化兩家公司,分別成立于2015年和2016年,公司管理規模在2021年時曾達到千億元,最新管理規模已降到200~300億元,據業內人士透露這也是其主動控制規模的一個結果。至于控制規模是因基金管理人的能力遇到瓶頸還是由于公司創始人希望將更多精力投入到AI領域,則不得而知。
從公開信息來看,幻方量化與深度求索之間并無直接的股權關系,兩家公司各自在獨立運營和發展。不過,早在2023年4月,幻方量化就宣布成立新組織,集中資源和力量,探索AGI的本質,并稱多年以來該公司堅持把營收的大部分投入人工智能領域,建設領先的AI硬件基礎設施,進行大規模的研究,探索人類未知的奧秘,這足以表明深度求索是幻方量化直接孵化出來的一家AI公司,而兩家公司共同的創始人梁文鋒則發揮著關鍵的橋梁作用。
在被問及為何一家量化私募要入局大模型時,梁文鋒表示,“我們做大模型,其實跟量化和金融都沒有直接關系,當時我們嘗試了很多場景,最終切入了足夠復雜的金融,而通用人工智能可能是下一個最難的事之一,所以對我們來說,這是一個怎么做的問題,而不是為什么做的問題。過去很多年,中國公司習慣了別人做技術創新,我們拿過來做應用變現,但這并非是一種理所當然。這一波浪潮里,我們的出發點,就不是趁機賺一筆,而是走到技術的前沿,去推動整個生態發展。”
DeepSeek-V3除了令硅谷大佬側目,其領先性還被獨立評測網站Artificial Analysis“蓋章認證”。Artificial Analysis對DeepSeek-V3就質量、價格、性能等關鍵指標與其他人工智能模型進行對比后得出了結論:“DeepSeek-V3模型超越了迄今為止發布的所有開放權重模型,并且擊敗了OpenAI的GPT-4o(8月),并接近Anthropic的Claude 3.5 Sonnet(10月)。目前唯一仍然領先于DeepSeek的模型是谷歌的Gemini 2.0 Flash和OpenAI的o1系列模型。領先于阿里巴巴的Qwen2.5 72B,DeepSeek現在是中國的AI領先者。”
在殺入AI腹地之前,梁文鋒對AI確實鐘情已久。在幻方量化的官網首頁C位有一句話:“使用AI進行投資的對沖基金”。從2019年開始,幻方量化更是加大投資于深度學習訓練平臺,先后推出了“螢火一號”和“螢火二號”,前者投資2億元,搭載了1100塊GPU,后者于2021年推出時將投入增加到10億元,搭載了約1萬張英偉達A100顯卡,這也是當時最先進的GPU之一。到2022年,OpenAI發布了ChatGPT的公開測試版本,掀開AI新篇章,也給擁有較強算力儲備和技術平臺的幻方帶來了抓住這波AI熱潮的最佳機遇。
如果說算力儲備讓幻方對國內大模型玩家擁有一定優勢,那么基于算法優化的訓練成本優勢或是其在迎戰國際領先玩家時的主要殺手锏。
在DeepSeek研究團隊同步公開的技術論文中,一個細節引發廣泛關注:DeepSeek-V3整個訓練過程僅用了不到280萬個GPU小時,按每GPU小時2美元計算,模型全部訓練成本僅為557.6萬美元(約4000萬元人民幣),這一成本不到Llama-3405B超6000萬美元訓練成本的十分之一,幾乎是GPT-4o訓練成本的二十分之一(據Anthropic CEO達里奧·阿莫迪不久前透露的數據,GPT-4o訓練成本約為1億美元)。
Meta的AI研究科學家田淵棟稱,DeepSeek“在非常有限的預算下實現強勁表現,這是一項了不起的工作”。
這一成本優勢在2024年5月發布DeepSeek-V2開源模型時就已初步展露:DeepSeek-V2 的推理成本僅為每百萬tokens 1元,遠低于Llama370B和GPT-4 Turbo等。而最新面世的DeepSeek-V3的API定價進一步下降,輸入每百萬tokens 0.5元(緩存命中)/2元(緩存未命中),輸出每百萬tokens 8元,性價比不僅進一步碾壓美國領先AI模型,且在價格戰已烽煙四起的國產模型中也相當有競爭力。
目前來看,DeepSeek在邁向“國產大模型之光”的路途上,主要挑戰除了梁文鋒直言的“高端芯片的獲取問題”,可能還有量化私募在國內所受的毀遠大于譽的境況。有市場人士質疑,如此強大的模型是否會變成資本市場上更鋒利的鐮刀?但反過來說,如果投資者確實被量化“收割”,可能也是在以另一種方式在推動中國AI的發展。(財富中文網)