作者:Carl Franzen;編譯:深潮 TechFlow
就在幾天前,只有最專業的極客們(作為其中一員,我這樣說)才聽說過 DeepSeek,這是一家中國 AI 公司,是同樣具有獨特名字的 High-Flyer Capital Management(一家于 2015 年成立的量化分析公司)的子公司。然而在過去的幾天里,它可能成為了硅谷最受關注的公司。
這主要歸功于 DeepSeek-R1 的發布,這是一個新的大語言模型(LLM),它能夠進行類似于 OpenAI 當前最佳模型 o1 的“推理”——在回答困難問題和解決復雜問題時需要花費數秒或數分鐘,通過步驟式或“思維鏈”的方式對自身的分析進行反思。
不僅如此,DeepSeek-R1 在各種第三方基準測試(用于測量 AI 在各種主題上回答問題的性能的測試)中的得分與 OpenAI 的 o1 持平或更高,而且據報道其訓練成本僅為約 500 萬美元,使用的圖形處理器(GPU)數量也遠遠少于美國(OpenAI 的大本營)嚴格禁運的數量。
但與 o1 不同的是,o1 只向付費的 ChatGPT Plus 級別訂閱者(每月 20 美元)和更高級別的訂閱者(如每月 200 美元的 Pro 級別)開放,而 DeepSeek-R1 是作為完全開源模型發布的,這也解釋了為什么它迅速攀升至 AI 代碼共享社區 Hugging Face 最受歡迎和最活躍模型的榜首。
而且,由于它是完全開源的,人們已經對該模型進行了多種微調和訓練,以適應不同的特定任務,比如使其小到可以在移動設備上運行,或者與其他開源模型結合使用。即使你想將其用于開發目的,DeepSeek 的 API 成本也比 OpenAI 的同等 o1 模型低 90%?以上。
最令人印象深刻的是,你甚至不需要是軟件工程師就能使用它:DeepSeek 為美國用戶提供了免費的網站和移動應用,其 R1 驅動的聊天機器人界面與 OpenAI 的 ChatGPT 非常相似。不過,DeepSeek 再次通過將這個強大的推理模型與網絡搜索連接起來超越了 OpenAI——這是OpenAI目前還沒有實現的(網絡搜索目前只在功能較弱的GPT系列模型上可用)。
考慮到 OpenAI 最初致力于為大眾民主化 AI 的目標,這里存在著一個相當有趣,或者說令人不安的諷刺。正如 Nvidia 高級研究經理 Jim Fan 在 X 上所說:“我們正生活在這樣一個時間線里:一家非美國公司正在延續著 OpenAI 的原始使命——真正開放的前沿研究,賦能所有人。這說不通。但最有趣的結果往往就是最可能發生的。”
又如 X 用戶@SuspendedRobot 所說(引用了有關 DeepSeek 似乎是在 ChatGPT 生成的問答輸出和其他數據上訓練的報道):“OpenAI 從整個互聯網竊取數據來讓自己變得更富有,而 DeepSeek 從他們那里竊取后又免費回饋給大眾,這讓我想起了一個英國民間故事?!?/p>
但不只是 Fan 注意到了 DeepSeek 的成功?;谖遗c各種工程師、思想家和領導者的交談和閱讀,DeepSeek-R1 的開源可用性、其高性能表現,以及它似乎“突然冒出來”就挑戰了前生成式 AI 領導者的事實,在整個硅谷及其他地方引起了震動。如果不是像我夸張的標題所說的“所有人”都在為之瘋狂,它至少是科技和商業圈子里的熱門話題。
一條發布在 Blind(硅谷匿名八卦分享應用)上的消息正在廣泛傳播,暗示 Meta 因 DeepSeek 的成功而陷入危機,因為它如此迅速地超越了 Meta 自身通過 Llama 模型成為開源 AI 之王的努力。
X 用戶@tphuang 發表了令人信服的觀點:“DeepSeek 已經在最頂級之外實現了 AI 的商品化。第一張圖片讓我豁然開朗。R1 比美國的勞動力成本低得多,這意味著未來 5 年內許多工作將被自動化取代?!彼髞磉€指出了為什么 DeepSeek 的 R1 比 OpenAI 的 o1 對用戶更具吸引力:
“o1 有 3 個巨大問題:
1) 太慢
2) 太貴
3) 最終用戶缺乏控制權/過度依賴 OpenAI。
R1 解決了所有這些問題。公司可以購買自己的 Nvidia GPU 來運行這些模型,不用擔心額外成本或 OpenAI 服務器反應慢/不響應的問題。”
@tphaung 還提出了一個發人深省的類比問題:“DeepSeek 會成為 LLM 領域的 Android 嗎?”
網絡企業家 Arnaud Bertrand 在 X 上直言不諱地談到了 DeepSeek 成功的驚人影響:“這對整個游戲規則的改變程度怎么強調都不過分。這不僅關系到 AI,也是對美國試圖阻止中國技術發展這一誤導性嘗試的巨大諷刺,如果沒有這種限制,DeepSeek 可能就不會出現(正如諺語所說,需求是發明之母)。”
然而,也有人對 DeepSeek 的快速崛起提出警告,認為作為一家在中國運營的初創公司,它必然要遵守該國的法律和內容審查要求。事實上,在我本人在美國使用 iOS 版 DeepSeek 時就發現,它不會回答某些問題。
作為新聞媒體的一員,我當然非常重視言論和表達自由,這是我堅定支持的最基本的理念之一。
然而,我也不得不指出,OpenAI 的模型和產品(包括 ChatGPT)同樣會拒絕回答一系列問題——特別是涉及人類性行為和成人/NSFW 內容的問題,即使這些問題很普通。
當然,這不是一個完全對等的比較。對某些人來說,對依賴外國技術的抵觸會讓他們對 DeepSeek 的最終價值和實用性持懷疑態度。但其性能和低成本是無可否認的。
在美國 16.5% 的商品都從中國進口的時代,我很難僅僅基于審查擔憂或安全風險來警告不要使用 DeepSeek-R1——特別是當模型代碼可以免費下載、離線使用、在安全環境中設備上運行,并且可以隨意微調的情況下。
我確實察覺到圍繞 DeepSeek 的熱烈討論中有一些關于“西方衰落”和“中國崛起”的存在主義危機思維。有人已經將此與美國用戶在 TikTok 短暫被禁時加入小紅書(Xiaohongshu)App 的情況聯系起來,當時他們對在那里分享的視頻中展示的中國生活質量感到驚訝。DeepSeek-R1 的出現就發生在這樣的敘事背景下——在這個背景下,中國看起來(且在許多指標上確實)正在崛起,而美國看起來(且在許多指標上也確實)在衰落。
這也不會是最后一個威脅硅谷巨頭主導地位的中國 AI 模型——即使這些巨頭像OpenAI一樣,正在為其開發通用人工智能(AGI,即在大多數具有經濟價值的工作中超越人類的程序)籌集比以往更多的資金。
就在昨天,另一個來自 TikTok 母公司字節跳動的中國模型——Doubao-1.5-pro發布,其在第三方基準測試中的表現與 OpenAI 的非推理型 GPT-4o 模型相當,但成本僅為后者的 1/50。
中國模型發展得如此之快、如此之好,以至于連科技行業之外的人也注意到了:《經濟學人》雜志剛剛發表了一篇關于 DeepSeek 的成功和其他中國 AI 努力的文章,政治評論員 Matt Bruenig 在 X 上發文稱:“我已經使用 Gemini、ChatGPT 和 Claude 進行 NLRB 文檔總結將近一年了。Deepseek 在這方面比它們都要好。它的聊天機器人版本是免費的。使用其 API 的價格比 OpenAI 的 API 低 99.5%。[聳肩表情]”
難怪 OpenAI 聯合創始人兼 CEO Sam Altman 今天表示,公司將把尚未發布的第二代推理模型系列 o3 引入 ChatGPT,甚至免費用戶也可以使用。OpenAI 似乎仍在通過更專有和先進的模型開辟自己的道路——設定行業標準。
但問題在于:隨著 DeepSeek、字節跳動和其他中國 AI 公司緊隨其后,OpenAI 還能在制作和發布新的前沿 AI 模型方面保持領先多久?如果它真的落后了,其衰落會有多快、多嚴重?
不過,OpenAI 確實有另一個歷史先例可以借鑒。如果 DeepSeek 和中國 AI 模型確實像谷歌的開源 Android 之于移動領域那樣——在一段時間內占據了市場的大部分份額——你只需要看看蘋果 iPhone 是如何通過其封閉、專有、全內部的方法占據了市場的高端部分,并從那里穩步向下擴張,特別是在美國,以至于現在擁有近 60% 的國內智能手機市場份額。
盡管如此,對于所有正在花大價錢使用領先實驗室 AI 模型的人來說,DeepSeek 表明,相同的功能可能以更低的價格獲得,并且能獲得更大的控制權。在企業環境中,這可能足以贏得勝利。