作者:Zeke,YBB Capital;翻譯:0xjs@喜來順財經(jīng)
2 月 16 日,OpenAI 宣布推出名為“Sora”的最新文生視頻生成式擴散模型,憑借其在各種視覺數(shù)據(jù)類型上生成高質(zhì)量視頻的能力,標志著生成式AI的另一個里程碑。與 Pika 等從多個圖像生成幾秒鐘視頻的 AI 視頻生成工具不同,Sora 在視頻和圖像的壓縮潛在空間中進行訓練,將它們分解為時空補丁,以生成可擴展的視頻。此外,該模型展示了模擬物理和數(shù)字世界的能力,其 60 秒的演示被描述為“物理世界的通用模擬器”。
Sora延續(xù)了以往GPT模型中“源數(shù)據(jù)-Transformer-Diffusion-emergence”的技術(shù)路徑,表明其發(fā)展成熟度也依賴于算力。鑒于視頻訓練所需的數(shù)據(jù)量比文本更大,其對計算能力的需求預計將進一步增加。然而,正如我們之前的文章《潛力行業(yè)前瞻:去中心化算力市場》中所討論的那樣,算力在AI時代的重要性已經(jīng)被探討,隨著AI的日益普及,眾多算力項目應運而生,惠及DePIN項目(存儲、計算能力等),它們的價值激增。除了 DePIN之外,本文旨在更新和完善過去的討論,思考Web3和AI交織可能產(chǎn)生的火花以及AI時代這一賽道中的機會。
AI是一門旨在模擬、延伸和增強人類智能的新興科學技術(shù)。自20世紀50年代和60年代誕生以來,AI已經(jīng)發(fā)展了半個多世紀,現(xiàn)已成為推動社會生活和各行業(yè)變革的關(guān)鍵技術(shù)。在此過程中,符號主義、聯(lián)結(jié)主義、行為主義三大研究方向的交織發(fā)展,為當今人工智能的快速發(fā)展奠定了基礎。
符號主義也稱為邏輯主義或基于規(guī)則的推理,認為通過符號的處理來模擬人類智能是可行的。這種方法使用符號來表示和操縱問題域內(nèi)的對象、概念及其關(guān)系,并采用邏輯推理來解決問題。符號主義取得了巨大的成功,特別是在專家系統(tǒng)和知識表示方面。符號主義的核心思想是智能行為可以通過符號的操縱和邏輯推理來實現(xiàn),其中符號代表了現(xiàn)實世界的高級抽象。
或稱為神經(jīng)網(wǎng)絡方法,旨在通過模仿人腦的結(jié)構(gòu)和功能來實現(xiàn)智能。該方法構(gòu)建由許多簡單處理單元(類似于神經(jīng)元)組成的網(wǎng)絡,并調(diào)整這些單元(類似于突觸)之間的連接強度以促進學習。連接主義強調(diào)從數(shù)據(jù)中學習和概括的能力,使其特別適合模式識別、分類和連續(xù)輸入輸出映射問題。深度學習作為聯(lián)結(jié)主義的演變,在圖像識別、語音識別、自然語言處理等領域取得了突破。
行為主義與仿生機器人和自主智能系統(tǒng)的研究密切相關(guān),強調(diào)智能體可以通過與環(huán)境的交互來學習。與前兩者不同,行為主義并不注重模擬內(nèi)部表征或思維過程,而是通過感知和行動的循環(huán)來實現(xiàn)適應性行為。行為主義認為,智能是通過與環(huán)境的動態(tài)交互和學習來體現(xiàn)的,這使得它對于在復雜和不可預測的環(huán)境中運行的移動機器人和自適應控制系統(tǒng)特別有效。
這三個研究方向雖然存在根本差異,但在AI的實際研究和應用中可以相互作用、相互融合,共同推動人工智能領域的發(fā)展。
AIGC的爆炸性發(fā)展領域代表了聯(lián)結(jié)主義的演變和應用,能夠通過模仿人類創(chuàng)造力來生成新穎的內(nèi)容。這些模型使用大型數(shù)據(jù)集和深度學習算法進行訓練,學習數(shù)據(jù)中的底層結(jié)構(gòu)、關(guān)系和模式。根據(jù)用戶提示,它們生成獨特的輸出,包括圖像、視頻、代碼、音樂、設計、翻譯、問題答案和文本。目前,AIGC基本上由三個要素組成:深度學習、大數(shù)據(jù)和海量計算能力。
深度學習是機器學習的一個子領域,它采用模仿人腦神經(jīng)網(wǎng)絡的算法。例如,人腦由數(shù)百萬個相互連接的神經(jīng)元組成,它們一起工作來學習和處理信息。同樣,深度學習神經(jīng)網(wǎng)絡(或人工神經(jīng)網(wǎng)絡)由在計算機內(nèi)協(xié)同工作的多層人工神經(jīng)元組成。這些人工神經(jīng)元(稱為節(jié)點)使用數(shù)學計算來處理數(shù)據(jù)。人工神經(jīng)網(wǎng)絡利用這些節(jié)點通過深度學習算法解決復雜問題。
神經(jīng)網(wǎng)絡分為層:輸入層、隱藏層和輸出層,參數(shù)連接不同層。
輸入層:神經(jīng)網(wǎng)絡的第一層,負責接收外部輸入數(shù)據(jù)。輸入層中的每個神經(jīng)元對應于輸入數(shù)據(jù)的一個特征。例如,在處理圖像數(shù)據(jù)時,每個神經(jīng)元可能對應于圖像的一個像素值。
隱藏層:輸入層處理數(shù)據(jù)并將其進一步傳遞到網(wǎng)絡中。這些隱藏層在不同級別處理信息,在接收新信息時調(diào)整其行為。深度學習網(wǎng)絡有數(shù)百個隱藏層,可以從多個角度分析問題。例如,當呈現(xiàn)需要分類的未知動物的圖像時,你可以通過檢查耳朵形狀、腿數(shù)量、瞳孔大小等將其與你已經(jīng)知道的動物進行比較。深度神經(jīng)網(wǎng)絡中的隱藏層以類似的方式工作方式。如果深度學習算法嘗試對動物圖像進行分類,每個隱藏層都會處理動物的不同特征并嘗試對其進行準確分類。
輸出層:神經(jīng)網(wǎng)絡的最后一層,負責生成網(wǎng)絡的輸出。輸出層中的每個神經(jīng)元代表一個可能的輸出類別或值。例如,在分類問題中,每個輸出層神經(jīng)元可能對應一個類別,而在回歸問題中,輸出層可能只有一個神經(jīng)元,其值代表預測結(jié)果。
參數(shù):在神經(jīng)網(wǎng)絡中,不同層之間的連接由權(quán)重和偏差表示,它們在訓練過程中進行優(yōu)化,以使網(wǎng)絡能夠準確識別數(shù)據(jù)中的模式并做出預測。增加參數(shù)可以增強神經(jīng)網(wǎng)絡的模型能力,即學習和表示數(shù)據(jù)中復雜模式的能力。然而,這也增加了對計算能力的需求。
為了進行有效的訓練,神經(jīng)網(wǎng)絡通常需要大量、多樣化、高質(zhì)量和多源的數(shù)據(jù)。它構(gòu)成了訓練和驗證機器學習模型的基礎。通過分析大數(shù)據(jù),機器學習模型可以學習數(shù)據(jù)中的模式和關(guān)系,從而實現(xiàn)預測或分類。
神經(jīng)網(wǎng)絡多層結(jié)構(gòu)復雜,參數(shù)眾多,大數(shù)據(jù)處理要求,迭代訓練方式(訓練時模型需要反復迭代,涉及到每一層的前向和后向傳播計算,包括激活函數(shù)計算、損失函數(shù)計算、梯度計算和權(quán)重更新)、高精度計算需求、并行計算能力、優(yōu)化和正則化技術(shù)以及模型評估和驗證過程共同導致了高計算能力的需求。
作為 OpenAI 最新的視頻生成 AI 模型,Sora 代表了人工智能處理和理解多樣化視覺數(shù)據(jù)的能力的重大進步。通過采用視頻壓縮網(wǎng)絡和時空補丁技術(shù),Sora 可以將全球范圍內(nèi)不同設備捕獲的海量視覺數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的表示形式,從而實現(xiàn)對復雜視覺內(nèi)容的高效處理和理解。利用文本條件擴散模型,Sora 可以生成與文本提示高度匹配的視頻或圖像,展現(xiàn)出高度的創(chuàng)造力和適應性。
然而,盡管Sora在視頻生成和模擬現(xiàn)實世界交互方面取得了突破,但它仍然面臨一些局限性,包括物理世界模擬的準確性、生成長視頻的一致性、理解復雜的文本指令以及訓練和生成的效率。本質(zhì)上,Sora通過OpenAI的壟斷算力和先發(fā)優(yōu)勢,延續(xù)了“大數(shù)據(jù)-Transformer-Diffusion-emergence”的老技術(shù)路徑,實現(xiàn)了一種蠻力美學。其他人工智能公司仍然有通過技術(shù)創(chuàng)新實現(xiàn)超越的潛力。
雖然Sora與區(qū)塊鏈的關(guān)系并不大,但相信未來一兩年,由于Sora的影響力,其他優(yōu)質(zhì)的AI生成工具將會出現(xiàn)并迅速發(fā)展,沖擊各個Web3領域如GameFi、社交平臺、創(chuàng)意平臺、Depin等。因此,對Sora有一個大致的了解是必要的,未來AI如何與Web3有效結(jié)合是一個重點考慮的問題。
正如前面所討論的,我們可以理解生成式AI所需的基本要素本質(zhì)上有三重:算法、數(shù)據(jù)和計算能力。另一方面,考慮到其普遍性和產(chǎn)出效果,AI是一種徹底改變生產(chǎn)方式的工具。同時,區(qū)塊鏈最大的影響是雙重的:重組生產(chǎn)關(guān)系和去中心化。
因此,我認為這兩種技術(shù)的碰撞可以產(chǎn)生以下四種路徑:
如前所述,本節(jié)旨在更新計算能力格局的狀態(tài)。談到AI,計算能力是不可或缺的一個方面。Sora的出現(xiàn),讓原本難以想象的AI對算力的需求凸顯出來。近日,在2024年瑞士達沃斯世界經(jīng)濟論壇期間,OpenAI首席執(zhí)行官Sam Altman公開表示,算力和能源是當前最大的制約因素,暗示它們未來的重要性甚至可能等同于貨幣。隨后,2月10日,Sam Altman在推特上宣布了一項令人震驚的計劃,將籌集7萬億美元(相當于2023年中國GDP的40%)來徹底改革當前的全球半導體產(chǎn)業(yè),旨在打造一個半導體帝國。我之前對算力的思考僅限于國家封鎖和企業(yè)壟斷;一家公司想要主宰全球半導體行業(yè)的想法確實很瘋狂。
因此,去中心化計算能力的重要性是不言而喻的。區(qū)塊鏈的特性確實可以解決當前計算能力極度壟斷的問題,以及與獲取專用 GPU 相關(guān)的昂貴成本的問題。從AI需求的角度來看,算力的使用可以分為推理和訓練兩個方向。專注于訓練的項目還很少,因為去中心化網(wǎng)絡需要集成神經(jīng)網(wǎng)絡設計,對硬件要求極高,是一個門檻較高、實施難度較大的方向。相比之下,推理相對簡單,因為去中心化網(wǎng)絡設計沒有那么復雜,對硬件和帶寬的要求也較低,是更主流的方向。
中心化算力市場想象空間廣闊,常常與“萬億級”關(guān)鍵詞聯(lián)系在一起,也是AI時代最容易炒作的話題。然而,縱觀最近出現(xiàn)的眾多項目,大多數(shù)似乎都是利用趨勢的考慮不周的嘗試。他們經(jīng)常高舉去中心化的旗幟,但卻避免討論去中心化網(wǎng)絡的低效率。另外,設計同質(zhì)化程度很高,很多項目非常相似(一鍵L2加挖礦設計),最終可能會導致失敗,很難在傳統(tǒng)AI競賽中占據(jù)一席之地。
機器學習算法是那些可以從數(shù)據(jù)中學習模式和規(guī)則,并根據(jù)它們做出預測或決策的算法。算法是技術(shù)密集型的,因為其設計和優(yōu)化需要深厚的專業(yè)知識和技術(shù)創(chuàng)新。算法是訓練人工智能模型的核心,定義了如何將數(shù)據(jù)轉(zhuǎn)化為有用的見解或決策。常見的生成式 AI 算法包括生成對抗網(wǎng)絡 (GAN)、變分自編碼器 (VAE) 和 Transformers,每種算法都是針對特定領域(例如繪畫、語言識別、翻譯、視頻生成)或目的而設計的,然后用于訓練專門的 AI模型。
那么,這么多的算法和模型,各有千秋,是否有可能將它們整合成一個通用的模型呢?Bittensor是最近備受關(guān)注的一個項目,它通過激勵不同的AI模型和算法相互協(xié)作和學習,從而創(chuàng)建更高效 、更有能力的AI模型,從而引領了這個方向。其他專注于這個方向的項目包括Commune AI(代碼協(xié)作),但算法和模型對于AI公司來說是嚴格保密的,不容易共享。
因此,AI協(xié)作生態(tài)系統(tǒng)的敘述新穎而有趣。協(xié)作生態(tài)系統(tǒng)利用區(qū)塊鏈的優(yōu)勢來整合孤立的AI算法的劣勢,但是否能夠創(chuàng)造相應的價值還有待觀察。畢竟,擁有自主算法和模型的領先AI公司,擁有強大的更新、迭代和集成能力。例如,OpenAI 在不到兩年的時間內(nèi)從早期的文本生成模型發(fā)展到多領域生成模型。像 Bittensor 這樣的項目可能需要在其模型和算法目標領域探索新路徑。
從簡單的角度來看,利用隱私數(shù)據(jù)來喂養(yǎng)AI和注釋數(shù)據(jù)是與區(qū)塊鏈技術(shù)非常吻合的方向,主要考慮的是如何防止垃圾數(shù)據(jù)和惡意行為。此外,數(shù)據(jù)存儲可以使 FIL 和 AR 等 DePIN項目受益。從更復雜的角度來看,使用區(qū)塊鏈數(shù)據(jù)進行機器學習來解決區(qū)塊鏈數(shù)據(jù)的可訪問性是另一個有趣的方向(Giza 的探索之一)。
理論上,區(qū)塊鏈數(shù)據(jù)是隨時可訪問的,反映了整個區(qū)塊鏈的狀態(tài)。然而,對于區(qū)塊鏈生態(tài)系統(tǒng)之外的人來說,訪問這些大量數(shù)據(jù)并不簡單。存儲整個區(qū)塊鏈需要豐富的專業(yè)知識和大量的專業(yè)硬件資源。為了克服訪問區(qū)塊鏈數(shù)據(jù)的挑戰(zhàn),行業(yè)內(nèi)出現(xiàn)了多種解決方案。例如,RPC 提供商通過 API 提供節(jié)點訪問,索引服務使通過 SQL 和 GraphQL 進行數(shù)據(jù)檢索成為可能,在解決該問題方面發(fā)揮了至關(guān)重要的作用。然而,這些方法都有其局限性。RPC服務不適合需要大量數(shù)據(jù)查詢的高密度用例,往往無法滿足需求。同時,盡管索引服務提供了一種更加結(jié)構(gòu)化的數(shù)據(jù)檢索方式,但 Web3 協(xié)議的復雜性使得構(gòu)造高效查詢變得極其困難,有時需要數(shù)百甚至數(shù)千行復雜代碼。這種復雜性對于一般數(shù)據(jù)從業(yè)者和那些對 Web3 細節(jié)了解有限的人來說是一個重大障礙。這些限制的累積效應凸顯了需要一種更易于訪問和利用的方法來獲取和利用區(qū)塊鏈數(shù)據(jù),這可以促進該領域更廣泛的應用和創(chuàng)新。
因此,將ZKML(零知識證明機器學習,減輕鏈上機器學習的負擔)與高質(zhì)量的區(qū)塊鏈數(shù)據(jù)相結(jié)合,可能會創(chuàng)建解決區(qū)塊鏈數(shù)據(jù)可訪問性的數(shù)據(jù)集。AI可以顯著降低區(qū)塊鏈數(shù)據(jù)的訪問障礙。隨著時間的推移,開發(fā)人員、研究人員和機器學習愛好者可以訪問更多高質(zhì)量、相關(guān)的數(shù)據(jù)集,以構(gòu)建有效和創(chuàng)新的解決方案。
自2023年ChatGPT3爆發(fā)以來,AI對Dapp的賦能已經(jīng)成為一個非常普遍的方向。廣泛適用的生成式人工智能可以通過API集成,從而簡化和智能化數(shù)據(jù)平臺、交易機器人、區(qū)塊鏈百科全書和其他應用程序。另一方面,它還可以充當聊天機器人(如 Myshell)或 AI 伴侶(Sleepless AI),甚至可以使用生成式 AI 在區(qū)塊鏈游戲中創(chuàng)建 NPC。但由于技術(shù)門檻較低,大多數(shù)只是集成API后的調(diào)整,與項目本身的集成并不完善,因此很少被提及。
但隨著Sora的到來,我個人認為AI對GameFi(包括元宇宙)和創(chuàng)意平臺的賦能將是未來的重點。鑒于Web3領域自下而上的性質(zhì),它不太可能生產(chǎn)出可以與傳統(tǒng)游戲或創(chuàng)意公司競爭的產(chǎn)品。然而,Sora的出現(xiàn)可能會打破這一僵局(也許只需兩到三年)。從Sora的演示來看,它有與短劇公司競爭的潛力。Web3活躍的社區(qū)文化還可以催生出大量有趣的想法,當唯一的限制就是想象力時,自下而上的行業(yè)與自上而下的傳統(tǒng)行業(yè)之間的壁壘將被打破。
隨著生成式人工智能工具的不斷發(fā)展,未來我們將見證更多突破性的“iPhone時刻”。盡管人們對AI與Web3的整合持懷疑態(tài)度,但我相信目前的方向基本上是正確的,只需要解決三個主要痛點:必要性、效率和契合度。雖然這兩者的融合還處于探索階段,但并不妨礙這條路徑成為下一次牛市的主流。
對新事物保持足夠的好奇心和開放的態(tài)度是我們的基本心態(tài)。從歷史上看,從馬車到汽車的轉(zhuǎn)變是瞬間解決的,正如銘文和過去的 NFT 所顯示的那樣。持有太多偏見只會導致錯失機會。