我們曾討論過AI和Web3能夠如何各取所長,在計算網絡、代理平臺和消費應用等各個垂直產業上相輔相成。當聚焦在數據資源這一垂直領域,Web新興代表項目為數據的獲取,共享和利用提供了新的可能性。
傳統數據提供商難以滿足AI和其他數據驅動產業對高質量、實時可驗證數據的需求,尤其在透明度、用戶控制和隱私保護方面存在局限
Web3方案正致力重塑數據生態。MPC、零知識證明和TLS Notary 等技術確保數據在多個來源之間流通時的真實性和隱私保護,分布式存儲和邊緣計算則為數據的實時處理提供了更高的靈活性和效率。
其中去中心化數據網絡這一新興基礎設施萌生了幾個代表性項目OpenLayer(模塊化的真實數據層),Grass(利用用戶閑置帶寬和去中心化的爬蟲節點網絡)和Vana(用戶數據主權Layer 1網絡),以不同的技術路徑為AI訓練和應用等領域開辟新的前景。
通過眾包的容量、無信任的抽象層和基于代幣的激勵機制,去中心化數據基礎設施能夠提供比Web2超大規模服務商更私密、安全、高效且經濟的解決方案,并且賦予用戶對其數據和其相關資源的控制權,構建一個更加開放、安全和互通的數字生態系統。
數據已成為各行業創新和決策的關鍵驅動。UBS預測全球數據量預計將在2020年至2030年間增長超過十倍達到660 ZB,到2025年,全球每人每天將產生463 EB(Exabytes,1EB=10億GB)的數據。數據即服務(DaaS)市場在快速擴張,根據Grand View Research的報告,全球DaaS市場在2023年的估值為143.6億美元,預計到2030年將以28.1%的復合年增長率增長,最終達到768億美元。這些高增長的數字背后是多個產業領域對高質量、實時可信賴數據的需求。
AI模型訓練依賴大量數據輸入,用于識別模式和調整參數。訓練后也需要數據集測試模型的性能和泛化能力。此外,AI agent作為未來可預見的新興智能應用形式, 需要實時可靠的數據源,以確保準確的決策和任務執行。
(Source: Leewayhertz)
商業分析的需求也在變得多樣和廣泛,并成為驅動企業創新的核心工具。比如社交媒體平臺和市場研究公司需要可靠的用戶行為數據來制定策略和洞察趨勢, 整合多個社交平臺的多元數據, 構建更全面的畫像。
對于Web3生態,鏈上也需要可靠真實數據來支持一些新型金融產品。隨著越來越多新型資產在被通證化,需要靈活且可靠的數據接口,以支持創新產品的開發和風險管理,讓智能合約可以基于可驗證的實時數據執行。
除了以上,還有科研,物聯網(IoT)等等。新用例表面各行業對于多樣、真實、實時的數據需求激增,而傳統系統可能難以應對快速增長的數據量和不斷變化的需求。
2.?傳統數據生態的局限性和問題
典型的數據生態系統包括數據收集、存儲、處理、分析和應用。中心化模式的特點是數據集中收集并存儲、由核心企業IT團隊管理運維, 并實施嚴格的訪問控制。
比如谷歌的數據生態系統涵蓋了從搜索引擎、Gmail到Android操作系統等多個數據源,通過這些平臺收集用戶數據, 存儲在其全球分布的數據中心, 然后使用算法處理和分析,以支撐各種產品和服務的開發與優化。
在金融市場里舉例,數據和基礎設施LSEG(前Refinitiv)則通過從全球交易所、銀行和其他主要金融機構獲取實時和歷史數據,同時利用自有的Reuters News網絡收集市場相關新聞,運用專有算法和模型生成分析數據和風險評估作為附加產品。
(Source: kdnuggets.com)
傳統數據架構在專業服務方面有效,但集中化模式的局限性日益明顯。特別是在新興數據源的覆蓋、透明度和用戶隱私保護方面,傳統數據生態系統正面臨挑戰。這里例舉幾個方面:
數據覆蓋不足:傳統數據提供商在快速捕捉和分析如社交媒體情緒、物聯網設備數據等新興數據源方面存在挑戰。中心化系統難以高效地獲取和整合來自眾多小規模或非主流來源的"長尾"數據。
比如2021年GameStop事件就揭示了傳統金融數據提供商在分析社交媒體情緒時的局限性。Reddit等平臺上的投資者情緒迅速改變了市場走勢,但像Bloomberg和Reuters這樣的數據終端未能及時捕捉到這些動態,導致市場預測滯后。
數據可訪問性受限:壟斷限制了可訪問性。許多傳統提供商通過API/云服務開放部分數據,但高昂的訪問費用和復雜授權流程仍然增加了數據整合的難度。
鏈上開發者難以快速接入可靠的鏈下數據,高質量數據被少數巨頭壟斷,訪問成本高。
數據透明度和可信度問題:許多中心化數據提供商對其數據收集和處理方法缺乏透明度,且缺乏有效的機制來驗證大規模數據的真實性和完整性。大規模實時數據的驗證仍然是一個復雜的問題, 中心化的本質也增加了數據被篡改或操縱的風險。
隱私保護和數據所有權:大型科技公司大規模商用了用戶數據。用戶作為私人數據的創造者,很難從中獲得應有的價值回報。用戶通常無法了解他們的數據如何被收集、處理和使用,也難以決定數據的使用范圍和方式。過度收集和使用也導致嚴重的隱私風險。
例如,Facebook的Cambridge Analytica事件就暴露了傳統數據提供商如何在數據使用透明度和隱私保護方面存在巨大漏洞。
數據孤島:此外,不同來源、格式的實時數據難以快速整合,影響了全面分析的可能性。很多數據往往被鎖在組織內部,限制了跨行業和跨組織的數據共享和創新,數據孤島效應阻礙了跨域的數據整合和分析。
比如在消費行業,品牌需要整合來自電商平臺、實體店、社交媒體和市場研究的數據,但這些數據可能由于平臺形式不統一或被隔離,難以整合。再例如,像Uber和Lyft這樣的共享出行公司,雖然它們都收集大量來自用戶的,關于交通、乘客需求和地理位置的實時數據,但由于競爭關系,這些數據無法提出并共享整合。
除此以外,還有成本效率、靈活性等問題。傳統數據商正在積極應對這些挑戰, ?但異軍突起的Web3技術為解決這些問題提供了新的思路和可能性。
自2014年IPFS(InterPlanetary File System)等去中心化存儲方案發布以來,業界涌現出一系列新興項目,致力于解決傳統數據生態的局限性。我們看到去中心化數據解決方案已經形成了一個多層次、相互連接的生態系統,涵蓋了數據生命周期的各個階段,包括數據生成、存儲、交換、處理與分析、驗證與安全,以及隱私與所有權。
數據存儲:Filecoin和Arweave的快速發展證明了去中心化存儲(DCS)正在成為存儲領域的范式轉變。DCS方案通過分布式架構減少了單點故障風險,同時以更具競爭力的成本效益吸引參與者。隨著一系列規模化應用案例的涌現,DCS的存儲容量呈現爆發式增長(例如Filecoin網絡的總存儲容量在2024年已達到22 exabytes)。
處理和分析:Fluence等去中心化數據運算平臺通過邊緣計算(Edge Computing)技術提高了數據處理的實時性和效率,特別適用于物聯網(IoT)和AI推理等對實時性要求較高的應用場景。Web3項目利用聯邦學習、差分隱私、可信執行環境、全同態加密等技術在計算層上提供靈活的隱私保護和權衡。
數據市場/交換平臺:為了促進數據的價值量化和流通,Ocean Protocol通過代幣化和DEX機制, 創建了高效且開放的數據交換渠道, 例如幫助傳統制造公司(奔馳母公司Daimler)合作開發數據交換市場,以幫助其供應鏈管理中的數據分享。另一方面,Streamr則創造了適用于IoT和實時分析場景的無許可、訂閱式數據流網絡,在交通、物流項目中顯示了出色的潛力(例如與芬蘭智能城市項目合作)。
隨著數據交換和利用的日益頻繁,數據的真實性、可信度和隱私保護成為了不可忽視的關鍵問題。這促使Web3生態系統將創新延伸到了數據驗證和隱私保護領域,催生了一系列突破性的解決方案。
許多web3技術及原生項目正致力于解決數據真實性和私有數據保護問題。除了ZK,MPC等技術發展被廣泛應用,其中傳輸層安全協議公證(TLS Notary)作為一種新興的驗證方法尤其值得關注。
TLS Notary簡介
傳輸層安全協議(TLS)是一種廣泛用于網絡通信的加密協議,旨在確保客戶端和服務器之間的數據傳輸的安全性、完整性和保密性。它是現代網絡通信中常見的加密標準,被用于HTTPS、電子郵件、即時通訊等多個場景。
(TLS加密原理, Source:TechTarget)
十年前誕生之際,TLS Notary的最初目標是通過在客戶端(Prover)、服務器以外引入第三方“公證人”來驗證TLS會話的真實性。
使用密鑰分割技術,TLS會話的主密鑰被分為兩部分,分別由客戶端和公證人持有。這種設計允許公證人作為可信第三方參與驗證過程,但不能訪問實際通信內容。這種公證機制旨在檢測中間人攻擊、防止欺詐性證書,確保通信數據在傳輸過程中沒有被篡改,并允許受信任的第三方確認通信的合法性,同時保護通信隱私。
由此,TLS Notary提供了安全的數據驗證,并有效平衡了驗證需求和隱私保護。
在2022年, TLS Notary項目由以太坊基金會的隱私和擴展探索(PSE)研究實驗室重新構建。新版本的TLS Notary協議從頭開始用Rust語言重寫, 融入了更多先進的加密協議(如MPC), 新的協議功能允許用戶向第三方證明他們從服務器接收到的數據的真實性,同時不泄露數據內容。在保持原有TLS Notary核心驗證功能的同時,大幅提升了隱私保護能力,使其更適合當前和未來的數據隱私需求。
近年TLS Notary技術也在持續演進,在基礎上發展產生了多個變體,進一步增強了隱私和驗證功能:
zkTLS:TLS Notary的隱私增強版本,結合了ZKP技術,允許用戶生成網頁數據的加密證明,而無需暴露任何敏感信息。它適用于需要極高隱私保護的通信場景。
3P-TLS (Three-Party TLS):引入了客戶端、服務器和審計者三方,在不泄露通信內容的情況下,允許審計者驗證通信的安全性。這一協議在需要透明度但同時要求隱私保護的場景中非常有用,如合規審查或金融交易的審計。
Web3項目們使用這些加密技術來增強數據驗證和隱私保護,打破數據壟斷,解決數據孤島和可信傳輸問題,讓用戶得以不泄露隱私地證明如社媒賬號擁有權、用以金融借貸的購物記錄,銀行信用記錄、職業背景和學歷認證等信息,比如:
Reclaim Protocol 使用zkTLS技術,生成HTTPS流量的零知識證明,允許用戶從外部網站安全導入活動、聲譽和身份數據,而無需暴露敏感信息。
zkPass 結合3P-TLS技術,允許用戶無泄露地驗證真實世界的私有數據,廣泛應用于KYC、信用服務等場景,并且與HTTPS網絡兼容。
Opacity Network 基于zkTLS,允許用戶安全地證明他們在各個平臺(如Uber、Spotify、Netflix等)的活動,而無需直接訪問這些平臺的API。實現跨平臺活動證明。
(Projects working on TLS Oracles, Source: Bastian Wetzel)
Web3數據驗證作為數據生態鏈條上的一個重要環節,應用前景十分廣闊,其生態的興榮正引導著一個更開放、動態和以用戶為中心的數字經濟。然而,真實性驗證技術的發展僅僅是構建新一代數據基礎設施的開始。
一些項目則結合上述的數據驗證技術,在數據生態的上游,即數據溯源、數據的分布式采集和可信傳輸上做出更深入的探索。下面重點討論幾個代表性項目:OpenLayer,Grass和Vana,它們在構建新一代數據基礎設施方面展現出獨特的潛力。
OpenLayer是a16z Crypto 2024春季加密創業加速器項目之一,作為首個模塊化的真實數據層,致力于提供一個創新的模塊化解決方案,用于協調數據的收集、驗證和轉換,以同時滿足Web2和Web3公司的需求。OpenLayer已吸引了包括Geometry Ventures、LongHash Ventures在內的知名基金和天使投資者的支持。
傳統數據層存在多重挑戰:缺乏可信驗證機制,依賴中心化架構導致訪問性受限,不同系統間的數據缺乏互操作性和流動性,同時也沒有公平的數據價值分配機制。
一個更加具象化的問題是,當今AI訓練數據正變得日益稀缺。在公共互聯網上,許多網站開始通過反爬蟲限制措施來防止AI公司大規模抓取數據。
而在私密專有數據方面,情況則更為復雜,許多有價值的數據由于其敏感性質而以隱私保護的方式存儲,缺乏有效的激勵機制。在這種現狀下,用戶無法安全地通過提供私人數據獲得直接收益,因此不愿意共享這些敏感數據。
為了解決這些問題,OpenLayer結合數據驗證技術搭建了一個模塊化真實數據層(Modular Authentic Data Layer),并以去中心化+經濟激勵的方式來協調數據收集、驗證和轉換過程,為Web2和Web3公司提供一個更安全、高效率、靈活的數據基礎設施。
OpenLayer提供了一個模塊化的平臺以簡化數據的收集、可信驗證和轉換過程流程:
a) OpenNodes
OpenNodes是OpenLayer生態系統中負責去中心化數據收集的核心組件,通過用戶的移動應用、瀏覽器擴展等渠道收集數據,不同的運營商/節點可以根據其硬件規格執行最適合的任務而優化回報。
OpenNodes支持三種主要的數據類型,以滿足不同類型任務的需求:
公開可用的互聯網數據(如金融數據、天氣數據、體育數據和社交媒體流)
用戶私人數據(如Netflix觀看歷史、Amazon訂單記錄等)
來自安全來源的自報告數據(如由專有所有者簽名或特定可信硬件驗證的數據)。
開發者可以輕松添加新的數據類型,指定新的數據源,需求和數據檢索方法, 用戶可以選擇提供去識別化的數據以換取獎勵。這種設計使得系統可以不斷擴展以適應新的數據需求,多樣化的數據源使得OpenLayer能夠為各種應用場景提供全面的數據支持,也降低了數據提供的門檻。
b) OpenValidators
OpenValidators負責收集之后的數據驗證,允許數據消費者確認用戶提供的數據與數據源的完全匹配。所有提供的驗證方法可以進行加密證明的, 驗證結果可以在事后被證實。同一類型的證明,有多個不同的提供商提供服務。開發者可以根據自己的需求選擇最適合的驗證提供商。
在初始用例中,特別是針對來自互聯網API的公共或私有數據, OpenLayer以TLSNotary作為驗證解決方案,從任何Web應用程序導出數據,并在不損害隱私的情況下證明數據的真實性。
不局限于TLSNotary,得益于其模塊化設計, 驗證系統可以輕松接入其他驗證方法,以適應不同類型的數據和驗證需求包括但不限于:
Attested TLS connections: 利用可信執行環境(TEE)建立經過認證的TLS連接,確保數據在傳輸過程中的完整性和真實性。
Secure Enclaves: 使用硬件級別的安全隔離環境(如Intel SGX)來處理和驗證敏感數據,提供更高級別的數據保護。
ZK Proof Generators: 集成ZKP, 允許在不泄露原始數據的情況下驗證數據的屬性或計算結果。
c) OpenConnect
OpenConnect是OpenLayer生態系統中負責數據轉換,實現可用性的核心模塊,處理來自各種來源的數據, 確保數據在不同系統間的互操作性,以滿足不同應用的需求。例如:
將數據轉換為鏈上預言機(Oracle)格式,便于智能合約直接使用。
將非結構化原始數據轉換為結構化數據,為AI訓練等目的進行預處理。
對于來自用戶私人賬戶的數據,OpenConnect提供了數據脫敏功能以保護隱私,也提供了組件來增強數據共享過程中的安全性,減少數據泄露和濫用。為了滿足AI和區塊鏈等應用對實時數據的需求, OpenConnect支持高效的實時數據轉換。
當下,通過和Eigenlayer的集成,OpenLayer AVS運營商監聽數據請求任務,負責抓取數據并進行驗證,然后將結果報告回系統,通過EigenLayer質押或重質押資產,為其行為提供經濟擔保。如惡意行為被證實,將面臨質押資產被罰沒的風險。作為EigenLayer主網上最早的的AVS(主動驗證服務)之一,OpenLayer已經吸引了超過50個運營商和40億美元的再質押資產。
總的來說,OpenLayer所構建的去中心化數據層在不犧牲實用性和效率的前提下,擴展了可用數據的范圍和多樣性, 同時通過加密技術和經濟激勵,確保了數據的真實性和完整性。其技術對于尋求獲取鏈下信息的Web3 Dapp、需要用真實輸入來訓練和推斷的AI模型,以及希望根據現有身份和聲譽來細分和定位用戶的公司都有廣泛的實際用例。用戶也得以價值化他們的私有數據。
Grass是由Wynd Network開發的旗艦項目,旨在創建一個去中心化的網絡爬蟲和AI訓練數據平臺。在2023年末,Grass項目完成了由Polychain Capital和Tribe Capital領投的350萬美元種子輪融資。緊接著,在2024年9月,項目又迎來了由HackVC領投的A輪融資,Polychain、Delphi、Lattice和Brevan Howard等知名投資機構也參與其中。
我們提到AI訓練需要新的數據敞口,而其中一個解決方案是使用多 IP 來突破數據訪問的權限,為AI進行數據喂養。Grass由此出發,創造了一個分布式爬蟲節點網絡, 專門致力于以去中心化物理基礎設施的方式,利用用戶的閑置帶寬為AI訓練收集并提供可驗證數據集。節點通過用戶的互聯網連接路由web請求, 訪問公開網站并編譯結構化數據集。它使用邊緣計算技術進行初步數據清理和格式化,提高數據質量。
Grass采用了Solana Layer 2 Data Rollup架構,建立在Solana之上以提高處理效率。Grass使用驗證器接收、驗證和批處理來自節點的web交易,生成ZK證明以確保數據真實性。驗證后的數據存儲在數據賬本(L2)中,并鏈接到相應的L1鏈上證明。
a)?Grass節點
與OpenNodes類似,C端用戶安裝Grass應用或瀏覽器擴展并運行, 利用閑置帶寬進行網絡爬蟲操作, 節點通過用戶的互聯網連接路由web請求, 訪問公開網站并編譯結構化數據集,使用邊緣計算技術進行初步數據清理和格式化。用戶根據貢獻的帶寬和數據量獲得GRASS代幣獎勵。
b) 路由器(Routers)
連接Grass節點和驗證器,管理節點網絡并中繼帶寬。Routers被激勵運營并獲得獎勵,獎勵比例與通過其中繼的總驗證帶寬成正比。
c) 驗證器(Validators)
接收、驗證和批處理來自路由器的web交易, 生成ZK證明,使用獨特的密鑰集來建立TLS連接,為與目標web服務器的通信選擇適當的密碼套件。Grass目前采用中心化驗證器,未來計劃轉向驗證器委員會。
d) ZK處理器(ZK Processor)
接收來自驗證者的生成每個節點會話數據的證明,批處理所有web請求的有效性證明并提交到Layer 1(Solana)。
e) Grass數據賬本(Grass L2)
存儲完整的數據集,并鏈接到相應的L1鏈(Solana)上證明。
f) 邊緣嵌入模型
負責將非結構化web數據轉換為可用與AI訓練的結構化模型。
Source:Grass
OpenLayer和Grass都利用分布式網絡為公司提供了訪問開放互聯網數據和需要身份驗證的封閉信息的機會。以激勵機制促進了數據共享和高質量數據的生產。兩者都致力于創造一個去中心化數據層(Decentralized Data Layer)以解決數據獲取訪問和驗證的問題, 但采用了略有不同的技術路徑和商業模式。
技術架構的不同
Grass使用Solana上的Layer 2 Data Rollup架構, 目前采用中心化的驗證機制, 使用單一的驗證器。而Openlayer作為首批AVS,基于EigenLayer構建, 利用經濟激勵和罰沒機制實現去中心化的驗證機制。并采用模塊化設計,強調數據驗證服務的可擴展性和靈活性。
產品差異
兩者都提供了類似的To C產品,允許用戶通過節點進行數據的價值變現。在To B用例上,Grass提供了一個有趣的數據市場模型,并使用L2來可驗證地存儲完整的數據,來為AI公司提供結構化、高質量、可驗證的訓練集。而OpenLayer并沒有暫時專用的數據存儲組件,但提供更廣泛的實時數據流驗證服務(Vaas),除了為AI提供數據,也適用于需要快速響應的場景,比如作為Oracle為RWA/DeFi/預測市場項目喂價,提供實時社交數據等等。
因此,如今Grass的目標客戶群主要面向AI公司和數據科學家,提供大規模、結構化的訓練數據集,也服務于需要大量網絡數據集的研究機構和企業;而Openlayer則暫時面向需要鏈下數據源的鏈上開發者,需要實時、可驗證的數據流的AI公司,以及支持創新的用戶獲取策略,如驗證競品使用歷史的Web2公司。
未來的潛在競爭
然而,考慮到行業發展趨勢, 兩個項目的功能確實有可能在未來趨同。Grass不久后可能也將提供實時的結構化數據。而OpenLayer作為一個模塊化平臺,未來也有可能擴展到數據集管理擁有自己的data ledger, 因此兩者的競爭領域可能會逐漸重疊。
并且,兩個項目都可能會考慮加入數據標注(data labelling)這一關鍵環節。Grass在這方面可能會更快推進, 因為他們擁有龐大的節點網絡 - 據報道已超過220萬個活躍節點。這一優勢使Grass有潛力提供基于人類反饋的強化學習(RLHF)服務,利用大量標注數據來優化AI模型。
然而,OpenLayer憑借其在數據驗證和實時處理方面的專長, ?其在私人數據的專注,可能會在數據質量和可信度方面保持優勢。此外,OpenLayer作為Eigenlayer的AVS之一, 可能在去中心化驗證機制上有更深入的發展。
盡管兩個項目可能在某些領域展開競爭, 但它們各自的獨特優勢和技術路線也可能導致它們在數據生態系統中占據不同的利基市場。
(Source:IOSG, David)
4.3 VAVA
作為一個以用戶為中心的數據池網絡,Vana同樣致力于為AI和相關應用提供高質量數據。相比OpenLayer和Grass,Vana采用了更不同的技術路徑和商業模式。Vana在2024年9月完成500萬美元融資,由Coinbase Ventures領投,此前獲得Paradigm領投的1800萬美元A輪融資,其他知名投資者包括Polychain, Casey Caruso等。
最初于2018年作為MIT的一個研究項目啟動,Vana旨在成為一個專門為用戶私有數據設計的Layer 1區塊鏈。其在數據所有權和價值分配上做出的創新使用戶能夠從基于其數據訓練的AI模型中獲利。Vana的核心在于通過無需信任、私密且可歸因的數據流動性池(Data Liquidity Pool)和創新的 Proof of Contribution 機制來實現私人數據的流通和價值化:
4.3.1. 數據流動性池(Data Liquidity Pool)
Vana 引入了一個獨特的數據流動性池(DLP)概念:作為Vana網絡的核心組件,每個DLP都是一個獨立的點對點網絡,用于聚合特定類型的數據資產。用戶可以將他們的私人數據(如購物記錄、瀏覽習慣、社交媒體活動等)上傳至特定DLP,并靈活選擇是否將這些數據授權給特定的第三方使用。數據通過這些流動性池被整合和管理,這些數據經過去識別化處理,確保用戶隱私的同時允許數據參與商業應用,例如用于 AI 模型訓練或市場研究。
用戶向DLP提交數據并獲得相應的DLP代幣(每一個DLP都有特定的代幣)獎勵,這些代幣不僅代表用戶對數據池的貢獻,還賦予用戶對DLP的治理權和未來利潤分配權。用戶不僅可以分享數據,還可以從數據的后續調用中獲取持續的收益(并提供可視化追蹤)。與傳統的單次數據售賣不同,Vana 允許數據持續參與經濟循環。
4.3.2. Proof of Contribution 機制
Vana 的另一核心創新之一是 Proof of Contribution(貢獻證明)機制。這是Vana確保數據質量的關鍵機制,讓每個DLP可以根據其特性定制獨特的貢獻證明函數,以驗證數據的真實性和完整性,并評估數據對AI模型性能提升的貢獻。這一機制確保用戶的數據貢獻得到量化和記錄,從而為用戶提供獎勵。與加密貨幣中的“工作量證明”(Proof of Work)類似,Proof of Contribution 根據用戶貢獻的數據質量、數量以及被使用的頻次來為用戶分配收益。通過智能合約自動執行,確保貢獻者獲得與其貢獻匹配的獎勵。
數據流動性層(Data Liquidity Layer)
這是Vana的核心層,負責數據的貢獻、驗證和記錄到DLPs,將數據作為可轉移的數字資產引入鏈上。DLP創建者部署DLP智能合約,設定數據貢獻目的、驗證方法和貢獻參數。數據貢獻者和托管者提交數據進行驗證,貢獻證明(PoC)模塊會執行數據驗證和價值評估,根據參數給予治理權和獎勵。
數據可移植層(Data Portability Layer)
這是數據貢獻者和開發者的開放數據平臺,也是Vana的應用層。Data Portability Layer為數據貢獻者和開發者提供一個協作空間,以使用DLPs中積累的數據流動性構建應用。為User-Owned模型分布式訓練,AI Dapp開發提供基礎設施。
通用連接組(Connectome)
一個去中心化賬本,也是一個貫穿整個Vana生態系統的實時數據流圖,使用權益證明共識(Proof of Stake)記錄Vana生態系統中的實時數據交易。確保DLP代幣的有效轉移并為應用提供跨DLP數據訪問。與EVM兼容,允許與其他網絡、協議和DeFi應用程序互操作。
(Source:Vana)
Vana 提供了一條較為不同的路徑,專注于用戶數據的流動性和價值賦能,這種去中心化的數據交換模式不僅適用于 AI 訓練、數據市場等場景,也為 Web3 生態系統中用戶數據的跨平臺互通與授權提供了一個新的解決方案,最終創建一個開放的互聯網生態系統,讓用戶擁有并管理自己的數據,以及由這些數據創造的智能產品。
5.?去中心化數據網絡的價值主張
數據科學家克萊夫·哈姆比(Clive Humby)在2006年說過數據是新時代的石油。近20年間,我們見證了"提煉"技術的飛速發展。大數據分析、機器學習等技術使得數據價值得到了空前釋放。根據IDC的預測,到2025年,全球數據圈將增長到163 ZB,其中大部分將來自個人用戶,隨著IoT、可穿戴設備、AI 與個性化服務等新興科技的普及,未來大量需要商用的數據將也將來源于個人。
Web3數據解決方案通過分布式節點網絡,突破了傳統設施的局限,實現了更廣泛、更高效的數據采集,同時提升了特定數據的實時獲取效率和驗證可信度。在此過程中,Web3 技術確保了數據的真實性和完整性,并能有效保護用戶隱私,從而實現更公平的數據利用模式。這種去中心化的數據架構,推動了數據獲取的民主化。
不管是OpenLayer和Grass的用戶節點模式,還是Vana 通過用戶私有數據的貨幣化,除了提高特定數據采集的效率,也讓普通用戶共享數據經濟的紅利,創造一種用戶與開發者雙贏的模式,讓用戶真正掌控和獲益于他們的數據和相關資源。
通過代幣經濟,Web3 數據方案重新設計了激勵模型,創造了一個更加公平的數據價值分配機制。吸引了大量用戶、硬件資源與資本的注入,從而協調并優化了整個數據網絡的運行。
比起傳統數據解決方案,它們也擁有模塊化與可擴展性:比如Openlayer的模塊化設計,為未來的技術迭代和生態擴展提供了靈活性。得益于技術特性,優化AI模型訓練的數據獲取方式,提供更豐富、更多樣化的數據集。?
從數據生成、存儲、驗證到交換與分析,Web3驅動的解決方案通過獨有技術優勢解決者傳統設施的諸多弊端,同時也賦予用戶對個人數據的變現能力,引發數據經濟模式的根本轉變。隨著技術進一步發展演進和應用場景的擴大,去中心化數據層有望和其他Web3數據解決方案一起,成為下一代關鍵基礎設施,為廣泛的數據驅動型產業提供支持。