撰文:Betty、YY
研究员:James Kuo、Noise Zhou、Lightmanben
均就职于 LD Capital
摘要
- 线下生活的线上化及如火如荼的所有者经济催生了巨大的数据存储需求,具备巨大的商业和应用前景;
- 中心化存储由于高昂的成本、预置的存储格式等因素难以跟上数据指数型增长所带来的存储容量、数据读写速度、安全性和数据关系的变化,由此去中心化存储应运而生;
- 去中心化存储基于区块链技术,具有可扩展性强、安全、效率高、自动容错、可靠性高、成本更低的特性;
- Web 3.0 的世界里,用户海量的线上足迹和创作的线上作品创造了一个难以置信的巨大的数据王国,而这数据王国的维持依赖一个可靠稳定安全的数据存储网络;
- 元宇宙辉宏的世界里,货币化的虚拟物品若失去可信任的区块链链上存储的保护,一旦其对应的元数据和媒体数据失效或被篡改,则将会变成一张没有承兑方的无价值支票;
- 现时主要的去中心化存储方案为 IPFS/Filecoin 和 Arweave 项目,IPFS 开创性地引入了激励层 Filecoin 以确保数据在约定期限内的可靠存储,而 Arweave 通过技术创新以期实现数据在链上的永久保存。
2021 年的夏天,一组由一万个不规则像素组成但看起来很奇怪的小人忽然兴起,让人惊讶的是其单个头像却能以等价于几千万美金的以太坊成交;此后 Bored Ape Yacht Club、Loot 等成为加密市场的新宠。从加密艺术、游戏到头像、文字,NFT 的兴起引燃了人们对元宇宙、对 Web 3.0 的无尽想象。
然而当我们在谈论作为身份象征的 CryptoPunk、兴致勃勃地边玩边赚游戏 Axie Infinity、酣畅淋漓地构想在元宇宙里星辰大海的征途时,我们是否想过这些数据会被存储在哪?是否担心这些数据可能会被篡改?没有人会希望花了几千万美金的头像因为底层数据的篡改而一文不值,没有人会希望在元宇宙里与朋友对话的珍贵回忆因为系统宕机而永远消失。站在元宇宙和 Web 3.0 纪元的起点,在数据爆发式增长的今天,我们急需一个安全、开放、自由、可靠的存储网络。
本文将通过介绍存储之于 Web 3.0 及元宇宙的深刻意义,尝试向读者描绘去中心化存储在 Web 3.0 及元宇宙中激动人心的应用。同时,本文还将立足于去中心化存储的发展现状,对不同的去中心化存储方案进行研究和比对。
存储的产业生态
新冠疫情的肆虐加速了真实世界与虚拟世界边界的模糊,人们在真实世界中的工作、社交、娱乐、餐饮、购物、出行等活动几乎都可以在互联网世界中来执行;同时,从 Web 1.0 到 Web 3.0,从被动的数据读取到热火朝天的内容创作,数据生产量发生了爆炸式的增长,并且还将以指数形式继续增长。据 360 研究报告,全球数字内容创作市场预计将在 2025 年达到 169 亿美金市值。如火如荼的所有者经济模式和指数型增长的数据创造了巨大的数据存储需求,芯片技术、算法、硬件等的发展促进了存储技术的进步,而数据价值的释放和数据安全的刚需又倒逼存储技术的创新和基础设施建设。在软件及算法的迭代与融合中,存储行业从传统的磁盘存储突破硬件的物理限制而逐渐演进到云存储。作为区块链技术的三大支柱(计算、存储、网络)之一,存储对于 Web 3.0 与元宇宙的发展都具有重大意义——从应用角度来看,数据安全与数据主权的最终归属关系着虚拟世界的稳定运行;而从经济角度来看,元宇宙与 Web 3.0 世界产生的海量数据存储需求也有着巨大的商业前景
全球数据产生量走势图,来源:www.slideshare.net/PerryLea/the-20-rule-how-the-seismic-growth-of-data-has-always-and-will-always-outgrow-telcom
碍于各种因素我们现时无法整体评估存储市场的规模,但以云存储为例,预计到 2027 年,全球云存储市场规模将达到 2,222 亿美元,在预测期内年复合增长率达 21.9%( Sneha Korad Rachita Rake & Vineet Kumar, 2021 )。
全球云存储行业市场规模预测,来源 https://www.alliedmarketresearch.com/cloud-storage-market
存储的商业模式分为中心化和去中心化存储,中心化存储是将数据完整地存储在中心化的服务器上,去中心化存储则是采用分布式存储技术将数据切片分散存储在多个独立的存储供应商上。中心化存储方案以高稳定性的性能、低廉的费用,满足了企业级存储的需求;去中心化存储以其定制化存储方案、经济激励模型、隐私性强等特点满足了长尾企业市场的特殊场景要求。站在 Web 3.0 与元宇宙的交汇处,对数据安全性和用户数据所有权的重视,去中心化存储的重要性将愈发凸显。
中心化存储
中心化存储,即将整个存储集中在一个系统中的多套设备上,是过去大型主机时代的产物,采用有限的固定的节点数,数据访问仅需经过一个控制器,因而具有低延迟的优点但相对费用较高、数据安全性、服务提供商的运营可扩展性低等问题。
中心化存储系统顺利运行的关键之一是存储服务器稳定运转,存储服务器成为系统性能的瓶颈以及可靠性的焦点,对于存储环境、硬件设备等提出了极高的要求,因而巨大的中心化存储市场却是巨人的蛋糕,亚马逊、微软、谷歌、阿里云四大巨头合计占据了云存储市场份额的 67%。
2021 Q1 全球云存储提供商的市场份额(图片来源:https://www.statista.com/chart/18819/worldwide-market-share-of-leading-cloud-infrastructure-service-providers/)
随着微博、Facebook 等的传播以及自我内容创作的流行,我们进入了数据以指数倍增长的时代,爆炸式的数据增长对存储容量大小、扩充速度和数据备份等方面提出了更高的要求;用户间实时的信息互动需要更快的数据读写速度和更高的安全性;同时,由于用户自我创作产生的数据种类、数据间的关系变得更加复杂多样化,存储系统需要从过去单一的文件类型扩展至各种半结构化、非结构化的数据关系。而中心化存储由于其高昂的建设成本以及行业进入壁垒,数据存储容量、数据类型等的扩张都难以跟上数据生产的脚步,去中心化存储由此应运而生。
去中心化存储
就如 IPFS (InterPlanetary File System) 早期布道者胡飞瞳所说:「在中心化数据存储的世界里,用户不仅为数据存储付费,而且还得不到很好的数据保护,这一现象必须改变。通过去中心化,用户可以自己管理自己的数据、加密存储、授权访问、安全备份等等特性的实现将极大地加强用户的隐私,也能增强数据的长期保存,同时,有望通过共享的模式大大降低费用。这是数据存储发展的必然方向。」
去中心化存储基于区块链技术,采用开源的应用程序和算法,把数据切片分散存储在多个独立的网络节点上,主张隐私保护、数据冗余备份等,并且通过对种子节点或文件上传方提供经济激励使数据价值化。其中,经济激励模式使得用户数据得以安全长久地保存正是去中心化存储的点睛之笔。
当去中心化存储遇上区块链技术,便具有了可扩展性强、安全、效率高、自动容错、可靠性高、成本更低的特性(焦仕可,2020):
- 可扩展性:存储节点的数量可无限扩展,每个节点的存储容量亦可灵活调整;
- 安全性:无需了解合作对方或寻求第三方的信任,存储信息拆分成碎片分散存储在多个节点,存储数据的加密不仅局限于用户和软件终端,而且在存储网络的所有环节中、在信息传输过程中通过私有网络访问密钥、零知识证明等方法进行加密处理;
- 高效率:同一网络上的节点可直接共享文件;
- 自动容错:由于存储内容已分散到网络中的许多节点上,可在数据传输或存储出错时存储额外的副本;
- 高可靠性:存储系统内含的验证机制能确保文件被完整真实地存储,且能 7*24 小时供用户随时取用;
- 低成本:据悉,存储一期《中国有嘻哈》视频文件,按 0.001 美元 /GB 带宽成本计算,则爱奇艺需支付给传统存储商一百万美元,若采用 IPFS 分布式传输则可节省 60% 的带宽成本。
去中心化存储:Web 3.0 与元宇宙的交汇之处
去中心化存储与 Web 3.0
互联网的起源可以追溯至 1989 年万维网的诞生,如果说门户网站开启了 Web 1.0 时代,那么 2003 年博客的兴起标志了 Web 2.0 的开端。从 Web 1.0 到 Web 2.0,从被动的信息接收到自主创造内容与在线交互,互联网用户呼唤更注重用户内容创作、易用性和互操作性的应用体验,Web 3.0 呼之欲出。正如蒂姆·伯纳斯·李所说,「人们一直在问什么是 Web 3.0。我想也许当你在 Web 2.0 上有一个可扩展的矢量图形覆盖层——所有的东西都在荡漾、折叠、看起来模糊不清——并且可以访问一个集成在巨大数据空间中的语义网络时,你就可以访问一个难以置信的数据资源」(Victoria Shannon, 2006)。虽然现在我们还未对 Web 3.0 达成一致的定义,但 Web3.0 应该具有以下特征( Fabric Venture, 2020):
- 开放性(Open): 由开放和可访问的开发人员社区构建开源软件,并且链上进行的操作能被所有人查看。
- 去信任化 (Trustless):网络本身允许参与者在没有可信第三方的情况下公开或私下互动。Web 3.0 通过去中心化的激励机制保证参与者遵守规则,在交易中利用区块链协议的共识机制验证账户的真实性和转账的有效性,达成去中介化的价值转移。
- 去许可化(Permissionless):任何人,包括用户和供应商,都可以在没有管理机构授权的情况下参与。
互联网的演化(来源:https://hackernoon.com/web-3-0-will-be-powered-by-blockchain-technology-stack-626ce3f828c7)
Web 3.0 的星辰大海里,数字世界与物理世界的边界正在模糊。用户海量的线上足迹和创作的线上作品,如果没有一个稳定可靠的数据存储网络在背后默默地记录下,当我们兴致勃勃地回望 Web 3.0 世界里所发生的一切,那时可能只剩下一片模糊的碎片。
去中心化存储与元宇宙
2021 年随着 Roblox 上市「元宇宙 /Metaverse」概念忽然席卷了互联网、VR/AR 和金融投资界等各大行业,借着微型计算机、VR 设备和以 5G 为代表的高速网络技术的兴起,人们来到了元宇宙纪元的门口。正如我们上一篇爆款研究报告《Metaverse 全景透视:从过去看向未来》所说:元宇宙世界的点睛之笔正是其经济系统。其一,基于区块链的开放式支付和清算系统,可以满足用户在元宇宙世界的实时、公平、透明、快速的 P2P 支付需求;将元宇宙中用户的虚拟物品或创新成果货币化,不仅赋予了用户与真实物理世界近似的权益保障,更能极大地促进元宇宙资产的流通、交易并鼓励用户通过持续创新来获得财富积累。而这背后,在元宇宙辉宏的世界里,庞大的用户信息交互及创作的虚拟物品信息如若失去可信任的区块链链上存储的保护,一旦其对应的元数据和媒体数据失效或被篡改,那么用户手上的 NFT 所有权凭证将会变成一张没有承兑方的无价值支票。
The Sandbox 游戏内虚拟资产,数据源:The Sandbox
主要的去中心化存储解决方案
Bittorren
最早期的去中心化传输方案为 Bittorrent,即 BT 下载,由软件工程师 Bram Cohen 于 2003 年提出,通过 P2P 下载的方式克服了传统下载方式的局限性——不需要资源发布者拥有高性能服务器来传输资源,且下载同一文件的人越多下载该文件的速度越快,加上其免费使用这一收费模式,吸引了众多的网民使用。然而 Bittorrent 下载必须使用种子文件,即下载内容的所有地址放到这个种子文件中才能下载,且客户端只能下载种子文件内的内容。但种子文件可能随着时间推移而减少甚至消失,这也意味着存储的内容可能会在传播中消失。Bittorrent 的另一个明显的问题是缺乏激励机制,缺失激励用户无偿共享文件的动力。在适当的经济激励缺席下,只有那些广受流行且不断有人下载的内容才能幸存下来,而某些未能引起大众注意的精华则可能消失在历史的长河中,只留下一抹模糊的剪影。
IPFS/ Filecoin
IFPS (InterPlanetary File System)是 2015 年提出的另一去中心化存储方案,克服了 bittorrent 的不足——仅用 hash 地址即可寻找到所需文件、可存储内容的多个版本、可预下载内容,进而实现去中心化、快速、高效率、可靠性、安全的内容存储。值得注意的是,IPFS 又开创性地引入了激励层 Filecoin,通过通证激励机制以确保文件在约定期限内的可靠存储。
Filecoin 允许任何个体利用空闲的硬盘空间和带宽在公开市场上提供数据存储和检索服务,将未用硬盘容量货币化,并通过 PoRep (复制证明)和 Post (时空证明)来保证矿工真实存储文件的情况,防止女巫、生成、外包等虚假存储数据的攻击。简单来说 RoRep 是证明矿工真实存储了数据,而 Post 则是证明矿工一直将该数据存储在自己的硬盘中。运作原理如下图:用户通过发布订单寻找合适的存储矿工,数据加密并分割后发送至矿工,矿工将该信息添加至存储区块进行存储并持续证明其工作以获得奖励。
IPFS 工作原理图,图片来源:https://www.8btc.com/article/613165
当然,Filecoin 的这种模式并不意味着它就是完美无缺的。IPFS 挖矿需要专业设备—GPU 矿机而使挖矿成本较高,行业进入壁垒的提高导致普通个体可能无法直接参与存储挖矿,进而全网总存储将向少数存储供应商或大规模矿池集中。这从某种程度上来说,IPFS 所构想的完全去中心化在执行过程中又变成了少数供应商垄断的「中心化」存储。
Filecoin 主网于 2020 年 10 月上线,目前已有 3,175 个活跃节点,主要遍布于北美、欧洲、中国、韩国等。截止 21 年 10 月 14 日,Filecoin 全网提供了 12.393 EiB 有效算力,当前基础费率为 0.1052 nanoFIL,封装 32G 存储花费 4.958 Fil/TiB。
Filecoin 节点分布图,图片来源:filscan.io/statistics/map
Filecoin 基线与算力走势图,图片来源:filscan.io/statistics/map
伴随着 filecoin 底层网络和基础设施的完善,其网络效应发展的前期红利吸引了更多的应用来布局。截至目前,filecoin 已建立起一个涵盖「消费者存储应用、数据市场、数检索、NFT、Defi、可验证存储和隐私」等领域的生态环境,如 Fileswan、NFT Stororage、Opera、Livepeer 等项目。
Filecoin 生态图,图片来源:https://github.com/filecoin-project/community/discussions/194
Arweave
与 Filecoin 将数据存储在链下不同,另一存储方案 Arweave 将数据内容直接存储在区块网中,是主打永久存储 + 链上存储的去中心化存储方案。如下图所示,Arweave 方案分为两层架构:底层的区块网络 Blockweave 和上层基于 HTTP 构建的 Permaweb。Arweave 项目的技术亮点正是其底层 Blockweave 网络:
Blockweave:
项目采用了全新的区块链网 Blockweave——基于共识机制和特定的出块模式,即将之前所有区块的哈希值做成一个哈希列表并将系统中所有活跃钱包做成一个列表,矿工通过检索哈希列表和钱包列表来完成验证工作,而无需像 BTC、ETH 等节点一样去验证整个节点,这种方式减少了能源消耗并提高了节点工作效率。
激励算法 Wildfire:
与 Filecoin 需要持续性地收取存储费用不同,Arweave 只在数据写入时收取一次性的永久存储费用,之后用户读取数据都是免费的,为了鼓励节点对数据读取请求作出响应,Arweave 引入了激励算法 widfire。简单来说,Wildfire 就是一个节点评分系统,根据节点发送新交易和区块的次数以及响应请求的速度来让每个节点对其他节点排名。从相邻节点得到的可靠数据越多则给对方的评分就越高,相应地出块概率就越大。
智能网 SmartWeave:
Smart Weave 将智能合约执行的计算负担从节点转移到了用户,即 Arweave 网络中只存储了应用程序的所有数据,这些数据将以代码的形式提供给浏览器或其他客户端应用程序,因而使得 Arweave 能支持需要大量计算的 Dapp。
Arweave 架构
虽然 Arweave 存储方案将数据保存在链上,能保证数据的不可篡改、「永久存储」和所有人公开访问;然而这种模式也具有一定的弊端。其一,数据的不可篡改导致任何改动都只能通过上传新数据,这将造成一定的迭代成本。其二,为了保证数据的永久存储,Arweave 需要不断吸引新的节点加入同时确保节点的边际收益大于边际成本,然而 Arweave 节点数一直在减少,目前仅有 146 个节点,较 2020 年 5 月的 490 个节点减少了 70%。
Arweave 节点分布图,来源:https://viewblock.io/arweave/stats
Arweave 主网于 2019 年 1 月 29 日上线,并于 2020 年 5 月推出具有捆绑交易存储功能的 Arweave 2.0 版本,链上交易量在 2021 年开始发力并于今年 9 月达到顶峰 (9 月日均交易量超 8 万笔)。Solana 上 Metaplex Candy Machine 的推出以及 ipfs2arweave 跨链桥的推出等造就了 Arweave 的亮丽表现。
Arweave 交易量统计,来源:https://viewblock.io/arweave/stat/txCountHistory
纵观 Arweave 生态项目,目前较为活跃的是 NFT、DeFi 及基础设施赛道,如 Koii、Limestone 等项目,目前生态还处于建设的早期阶段。
Arweave 生态一览(图片来源:链闻)
展望
站在 Web 3.0 与元宇宙的交汇处,对数据安全性和用户数据所有权的重视,去中心化存储的重要性将愈发凸显。去中心化存储与中心化存储在存储空间来源、带宽来源、安全性、使用方式等多个维度的差异,导致现时去中心化存储的规模和性能远远不如中心化存储系统。虽然 IPFS、Arweave 等项目通过不同的「非中心化」设计方式弥补了其不同的缺陷,并引入通证激励使全网存储总规模扩大,但是项目方与用户的利益不一致、费用结构的等因素阻碍了项目的快速拓展,其生态构建尚处于早期阶段,未来需要在费用、节点量、用户量之间找到平衡,实现规模与性能的兼顾。
去中心化存储方案的对比
我们期待随着元宇宙和 Web 3.0 纪元的开启,网络的「飞轮效应」使去中心化存储能迎来应用爆发的浪潮,期待存储技术的改进和经济激励模式的优化,去中心化存储这一赛道能有长足稳定的发展。
参考文献
Cloud Storage Market (2021), Sneha Korad Rachita Rake , Vineet Kumar,
https://www.alliedmarketresearch.com/cloud-storage-market分布式存储——千亿存储市场的蓝海大战,
https://www.8btc.com/article/6131652020 分布式存储产业链研究报告(2020),焦仕可
https://www.jinse.com/news/blockchain/835473.htmlA ‘more revolutionary’ Web(2006), Victoria Shannon,
https://www.nytimes.com/2006/05/23/technology/23iht-web.htmlWhat Is Web 3.0 & Why It Matters (2020), Fabric Venture,
https://medium.com/fabric-ventures/what-is-web-3-0-why-it-matters-934eb07f3d2bIPFS and Friends: A Qualitative Comparison of Next Generation Peer-to-Peer Data Networks (2021), Erik Daniel and Florian Tshorsch