原文作者:Yuxing
原文来源:SevenX Ventures
ChatGPT 和 GPT-4 的火热,让我们看到了人工智能的力量。人工智能背后,除了算法以外,更重要的是海量的数据。围绕数据,我们已经构建了一个大规模的复杂系统,该系统的价值主要来自于商业智能(Business Intelligence, BI)和人工智能(Artificial Intelligence, AI)。由于互联网时代数据量的快速增长,数据基础设施的工作和最佳实践也在飞速地发展。这两年,数据基础设施技术栈的核心系统已经非常稳定,支持工具和应用也在快速增长。
Web2 数据基础设施架构
云数据仓库(如 Snowflake 等)正在迅速增长,主要关注 SQL 用户和商业智能用户场景。其他技术的采用也在加速,数据湖(如 Databricks)的客户增长速度前所未有,数据技术栈中的异质性将共存。
其他核心数据系统,如数据获取和转化,已经证明同样耐久。这在现代数据智能领域特别明显。Fivetran 和 dbt(或类似技术)的组合几乎随处可见。但在一定程度上,在业务系统中也同样如此。Databricks/Spark、Confluent/Kafka 和 Astronomer/Airflow 的组合也开始成为事实标准。
来源:a16z
其中,
- 数据源端生成相关商务和业务数据;
- 数据抽取和转换负责从业务系统中抽取数据(E)、传输到存储、对齐数据源和目的地之间的格式(L)以及将分析过的数据根据需求送回业务系统;
- 数据存储将数据按照可以查询和处理的格式存储,需要朝低成本、高可扩展性和分析工作量进行优化;
- 查询和处理将高级编程语言(通常用 SQL、Python 或者是 Java/Scala)翻译成低端数据处理任务。根据存储数据,使用分布式计算执行查询和数据模型,包括历史分析(描述过去发生事件)和预测分析(描述将来期待事件);
- 转换将数据转换成分析可用的结构,管理流程和资源;
- 分析和输出是为分析师和数据科学家提供可以溯源洞见和协作的界面,向内部和外部用户展示数据分析的结果,将数据模型嵌入面向用户的应用。
随着数据生态的飞速发展,出现了“数据平台”的概念。从行业的角度看,平台的定义特征是有影响力的平台提供方和大量的第三方开发者能够在技术上和经济上相互依存。从平台的角度看,数据技术栈分为“前端”和“后端”。
“后端”大致包括数据提取、存储、处理和转换,已经开始围绕小部分云服务提供商开始整合。因此,客户数据被收集在一套标准的系统中,供应商正在大力投资,使其他开发人员可以轻松访问这些数据。这也是 Databricks 等系统的基本设计原则,并且通过 SQL 标准和自定义计算 API(例如 Snowflake)等系统得到了实现。
“前端”工程师利用这种单点集成来构建一系列新应用程序。他们依赖数据仓库/湖仓一体中清洗和整合过的数据,而不用担心它们是如何生成的底层细节。单个客户可以在一个核心数据系统之上构建和购买很多应用。 我们甚至开始看到传统企业系统,如财务或者产品分析,正在使用仓库原生的架构进行重构。
随着数据技术栈的逐渐成熟,数据平台上的数据应用也随之激增。由于标准化,采用新的数据平台变得前所未有地重要,相应地维护平台也变得极为重要。在规模上,平台可能非常有价值。现在,核心数据系统供应商之间竞争激烈,这种竞争不仅是为了当前的业务,更是为了长期的平台地位。如果你认为数据获取和转换模块是新兴数据平台的核心部分,那么对数据获取和转换公司的惊人估值也就更容易理解了。
然而,这些技术栈的形成是在以大公司为主导的数据利用方式下形成的。随着社会对于数据的理解加深,人们认为数据与土地、劳动力、资本、技术一样, 都是可市场化配置的生产要素 。数据作为五大生产要素之一,其背后体现的正是数据的资产价值。
要实现数据要素市场的配置,目前的技术栈远远不能满足需求。与区块链技术紧密结合的 Web3 领域,新的数据基础设施正在发展与演变。这些基础设施将嵌入现代数据基础设施架构,实现数据产权界定、流通交易、收益分配和要素治理。这四个领域在 政府监管的角度 来说非常关键,因此需要特别关注。
Web3 混合数据基础设施架构
受 a16z 统一的数据基础设施架构(2.0 )的启发,融合对 Web3 基础设施架构的理解,我们提出了以下 Web3 混合数据基础设施架构。
橙色是 Web3 所独有的技术栈单元。由于去中心化技术还处于早期发展阶段,目前 Web3 领域内的大部分应用采用的仍是这种混合数据基础设施架构。绝大多数应用并不是真正的“ 超级结构 ”。超级结构拥有不可停止、免费、有价值、可扩展、无许可、正外部性和可信中立等特征。它作为数字世界的公共物品而存在,是“元宇宙”世界的公共基础设施。这需要完全去中心化的底层架构来支撑它。
传统的数据基础设施架构是根据企业业务发展演变而来的。a16z 将其总结为两个系统(分析系统和业务系统)和三个场景(现代商业智能、多模型数据处理以及人工智能和机器学习)。这是从企业的视角——数据为企业的发展服务——作出的总结。
来源:a16z
然而,不仅仅是企业,社会和个人都应当受益于数据要素带来的生产力提升。世界各国都接连出台了政策法规,希望从监管的层面规范数据的使用,促进数据的流通。这包括在日本常见的各种 Data Bank、在中国最近兴起的数据交易所以及在欧美已经广泛使用的交易平台,如 BDEX(美国)、Streamr(瑞士)、DAWEX(法国)和 CARUSO 等等。
当数据开始进行产权界定、流动交易、收益分配和治理时,它们的系统和场景就不仅仅是赋能企业自身的决策和业务发展。这些系统和场景要么需要借助区块链技术,要么强烈依赖政策监管。
Web3 是数据要素市场的天然土壤,它从技术上杜绝了作弊的可能性,能够大大减轻监管压力,让数据作为真正的生产要素存在,并进行市场化配置。
在 Web3 语境下,数据利用的新范式包括承载流动数据要素的市场系统和管理公共数据要素的公共系统。它们涵盖了三个新的数据业务场景:产权数据开发整合、可组合初始数据层和公共数据挖掘。
这些场景有的与传统数据基础设施紧密结合,属于 Web3 混合数据基础设施架构;有的则脱离传统架构,完全由 Web3 原生的新技术支持。
Web3 与数据经济
数据经济市场是配置数据要素的关键,其包括产品数据的开发和整合和具备可组合性的初始数据层市场。在高效合规的数据经济市场中, 以下几点十分重要 :
- 数据产权是保障权益和合规使用的关键,应进行结构性分配处置,同时数据使用需要确认授权机制。各个参与方应该拥有相关权益。
- 流通交易需要场内外结合以及合规高效。应基于数据来源可确认、使用范围可界定、流通过程可追溯、安全风险可防范四大原则。
- 收益分配制度需要高效公平。按照“谁投入、谁贡献、谁受益”的原则,同时政府在数据要素收益分配中能够发挥引导调节作用。
- 要素治理安全可控、弹性包容。这需要创新政府数据治理机制,建立数据要素市场信用体系,并鼓励企业积极参与数据要素市场建设,围绕数据来源、数据产权、数据质量、数据使用等,推行面向数据商及第三方专业服务机构的数据流通交易声明和承诺制。
以上原则是监管部门考虑数据经济的基本原则。在产权数据开发整合、可组合初始数据层和公共数据挖掘三种场景下,可以以这些原则为基础进行思考。我们需要怎样的基础设施作为支撑?这些基础设施能够在哪些阶段捕获什么样的价值?
场景一:产权数据开发整合
注:橙色是 Web2 与 Web3 交叉的单元
在产权数据开发过程中,需要建立分类分级确权授权机制,以确定公共数据、企业数据和个人数据的所有权、使用权和经营权。根据数据来源和生成特征,通过“数据适配”的方式对数据进行产权界定。其中,典型的项目包括 Navigate、Streamr Network 和 KYVE 等。这些项目通过技术手段实现数据质量标准化、数据采集和接口标准化,将链下数据以某种形式确权,并通过智能合约或内部逻辑系统进行数据分类分级授权。
在该场景下适用的数据类型为非公共数据,即企业数据和个人数据。应按市场化方式“共同使用、共享收益”,从而激活数据要素价值。
- 企业数据包括各类市场主体在生产经营活动中采集加工的不涉及个人信息和公共利益的数据。市场主体享有依法依规持有、使用、获取收益的权益,以及保障其投入的劳动和其他要素贡献获得合理回报的权利。
- 个人数据要求数据处理者按照个人授权范围依法依规采集、持有、托管和使用数据。使用创新技术手段,推动个人信息匿名化处理,保障使用个人信息数据时的信息安全和个人隐私。探索由受托者代表个人利益,监督市场主体对个人信息数据进行采集、加工、使用的机制。对涉及国家安全的特殊个人信息数据,可依法依规授权有关单位使用。
场景二:可组合初始数据层
注:橙色是 Web2 与 Web3 交叉的单元
可组合初始数据层是数据经济市场的重要组成部分。与一般的产权数据不同的是,这部分数据最明显的特征是需要通过“数据模式管理”定义数据的标准格式。与“数据适配”的质量、采集和接口标准化不同的是,这里强调的是数据模式的标准化,包括标准的数据格式和标准的数据模型。Ceramic 和 Lens 是这一领域的先行者,他们分别保障了链下(去中心化存储)和链上数据的标准模式,从而使得数据具有可组合性。
搭建在这些数据模式管理工具之上的是可组合初始数据层,通常称为“data layer”,如 Cyberconnect、KNN 3 等。
可组合初始数据层较少涉及到 Web2 的技术栈,但以 Ceramic 为主的热数据读取工具打破了这一点,这将是非常关键的突破。很多类似的数据无需存储在区块链上,也很难存储在区块链上,但它们需要存储在去中心化的网络之上,例如用户的发帖、点赞和评论等高频低价值密度数据,Ceramic 为这一类数据提供了存储范式。
可组合的初始数据是新时代创新的关键场景,也是数据霸权与数据垄断终结的重要标志。它 能够解决 初创企业在数据方面的冷启动问题,组合成熟数据集和新数据集,从而使初创企业能够更快地建立数据竞争优势。同时让初创企业专注于增量数据价值和数据新鲜度,从而为自身的创新想法赢得持续的竞争力。这样,大量的数据将不会成为大公司的护城河。
场景三:公共数据挖掘
注:橙色是多类别交叉的单元
公共数据挖掘并不是一个新的应用场景,但是在 Web3 技术栈中,它得到了前所未有的突出强调。
传统的公共数据包括党政机关、企事业单位依法履职或提供公共服务过程中产生的公共数据。监管机构鼓励在保护个人隐私和确保公共安全的前提下,按照“原始数据不出域、数据可用不可见”的要求,以模型、核验等产品和服务等形式向社会提供该类数据。它们采用的是传统技术栈(蓝色和部分橙色,橙色代表多个类型技术栈交叉,下同)。
在 Web3 中,区块链上的交易数据以及活动数据则是另一类公共数据,其特征是“可用且可见”,因此缺乏数据隐私、数据安全以及数据使用的确认授权能力,是真正的“公共物品”(Public Goods)。它们采用的是以区块链和智能合约为核心的技术栈(黄色和部分橙色)。
而在去中心化存储上的数据则大多是除交易以外的 Web3 应用数据,目前主要是以文件和对象存储为主,相应的技术栈仍不成熟(绿色和部分橙色)。这类公共数据的生产和挖掘利用存储的普遍问题包括冷热存储、索引、状态同步、权限管理和计算等等。
该场景涌现了诸多数据应用,它们不属于数据基础设施,更多是数据工具,包括 Nansen、Dune、NFTScan、0x Scope 等等。
案例:数据交易所
数据交易所是指以数据为商品进行交易的平台。它们可以根据交易对象、定价机制、质量保证等方面进行分类和比较。DataStreamX、Dawex、Ocean Protocol 是市场上几个典型的数据交易所。
Ocean Protocol (2 亿市值)是一个开源的协议,旨在让企业和个人能够交换和变现数据和基于数据的服务。该协议基于以太坊区块链,使用“数据代币”(datatokens)来控制对数据集的访问。数据代币是一种特殊的 ERC 20 代币,可代表一个数据集或一个数据服务的所有权或使用权。用户可以通过购买或赚取数据通证来获取所需的信息。
Ocean Protocol 的技术架构主要包括以下几个部分:
- 提供者(Providers):指提供数据或数据服务的供应方,他们可以通过 Ocean Protocol 发行和出售自己的数据通证,从而获得收入。
- 消费者(Consumers):指购买和使用数据或数据服务的需求方,他们可以通过 Ocean Protocol 购买或赚取所需的数据通证,从而获得访问权。
- 市场(Marketplaces):指由 Ocean Protocol 或第三方提供的一个开放、透明和公平的数据交易市场,它可以连接全球范围内的提供者和消费者,并提供多种类型和领域的数据通证。市场可以帮助组织发现新的商业机会,增加收入来源,优化运营效率,创造更多价值。
- 网络(Network):指由 Ocean Protocol 提供的一个去中心化的网络层,它可以支持不同类型和规模的数据交换,并保证数据交易过程中的安全、可信和透明。网络层是一组智能合约,用于注册数据、记录所有权信息、促进安全的数据交换等。
- 策展人(Curator):指一个生态系统中负责筛选、管理、审核数据集的角色,他们负责审核数据集的来源、内容、格式和许可证等方面的信息,以确保数据集符合标准,并且可以被其他用户信任和使用。
- 验证人(Verifier):指一个生态系统中负责验证、审核数据交易和数据服务的角色,他们对数据服务提供商和消费者之间的交易进行审核和验证,以确保数据服务的质量、可用性和准确性。
来源:Ocean Protocol
数据提供者创建的“数据服务”包括数据、算法、计算、存储、分析和策展。这些组件与服务的执行协议(如服务等级协议)、安全计算、访问控制和许可绑定在一起。本质上,这是通过智能合约来控制一个“云服务套件”的访问权限。
来源:Ocean Protocol
其优点是,
- 开源、灵活和可扩展的协议有助于组织和个人创建自己独特的数据生态系统。
- 基于区块链技术的去中心化网络层,可以保证数据交易过程中的安全、可信和透明,同时也保护了提供者和消费者的隐私和权益。
- 开放、透明和公平的数据市场,可以连接全球范围内的提供者和消费者,并提供多种类型和领域的数据通证。
Ocean Protocol 是混合架构的典型代表。其数据可以存储在不同的地方,包括传统的云存储服务、去中心化的存储网络,或者数据提供者自己的服务器。该协议通过数据代币(datatokens)和数据非同质化代币(data NFTs)来标识和管理数据的所有权和访问权限。此外,该协议还提供了计算到数据(compute-to-data)的功能,使得数据消费者可以在不暴露原始数据的情况下对数据进行分析和处理。
来源:Ocean Protocol
固然 Ocean Protocol 是市面上现阶段最为完善的数据交易平台之一,但它仍然面临着诸多挑战:
- 建立一个有效的信任机制,以增加数据提供者和需求者之间的信任度,降低交易风险。例如,建立数据要素市场信用体系,对数据交易失信行为认定、守信激励、失信惩戒、信用修复、异议处理等等,通过区块链进行留证与验证。
- 建立一个合理的定价机制,以反映数据产品的真实价值,激励数据提供者提供高质量的数据,并吸引更多的需求者。
- 建立一个统一的标准规范,以促进不同格式、类型、来源和用途的数据之间的互操作性和兼容性。
案例:数据模型市场
Ceramic 在其数据宇宙中提到了他们要打造的开放数据模型市场,因为数据需要互操作性,它能够极大地促进生产力的提升。这样的数据模式市场是通过对数据模型的紧急共识实现的,就类似于以太坊中的 ERC 合约标准,开发人员可以从中选择作为功能模板,从而拥有一个符合该数据模型的所有数据的应用程序。目前这个阶段,这样的市场并不是一个交易市场。
关于数据模型,一个简单的例子是,在去中心化社交网络当中,数据模型可以简化为 4 个参数,分别是:
- PostList:存储用户帖子的索引
- Post:存储单个帖子
- Profile:存储用户的资料
- FollowList:存储用户的关注列表
那么数据模型如何在 Ceramic 上进行创建、共享和重用,从而实现跨应用程序数据互操作性呢?
Ceramic 提供了一个数据模型注册表(DataModels Registry),这是一个开源的、社区共建的、用于 Ceramic 的可重用应用程序数据模型的存储库。在这里,开发人员可以在其中公开注册、发现和重用现有数据模型——这是构建在共享数据模型上的客户操作应用程序的基础。目前,它基于 Github 存储,未来它将分散在 Ceramic 上。
添加到注册表的所有数据模型都会自动发布到 @datamodels 的 npm 插件包下面。任何开发人员都可以使用 @datamodels/model-name 安装一个或多个数据模型,使这些模型可用于在运行时使用任何 IDX 客户端存储或检索数据,包括 DID DataStore 或 Self.ID。
此外,Ceramic 还基于 Github 搭建了一个 DataModels 论坛 ,数据模型注册表中的每个模型在该论坛上都有自己的讨论线程,社区可以通过它来评论和讨论。同时,这里还可以供开发人员发布关于数据模型的想法,从而在将其添加到注册表之前征求社区的意见。目前一切都在早期阶段,注册表中的数据模型并不多,收纳进入注册表中的数据模型应当通过社区的评定称为 CIP 标准,就像以太坊的智能合约标准一样,这为数据提供了可组合性。
案例:去中心化数据仓库
Space and Time 是第一个连接链上和链下数据以支持新一代智能合约用例的去中心化数据仓库。Space and Time (SxT) 拥有业内最成熟的区块链索引服务,SxT 数据仓库还采用了一种名为 Proof of SQL™ 的新型密码学来生成可验证的防篡改结果,允许开发人员以简单的 SQL 格式加入无需信任的链上和链下数据,并将结果直接加载到智能合约中,以完全防篡改和区块链锚定的方式为亚秒级查询和企业级分析提供支持。
Space and Time 是两层网络,由验证器层和数据仓库组成。SxT 平台的成功取决于验证器和数据仓库的无缝交互,以促进对链上和链下数据的简单和安全查询。
- 数据仓库由数据库网络和计算集群组成,这些网络由 space and time 验证器控制并路由到它们。Space and time 采用了一种非常灵活的仓储解决方案:HTAP(Hybrid transactional/analytic processing)。
- Validator 监视、命令和验证这些集群提供的服务,然后编排最终用户和数据仓库集群之间的数据流和查询。Validator 为数据进入系统(例如区块链索引)和数据退出系统(例如智能合约)提供了一种手段。
- 路由——支持与去中心化数据仓库网络的事务和查询交互
- 流媒体——充当大容量客户流媒体(事件驱动)工作负载的接收器
- 共识——对进出平台的数据提供高性能的拜占庭容错
- 查询证明——向平台提供 SQL 证明
- Table Anchor——通过在链上锚定表向平台提供存储证明
- Oracle——支持 Web3 交互,包括智能合约事件监听和跨链消息传递/中继
- 安全性——防止未经身份验证和未经授权访问平台
Space and Time 作为一个平台是世界上第一个分散的数据结构,它开启了一个强大但服务不足的市场:数据共享。在 Space and Time 平台内,公司可以自由共享数据,并且可以使用智能合约对共享的数据进行交易。此外,数据集可以通过 SQL 证明以聚合方式货币化,而无需让消费者访问原始数据。数据消费者可以相信聚合是准确的,而无需看到数据本身,因此数据提供者不再必须是数据消费者。正是出于这个原因,SQL 证明和数据结构架构的结合有可能使数据操作民主化,因为任何人都可以在摄取、转换和服务数据集方面做出贡献。
Web3 数据治理与发现
目前,Web3 数据基础设施架构中缺乏一个实用且高效的数据治理架构。然而,一个实用且高效的数据治理基础设施对于配置各参与方相关权益的数据要素至关重要。
- 对于数据来源者,需要拥有知情同意和数据本身的自由获取、复制转移的处置权。
- 对于数据处理者,需要拥有自主管控、使用数据和获得收益的权力。
- 对于数据衍生品,需要拥有经营权。
目前 Web3 数据治理能力单一,往往只能通过控制私钥来控制资产和数据(包括 Ceramic),分级分类配置能力几乎没有。最近,Tableland、FEVM 以及 Greenfield 的创新机制,在一定程度上可以实现数据的去信任化治理。传统的数据治理工具如 Collibra 一般只能用于企业内部,只具备平台级的信任,同时非去中心化的技术也使得其无法防止个人作恶及单点故障。通过 Tableland 等数据治理工具,可以保障数据流通过程所需的安全保障技术、标准和方案。
案例:Tableland
Tableland Network 是一种用于结构化关系数据的分散式 web3 协议,从以太坊 (EVM) 和与 EVM 兼容的 L2 开始。借助 Tableland,现在可以通过利用区块链层进行访问控制来实现传统的 web2 关系数据库功能。但是,Tableland 并不是一个新的数据库——它只是 web3 原生的关系表。
Tableland 提供了一种新方法,使 dapp 能够将关系数据存储在 web3-native 网络中,而无需进行这些权衡。
解决方案
使用 Tableland,元数据可以变更(如果需要,使用访问控制)、查询(使用熟悉的 SQL)和可组合(与 Tableland 上的其他表)——所有这些都以完全去中心化的方式进行。
Tableland 将传统的关系数据库分解为两个主要组件:具有访问控制逻辑 (ACL) 的链上注册表和链下(去中心化)表。 Tableland 中的每个表最初都是作为 ERC 721 令牌在基本 EVM 兼容层上铸造的。因此,链上的表所有者可以为表设置 ACL 权限,而链下 Tableland 网络管理表本身的创建和后续变更。链上和链下之间的链接都是在合约级别处理的,它只是指向 Tableland 网络(使用 baseURI + tokenURI,很像许多使用 IPFS 网关或托管服务器作为元数据的现有 ERC 721 代币)。
只有具有适当链上权限的人才能写入特定表。但是,表读取不一定是链上操作,可以使用 Tableland 网关;因此,读取查询是免费的,可以来自简单的前端请求,甚至可以来自其他非 EVM 区块链。现在,为了使用 Tableland,必须首先创建一个表(即,作为 ERC 721 在链上铸造)。部署地址最初设置为表所有者,并且此所有者可以为任何其他尝试与表交互进行变更的用户设置权限。例如,所有者可以设置规则,谁可以更新/插入/删除值,他们可以更改哪些数据,甚至决定他们是否愿意转让所有权表的另一方。此外,更复杂的查询可以连接来自多个表(拥有或非拥有)的数据,以创建一个完全动态且可组合的关系数据层。
考虑下图,它概括了新用户与已由某些 dapp 部署到 Tableland 的表的交互:
以下是整体信息流:
1. 新用户与 dapp 的 UI 交互并尝试更新存储在 Tableland 表中的一些信息。
2. dapp 调用 Tableland 注册智能合约来运行这个 SQL 语句,并且这个合约检查 dapp 的智能合约,其中包含定义这个新用户的权限的自定义 ACL。有几点需要注意:
- dapp 的单独智能合约中的自定义 ACL 是一个完全可选但高级的用例;开发人员不需要实现自定义 ACL,可以使用 Tableland 注册表智能合约的默认策略(只有所有者拥有完全权限)。
- 写查询也可以使用网关,而不是直接调用 Tableland 智能合约。dapp 始终存在直接调用 Tableland 智能合约的选项,但任何查询都可以通过网关发送,网关将以补贴的方式将查询中继到智能合约本身。
3. Tableland 智能合约获取该用户的 SQL 语句和权限,并将这些合并到发出的事件中,这些事件描述了要采取的基于 SQL 的操作。
4. Tableland Validator 节点侦听这些事件并随后采取以下操作之一:
- 如果用户具有写入表的正确权限,验证器将相应地运行 SQL 命令(例如,向表中插入新行或更新现有值)并将确认数据广播到 Tableland 网络。
- 如果用户没有正确的权限,Validator 不会对表执行任何操作。
- 如果请求是简单的读查询,则返回相应的数据;Tableland 是一个完全开放的关系数据网络,任何人都可以在其中对任何表执行只读查询。
5. dapp 将能够通过网关反映 Tableland 网络上发生的任何更新。
(使用场景)避免什么
- 个人身份数据——Tableland 是一个开放的网络,任何人都可以从任何表格中读取数据。因此,个人数据不应存储在 Tableland 中。
- 高频、亚秒级写入——例如高频交易机器人。
- 将每个用户交互存储在应用程序中——将这些数据保存在 web3 表中可能没有意义,例如击键或点击。写入频率会导致高成本。
- 非常大的数据集——应该避免这些,最好通过文件存储来处理,使用 IPFS、Filecoin 或 Arweave 等解决方案。但是,指向这些位置和相关元数据的指针实际上是 Tableland 表的一个很好的用例。
关于价值捕获的思考
不同单元在整个数据基础设施架构当中都有不可替代的作用,价值其价值捕获主要体现在市值/估值以及预估收益上,可以获得以下结论:
- 数据源是整个架构中价值捕获最大的模块
- 数据复制、转换、流式处理和数据仓库在其次
- 分析层可能会有很好的现金流,但估值会存在上限
简单的来说,在整个结构图的左边的公司/项目,其价值捕获倾向于更大。
行业集中度
据不完全的统计分析,行业集中度有以下判断:
- 行业集中度最高的是数据存储以及数据查询和处理两个模块
- 行业集中度中等的是数据抽取和转换
- 行业集中度较低的是数据源、分析和输出两个模块
数据源、分析和输出行业集中度较低,初步判断是不同的业务场景导致在每个业务场景中都能够有垂直场景的龙头出现,如数据库领域的 Oracle、第三方服务的 Stripe、企业服务的 Salesforce、仪表盘分析的 Tableau 以及嵌入式分析的 Sisense 等等。
而行业集中度中等的数据抽取和转换模块,初步判断其原因是因为业务属性的技术导向性。模块化的中间件形式也使得切换成本相对较低。
行业集中度最高的数据存储以及数据查询和处理模块,初步判断是由于业务场景单一、技术含量高、启动成本高且后续切换具有较大成本,使得公司/项目的先发优势较强,且具备网络效应。
数据协议的商业模式和退出路径
从成立时间和上市来看,
- 在 2010 年前成立的大部分是数据源类公司/项目,移动互联网还没有兴起,数据量还没有非常大,也有一部分数据存储和分析输出类的项目,仪表盘类为主。
- 2010 年~ 2014 年,是移动互联网崛起的前夕,诞生了 Snowflake 和 Databricks 等数据存储和查询项目,数据抽取和转换的项目也开始出现,一套成熟的大数据管理技术方案逐渐完善,期间也出现了大量分析输出类的项目,仪表盘类为主。
- 2015 年~ 2020 年,查询和处理类的项目如雨后春笋,同时也有大量数据抽取和转换的项目不断出现,让人们可以更好地发挥出大数据的威力。
- 2020 年往后,出现了更新的实时分析数据库和数据湖解决方案,如 Clickhouse 和 Tabular。
- 基础设施的完善是所谓“mass adoption”的前提。在大规模应用期间,也依然不断有新的机会,但这些机会几乎只属于“中间件”,而底层的数据仓库、数据源等解决方案几乎是赢者通吃的局面,除非有技术上实质性的突破,不然都很难成长起来。
而分析输出类项目,不论在哪个时期都是创业项目的机会。但也是在不断迭代创新,基于新的场景做新的事情, 2010 年以前出现的 Tableau 占据了桌面式仪表盘分析工具的大部分江山,随后出现的新型场景有如更加专业导向的 DS/ML 工具、更加综合导向的数据工作站以及更加 SaaS 导向的嵌入式分析等等。
从这个视角来看 Web3 目前的数据协议:
- 数据源和存储类项目江山未定,但龙头初显,链上状态存储以以太坊(2200 亿市值)为首,而去中心化存储以 Filecoin(23 亿市值)、Arweave(2.8 亿市值) 为首,可能会存在异军突起的 Greenfield。——价值捕获最高
- 数据抽取和转换类的项目,仍然还有创新空间,数据预言机 Chainlink(38 亿市值) 只是开始,事件流和流处理基础设施 Ceramic 以及更多的项目会出现,但空间不多。——价值捕获中等
- 查询和处理类的项目,the Graph(12 亿市值)已经能够满足大部分需求,项目类型和数量还没有到达爆发期。——价值捕获中等
- 数据分析类的项目,Nansen、Dune(10 亿估值)为主,需要有新的场景才有新的机会,NFTScan 和 NFTGo 有点类似新的场景,但只是内容更新,而非分析逻辑/范式层面的新需求。——价值捕获一般,现金流可观。
但 Web3 不是 Web2 的翻版,也不完全是 Web2 的进化。Web3 有非常原生的使命和场景,从而诞生了和以前完全不一样业务场景(前面三种场景是目前能够作出来的全部的抽象)。