在 LinkedIn 上,数据和数据库领域有一个非常流行的优秀帖子。文章由 Theory VC 合伙人 Tomasz Tunguz 撰写,它谈论了一个趋势,我们自 2019 年以来一直在讨论。
数据库正在成为高速查询引擎,并正在抛弃存储。这并不意味着存储不重要,恰恰相反,它比以往任何时候都更加重要,这意味着高速查询处理是核心能力,并且它与存储竞争。数据库希望专注于数据库相关的事物,而它们希望存储专注于存储相关的事物。
这是解耦 2.0。我们看到了第一波浪潮,当时 HDFS 在自身需要为每个存储节点提供一个计算节点(高速查询处理)的压力下崩溃了。
想想 Cloudera、Oracle 等公司采用的数据库管理的整体式方法。这种方法在用户刚开始考虑大规模数据时确实起到了作用。事实证明,它无法扩展。具有紧密耦合的存储/计算的托管服务数据平台很快就被认定在一个数据优先的世界里是不可行的,在这个世界里,对存储的需求远远超过了对计算的需求。
让我们深入了解解耦 2.0。
解耦数据库
想象一个图书馆,书籍(数据)和阅览台(计算资源)是分开的。读者(查询)可以访问他们需要的任何书籍,而无需绑定到特定的阅览台。这种设置允许图书馆根据需求调整阅览台的数量,从而优化空间和资源。同样,在数据库中解耦存储和计算,可以实现灵活高效的数据处理;而传统的紧密耦合的存储和计算设计限制了灵活性,并将用户锁定在特定的供应商生态系统中。
用户要求更多控制权和灵活性。如果你需要第一手证据,请听取 Snowflake 的最近财报电话会议或阅读会议记录。这是一个传奇的以客户为中心的组织,他们正在竞相采用开放式表格格式(特别是 Iceberg),并且在此过程中放弃了存储收入,因为这是他们的用户想要的。这使他们在短期内损失了数十亿美元的市值。不是数百万,而是数十亿美元。不仅仅是 Snowflake,你可以在任何地方看到这种现象。SQL Server、Teradata、ClickHouse、Greenplum 等等。拥有大量数据的企业客户越来越多地要求并接受,除了:
- 开放式表格格式:像 Iceberg、Hudi 和 Delta Lake 这样的格式可以实现不同系统之间的数据无缝交换。这种互操作性使企业能够为特定任务选择最佳工具。
- 集中式数据存储:不是为了各种目的(分析、AI 等)将数据复制到孤立的数据仓库中,而是集中式存储解决方案或数据湖成为架构蓝图。这些数据湖需要容纳一个组织的所有数据,涵盖许多不同的用例。与数据仓库不同,不同的系统可以根据需要从一个中心位置访问和处理这些数据。

解耦 2.0 的优势
在解耦 1.0 中,主要驱动因素是成本、简单性和避免锁定:
- 节省成本:将存储与计算分离,允许两者独立扩展。存储通常比计算成本更低,一个自然分离两者的架构可以使两者都实现性能和成本效益的最佳化。
- 简化的架构:解耦的架构更模块化,更易于管理。企业可以选择最佳的存储、计算和各种数据处理任务解决方案。使用这种现代方法管理数据栈,确实没有必要受到老旧且不合适的技术的阻碍。
- 避免供应商锁定:随着计算与存储分离,不同的供应商可以在价格、性能和特定于每个工作负载的功能方面展开竞争。这促进了更加动态和创新的数据处理环境。
在解耦 2.0 中,优势在于性能、可扩展性和可选性。
- 性能:对于数据库来说,存储和计算分离提供了构建最佳架构的机会。对于 Snowflake 来说,他们投资于成为市场上最快、性能最高的查询引擎。在软件领域,可能没有比数据库更具竞争力的市场了。这是一个战略性目标。它也允许他们的客户在存储方面做出类似的、以性能为导向的最佳决策。这些显然将是对象存储的决策,但具体哪种(AWS S3、Azure Blob、GCP Object、MinIO)将取决于客户试图实现的目标。我们不想在这个问题上钻牛角尖,但我们不理解现在声称自己是数据库公司,并试图以数据平台的名义与 Snowflake 和 Databricks 竞争的存储公司。那里正在发生一个伊卡洛斯的故事。
- 可扩展性:我们在 AI 方面正在进入未知领域,这对 Snowflake 等巨头也产生了影响。他们希望,坦率地说,需要能够以更多的方式处理更多数据。数据库,不仅仅是 Snowflake,需要在提供的价值方面变得更加可扩展。这也是他们的客户想要的。Snowflake 是一种利用率模型,利用率越高,他们获得的报酬就越多。当你将存储与计算分离时,它会为 Snowflake 及其客户在计算方面提供一系列选择,因为他们没有被绑定到共同设计存储解决方案的负担(考虑到他们一直在转售其他人的对象存储,他们对此几乎没有影响力)。现在 Snowflake 可以突破界限,推动客户采用能够跟上步伐的存储。这对每个人都有好处(而且正如你可能想象的那样,对世界上最快的对象存储来说真的很有好处)。
- 可选性:最后,解耦 2.0 为客户带来了更高的可选性。他们可以继续使用现有的模型(Snowflake + 云对象存储)吗?——可以。他们可以采用新的技术,在这些技术中,存储与计算是分开的(通过外部表)吗?——可以。这种额外的可选性总是积极的,客户在解耦 2.0 中获得了更多可选性。
数据管理的新时代
虽然数据仓库供应商熟悉存储和计算分离的概念,但过去实施的主要重点是在其自身生态系统内进行扩展。用户才刚刚开始意识到在这方面像超大规模企业一样思考的优势。当前的趋势要求进行更深层的分离,对于所有用户来说,存储成为一种独立于计算层的实用程序。
这种范式转变使企业能够释放数据的真正潜力。对于需要大量干净、可用数据才能取得成功的 AI 和 ML 工作负载来说,尤其如此。开放式数据格式和解耦的架构使企业能够利用更广泛的工具和技术,从其数据资产中获取最大价值。
未来属于开放、灵活且具有成本效益的数据架构。存储和计算的解耦为数据管理的新时代铺平了道路,使企业能够充分利用其信息的真正潜力。请给我们发送消息,告诉我们你在hello@min.io或我们的Slack中构建了什么。