冰山崛起:数据架构的转型

像 Apache Iceberg、Apache Hudi 和 Delta Lake 这样的开放式表格式已成为查询处理器的实际标准。然而,最近关于 Snowflake 和 Databricks 等查询引擎采用 Iceberg 的 REST Catalog API 的消息,已将竞争格局转向有利于 Iceberg 的方向。
Iceberg 的成功不仅源于这些引人注目的公告,还源于它能够解决困扰早期格式的关键问题。例如,Iceberg 为 ACID 事务、架构演变和高效元数据管理提供了强大的支持,这些功能以前在规模化时难以实现。在众多优秀参赛者中脱颖而出的这种竞争格局的转变,类似于 Kubernetes 如何从 Docker Swarm 中脱颖而出成为主导的容器编排平台,突破了容器化应用程序的可能性边界。
存储的重要性
就像将保龄球扔到水床上一样,Iceberg 的影响也引发了市场其他领域的类似转变。通过在开放式表格式中确定明确的赢家,市场无论如何也提升了存储的重要性。现在,如果一个存储解决方案无法支持这些开放式表格式,它就可能在现代数据架构中面临淘汰的风险。设备、非云原生存储、性能低下且操作复杂繁琐的存储,在这种新的层级结构中都没有立足之地。
只有性能、规模和云原生存储才能跟上开放式现代数据湖不断增长的采用所带来的创新步伐。
查询引擎的商品化
在这个新时代,查询引擎并没有变得不那么普遍,而是变得更加商品化。这种商品化使用户摆脱了对 SQL 或 Python 或任何特定查询引擎的限制,从而可以使用户根据其功能、性能和用例自由选择查询引擎。也许最终会使用多个查询引擎在同一数据上执行不同的操作。因此,我们可以预期数据存储上会出现大量计算选项,从而降低昂贵的专有计算解决方案的主导地位。
为什么这种转变对用户有利
昂贵的专有计算解决方案越来越有可能终结,这些解决方案将用户锁定在特定的供应商生态系统中。用户将能够根据其组织的需求和要求,从各种查询引擎中进行选择。这反过来又将迫使计算层进行创新,因为它们试图在新的功能和能力方面展开竞争。
计算层中更多选项意味着用户可以选择更好的方案并获得更具竞争力的价格。主要供应商将发现很难在计算方面保持高利润率,这将导致成本降低和更多创新。 解耦 通常会带来成本节约。
为什么这种转变对 AI 有利
随着数据湖的扩展,在 AI 越来越大的数据需求的推动下,可扩展存储变得至关重要。专注于 AI 的组织需要管理 PB 级原始数据,因此需要强大而可扩展的存储系统。Iceberg 的架构支持这种需求,可以容纳高级 AI 应用程序所需的大量非结构化和结构化数据。随着来自 LLM 的资源增强型生成 (RAG) 越来越普遍,能够交叉引用庞大而多样的数据集对于在 AI 驱动的问答系统中构建上下文和生成见解至关重要。
Iceberg 的兴起意味着存储的兴起
贯穿整个贪婪的数据吞噬过程将是对性能、可扩展性和可用存储的需求。这就是 Iceberg 引领的全新世界。一个对象存储成为主要存储,查询引擎商品化的世界。一个为用户带来更多灵活性和成本效益,并为 AI 应用程序开辟新可能性的世界。如果您在使用 MinIO 构建 Iceberg 现代数据湖时有任何疑问,请通过 hello@min.io 或我们的 Slack 频道与我们联系。