现代数据湖为何选择私有化部署

现代数据湖(或者您更喜欢的“湖仓”)正在重塑企业数据架构。这些现代数据湖已扩展到前所未有的规模,从 PB 级扩展到 EB 级,同时通过采用云原生原则和开放标准,变得更加高效和多引擎兼容。由于多种原因,这些数据湖不适合部署在公有云中,其中最主要的是经济因素。这种不匹配导致了越来越多数据湖的构建和迁移到私有云环境和托管数据中心。
这篇博文详细介绍了这种向私有云迁移的原因,并试图解释这种战略性转变背后的动机。
云运营模式的兴起
让我们从云运营模式的概念开始。云运营模式是一套从容器化到编排和自动化的原则。然而,它并不是一个地点。云运营模式要求我们重新思考如何构建和管理我们的 IT 环境,以充分利用用于构建云的技术。与其将云视为一个位置,不如将云视为一个非常有价值的业务工具。
将云运营模式应用于业务问题的能力,是企业 IT 团队的竞争优势。像超大规模企业一样应对挑战:构建云原生可移植软件,使用 Kubernetes 进行编排,自动化操作,并通过技术而非人力进行扩展,同时保持敏捷和高效。
云运营模式是一种竞争优势。这些原则可能是在公有云中学习到的,但经济因素不支持继续留在那里。在急于实施云战略的过程中,许多企业让自己陷入了为公有云中捆绑在一起的平庸软件支付高昂费用的困境。正确的方法是根据其特性和企业的需求,挑选最合适的工具。
以下是云技术人员正在寻找的特性:
高性能:优先考虑强调速度和效率的工具,采用软件优先的方法来增强性能和开发人员体验。
解耦计算和存储:分离这些组件提供了更高的灵活性和可扩展性,使您选择的服务和工具能够在其各自的专业领域中脱颖而出。
开放标准:开放标准不仅鼓励互操作性,而且可以使您的投资具有前瞻性。这不仅包括开源解决方案,还包括我们将探讨的开放表格格式。
与 RESTful API 的兼容性:互连性是必不可少的。您的工具应该共享一种通用的语言,其中 S3 作为云存储的通用语言。
软件驱动/基础设施即代码:自动化并让 Kubernetes 负责编排您的基础设施,使您可以抽象出手动管理的复杂性,并实现快速高效的可扩展性。
通过拥抱云运营模式,组织可以优化其应用程序和数据架构以适应云环境,从而实现可扩展性、灵活性和效率。
真正的云原生可移植格式
作为一种理念,云运营模式取得成功的关键驱动力之一是真正云原生可移植格式的出现。诸如 Apache Iceberg、Apache Hudi 和 Delta Lake 等技术正在引领这一潮流。这些格式摆脱了供应商锁定,使您能够在多云和私有云环境中部署数据和应用程序。越来越多地,这正是现代企业构建其基础设施的方式。
这些可移植格式提供的多功能性和自由度对于寻求最大化其报告、分析和 AI/ML 应用程序选择的企业来说非常宝贵。从本质上讲,OTF 有可能成为昂贵、紧张和专有的关系型数据库管理系统 (RDMS) 的经济高效的替代方案,这些系统在现代时代已经失去了其有效性。
查询引擎在数据湖中的意义
查询引擎位于数据湖中的数据之上,允许用户对该数据执行查询。通常情况下,查询引擎与 对象 Lambda 结合使用,允许用户完全自动化分析管道。能够访问数据无论其存储位置(本地、公有云混合部署、边缘或裸机)的查询引擎的出现,无疑在确保数据可访问性和分析方面发挥了关键作用。
这些现代查询引擎完全解耦了存储和计算,以便专注于查询性能和用户体验。许多大小不一的数据库都采用了这种模式,包括 Snowflake、Teradata、Mircosoft SQL Server、DuckDB 和 其他。随着解耦存储和计算成为现代云运营模式的关键部分,越来越多的应用程序加入了云原生行列。
面向未来的举措:查询引擎转向 S3 兼容
S3 兼容性不再是一种奢侈,而是一种必要。随着对 S3 兼容性的需求不断增长,主要的 Data Lake、数据存储、查询引擎和 ETL 平台制造商正在推动这一转型。这种转变是对不断变化的业务需求的回应,这些业务需要云原生 数据栈 的模块化组件之间的互操作性。一切必须通过设计协同工作,否则将在追求可操作的数据洞察的道路上被抛在后面。
节省成本和自由
将操作从云转移到本地基础设施可以带来 大幅的成本节约。像 X 这样的公司取得了成功,通过其 云回迁计划 将每月云成本降低了 60%,这为我们提供了鼓舞人心的例子,证明了什么是可能的。然而,除了简单的成本效益之外,在私有云上构建还有其他好处。
私有云能够
合规性:通常,组织的内部政策会驱动构建现代数据湖的决策。金融、医疗保健、国家安全或其他敏感数据的行业,出于法律和合规性原因,根本无法将其数据存储在公有云中。为了推进云战略,他们必须私下构建。
安全控制:越来越多的企业担心敏感数据的安全性和隐私,他们发现将数据移至内部可以实施严格的安全措施并完全控制数据访问。
集成:企业最合适的工具不会捆绑在公有云中。它们存在于创新的任何地方。不要受限于公有云提供的服务。
打破数据孤岛:由高性能对象存储(如 MinIO)支持的整体云架构统一了以前特定于应用程序的数据。此模型可访问数据存储的任何位置,使您的团队能够使用最新的工具处理数据并安全地协作。
最终,这些其他好处归结为您对基础设施以及由此产生的数据的灵活控制。关键是要控制您的数据,因为当您放弃数据时,您也放弃了数据可以为您的业务带来的好处。
结论
数据世界变化的速度可能会让人筋疲力尽。但这并不能改变我们必须不断适应和创新的事实。随着越来越多的数据湖部署到私有云中,数据湖的架构和设计正在经历深刻的转型。这种变化是由真正云原生可移植格式、查询引擎而非 RDBMS 的日益重要性、S3 兼容性的重要性以及软件定义基础设施的兴起驱动的,所有这些都结合起来,带来了私有云的自由和灵活度。更重要的是,云运营模式的长期结果是,它挑战企业构建真正云原生的工具和服务,而不仅仅是贴上云原生的标签。拥抱这些变化将带来成本节约、更大的灵活性和面向未来的数据管理策略。
了解和利用这些转变是您在不断发展的数据生态系统中取得成功的途径。