组织管理数据基础设施的方式正在发生重大转变。越来越多的公司认识到分离存储和计算的优势,这将带来更好的性能、成本节省和可扩展性。这一趋势是由 AI 和 ML 工作负载日益复杂所驱动的,这些工作负载需要灵活、高性能的系统。
Databricks 首席执行官 Ali Ghodsi 是这种转变的坚定支持者。在最近的一次 演讲 中,他强调了组织控制自身数据的必要性。他鼓励公司停止依赖 Snowflake 和 Databricks 等供应商来管理数据,而是使用基于对象存储构建的数据湖。好处是什么?更多控制,更低成本,以及根据不断增长的需求扩展数据基础设施的能力。
Ghodsi 的信息是供应商构建、销售和倡导更具成本效益和灵活的数据架构的更广泛运动的一部分。传统的系统,其中存储和计算紧密集成,已被证明不足以处理 AI 和 ML 的海量数据量和处理需求。越来越多的供应商,如 Databricks,正在大力投资于计算,并将存储留给一流的对象存储软件。这种策略的巅峰体现是在 现代数据湖 中,通常被称为湖仓一体。现代数据湖将数据湖的灵活性与数据仓库的性能相结合。
Databricks 等供应商倡导的存储和计算分离,标志着数据架构的重大转变,使组织能够构建高度灵活和可扩展的数据基础设施,这些基础设施能够满足 AI 和 ML 工作负载的需求,同时最大限度地提高控制并最大限度地降低成本。
分离:为什么它是一个游戏规则改变者
在整个行业,许多人认识到,过去单一的系统已经不再适用。由 MinIO 等对象存储提供支持的现代数据湖,正在成为面向未来的基础设施的标准。这种转变不仅仅是关于节省资金 - 虽然它也做到了 - 而是关于让组织能够处理明天的数据需求,同时使用当今 AI/ML 的系统、模型和工具。
在一个数据呈指数级增长,AI/ML 工作负载变得越来越普遍的世界中,对灵活、经济高效的基础设施的需求至关重要。传统的像 Hadoop 这样的数据平台,通常将存储和计算集成在一起,这在理论上听起来很高效,但在实践中会导致效率低下。使用这些传统的架构,最终会为闲置的计算资源付费,或者为未充分利用的存储付费。
使用分离的架构,可以独立地扩展存储和计算。对于 AI 和机器学习来说,这是一个巨大的优势:可以有效地存储海量数据集,并且可以动态分配计算资源用于模型训练、数据处理或分析。
使用对象存储在任何地方构建现代数据湖
如果您希望构建一个能够满足 AI 和 ML 需求的现代数据湖,那么高性能对象存储至关重要。例如,MinIO 提供了 企业级 对象存储,该存储针对大规模数据进行了优化。通过使用像 MinIO 这样的系统,组织可以确保其现代数据湖是 高度可扩展 的,可靠 的,并且 高性能 的,这三点对于处理大型 AI/ML 数据集至关重要。
MinIO 可以部署在本地、私有云、公共云、Colo、边缘或任何您的工作负载需要的地方。所有这些都在易于获得的商用硬件上。这就是现代数据湖的魔力所在:您可以利用您的对象存储来构建数据湖,同时享受数据仓库在任何地方的性能优势,而无需被数据饥渴的供应商的昂贵的专有解决方案所束缚,这些供应商试图创建人工的围墙花园来将您困住。
在实际应用中,这意味着您的数据科学家和机器学习工程师可以直接从对象存储(无论数据需要存储在何处)查询和访问海量数据以训练模型。这就是真正控制自身数据意味着什么。
确保未来
随着组织重新思考其数据架构,确保海量数据的安全性比以往任何时候都更加重要。 MinIO 的企业对象存储密钥管理服务器 (KMS) 提供了一个可扩展的、高可用的解决方案,用于管理数十亿个加密密钥,这些密钥对于在对象级别加密数据至关重要。KMS 与硬件安全模块 (HSM) 和基于云的 HSM 完美集成,为加密操作提供了强大的信任基础,无论是在云中、本地还是在边缘。
MinIO 还支持多租户,允许组织通过加密隔离来隔离不同的团队或部门,确保敏感数据受到保护,并确保遵守 GDPR 和 HIPAA 等监管要求。结合身份和访问管理 (IAM)、服务器端加密和审计日志记录,MinIO 确保您的数据在现代数据湖架构的每一层都得到保护。
构建未来
为了在 AI 和 ML 时代保持竞争力,组织必须重新思考其数据策略。湖仓一体模型正在迅速成为现代可扩展数据环境的黄金标准。通过采用灵活、高性能的存储解决方案,而不是盲目地将数据交给供应商,企业可以确保他们有能力处理当今的数据需求和明天的挑战。如果您有任何想法,请通过 hello@min.io 或我们的 Slack 频道与我们联系。