MinIO 数据舱:面向艾字节级存储的参考架构

现代企业以其数据为定义。 这需要一个用于 AI/ML 的数据基础设施,以及一个作为现代数据湖基础的数据基础设施,能够支持商业智能、数据分析和数据科学。 无论是落后、刚刚起步还是使用 AI 来获取更深入的见解,这都是如此。 在可预见的未来,这将是企业被感知的方式。 在企业中 AI 如何进入市场这一更大的问题中,存在多个维度或阶段。 其中包括数据摄取、转换、训练、推理、生产和归档,数据在每个阶段之间共享。 当这些工作负载扩展时,底层 AI 数据基础设施的复杂性会增加。 这就需要高性能基础设施,同时最大限度地降低总体拥有成本 (TCO)。
MinIO 已经创建了一个全面的数据基础设施蓝图,以支持艾字节级 AI 和其他大型数据湖工作负载。 它被称为 MinIO DataPod。 它使用的度量单位是 100PiB。 为什么? 因为现实情况是,如今在企业中这很常见。 以下是一些快速示例
- 一家北美汽车制造商拥有近 1 艾字节的汽车视频
- 一家德国汽车制造商拥有超过 50PB 的汽车遥测数据
- 一家生物技术公司拥有超过 50PB 的生物、化学和以患者为中心的數據
- 一家网络安全公司拥有超过 500PB 的日志文件
- 一家媒体流媒体公司拥有超过 200PB 的视频
- 一家国防承包商拥有超过 80PB 的来自飞机的地理空间、日志和遥测数据
即使他们今天没有达到 100PB,他们也将在几个季度内达到。 平均公司以每年 42% 的速度增长,以数据为中心的公司增长速度是其两倍,甚至更高。
MinIO Datapod 参考架构可以以不同的方式堆叠,以实现几乎任何规模 - 事实上,我们有客户根据这个蓝图构建 - 一直超越 1 艾字节,并且拥有多个硬件供应商。 MinIO DataPod 提供了一个端到端架构,使基础设施管理员能够为各种 AI 和 ML 工作负载部署经济高效的解决方案。 以下是我们架构的理由。
AI 需要解耦的存储和计算
AI 工作负载,尤其是生成式 AI,天生需要 GPU 来进行计算。 它们是具有令人难以置信的吞吐量、内存带宽和并行处理能力的卓越设备。 跟上越来越快的 GPU 需要高速存储。 当训练数据无法容纳在内存中,并且训练循环必须对存储进行更多调用时,这一点尤其重要。 此外,企业不仅需要性能,还需要安全、复制和弹性。
企业存储需求要求架构完全将存储与计算解耦。 这使得存储可以独立于计算进行扩展,并且鉴于存储增长通常比计算增长高出一个或多个数量级,这种方法通过优异的容量利用率确保了最佳经济效益。
AI 工作负载需要不同类型的网络
网络基础设施已将 100 千兆位每秒 (Gbps) 带宽链路标准化为 AI 工作负载部署。 当今的 NVMe 驱动器平均提供 7GBps 的吞吐量,这使得存储服务器和 GPU 计算服务器之间的网络带宽成为 AI 管道执行性能的瓶颈。
使用像 InfiniBand (IB) 这样的复杂网络解决方案来解决这个问题存在真正的限制。 我们建议企业利用现有的、行业标准的基于以太网的解决方案(例如,通过 TCP 的 HTTP),这些解决方案开箱即用,能够以高吞吐量为 GPU 提供数据,原因如下
- 更大的开放生态系统
- 降低的网络基础设施成本
- 高速互连速度(800 GbE 及更高),支持 RDMA over 以太网(即:RoCEv2)
- 在部署、管理和观察以太网方面重复使用现有专业知识和工具
- 围绕 GPU 到存储服务器通信的创新正在基于以太网的解决方案上发生
AI 的需求要求对象存储
公有云中的 AI 数据基础设施都是构建在对象存储之上,这绝非巧合。 每个主要的基础模型都是在对象存储上训练的,这也不是巧合。 这是 POSIX 太过冗长,无法在 AI 所需的数据规模上工作 - 尽管传统文件服务器会争辩说并非如此。
将交付公有云中 AI 的相同架构应用于私有云,显然也应用于混合云。 对象存储擅长处理各种数据格式和大量非结构化数据,并且可以轻松扩展以适应不断增长的数据,而不会影响性能。 它们的扁平命名空间和元数据功能使高效的数据管理和处理成为可能,这对于需要快速访问大型数据集的 AI 任务至关重要。
随着高速 GPU 的发展,网络带宽标准化到 200/400/800 Gbps 及更高,现代对象存储将成为满足 AI 工作负载性能 SLA 和规模的唯一解决方案。
软件定义一切
我们知道 GPU 是主角,而且它们是硬件。 但是,即使英伟达也会告诉你,秘诀在于 CUDA。 但是,跳出芯片,基础设施世界正日益成为软件定义的。 存储领域尤其如此。 软件定义存储解决方案对于可扩展性、灵活性以及云集成至关重要,它们超越了传统基于设备的模型,原因如下
- **云兼容性**:软件定义存储与云操作保持一致,与无法跨多个云运行的设备不同。
- **容器化**:设备无法容器化,会失去云原生优势,并阻止 Kubernetes 编排。
- **硬件灵活性**:软件定义存储支持各种硬件,从边缘到核心,适应不同的 IT 环境。
- **自适应性能**:软件定义存储提供了无与伦比的灵活性,能够高效地管理不同芯片组上的不同容量和性能需求。
在艾字节级,简单性和基于云的操作模型至关重要。 对象存储作为一种软件定义的解决方案,应该在商品现货 (COTS) 硬件和任何计算平台上无缝运行,无论是裸机、虚拟机还是容器。
为对象存储定制构建的硬件设备通常会以高成本的硬件和复杂的解决方案来弥补软件设计不良,从而导致高昂的总体拥有成本 (TCO)。
MinIO DataPOD 针对 AI 的硬件规格
使用 MinIO 进行 AI 倡议的企业客户将艾字节级数据基础设施构建为 100PiB 的可重复单元。 这有助于基础设施管理员简化部署、维护和扩展的过程,因为 AI 数据会随着时间的推移呈指数级增长。 以下是构建 100PiB 规模数据基础设施的物料清单 (BOM)。
集群规格

单机架规格

存储服务器规格
存储服务器参考
网络交换机规格

价格
MinIO 已与多个客户验证了此架构,并预计其他客户将看到以下每月每太字节的平均价格。 这是一个平均市场价格,实际价格可能会根据配置和硬件供应商关系而有所不同。
用于 AI 的供应商特定交钥匙硬件设备将导致高昂的 TCO,从单位经济学角度来说,对于艾字节级的大数据 AI 倡议来说,无法扩展。
结论
在满足所有 AI/ML 工作负载的 TCO 目标的同时,在艾字节级建立数据基础设施可能很复杂,难以正确执行。 MinIO 的 DataPOD 基础设施蓝图使基础设施管理员能够轻松直观地设置所需的商品现货硬件,并使用高度可扩展、高性能、经济高效的与 S3 兼容的 MinIO 企业对象存储,从而在企业环境中改善总体上市时间,并更快地从 AI 倡议中获得价值。