亚马逊 S3 Express One Zone 的近期发布验证了对象存储是 AI 的主要存储
几年来,我们一直主张在现代数据栈中对象存储是主要存储。在人工智能时代,企业几乎完全专注于对象存储,这一点更加明显。现代数据栈依赖于解耦的计算和存储,以及在 Kubernetes 上的容器中运行的云原生微服务。随着越来越多的企业转向这种架构,对象存储成为主要存储 - 提高了对性能和可扩展性的要求。
对于主要存储来说,性能至关重要,这就是为什么 MinIO 经常被用作本地主要人工智能/机器学习和数据湖的存储。MinIO 能够提供强大的性能 - 最近的基准测试仅使用 32 个现成的 NVMe SSD 节点就实现了 325 GiB/s 的 GET 和 165 GiB/s 的 PUT。MinIO 完全能够提供为诸如Apache Spark、Kubeflow、Ray Data以及你能想到的任何其他云原生 AI 框架等苛刻工作负载提供动力的性能。
亚马逊最近宣布了Amazon S3 Express One Zone,这是其久负盛名的 S3 的高性能版本。S3 Express One Zone 针对高吞吐量和低延迟进行了优化。能够每秒处理数百万个请求,Amazon S3 Express One Zone 旨在满足机器学习训练和实时机器学习所需的大规模并行操作。亚马逊声称,Amazon S3 Express One Zone 提供的访问数据速度是 S3 Standard 的 10 倍,延迟仅为个位数毫秒,并且成本降低。Amazon S3 Express One Zone 存储桶仅限于单个可用区。定价基于使用量,每月 0.16 美元/GB,是 S3 Standard 成本的 8 倍。亚马逊的目的是让客户“将频繁访问的数据置于高性能计算资源附近”。
Amazon S3 Express One Zone 为在 AWS 中实现快速无服务器计算提供了可能性。通过更低的延迟和更高的并发性,流处理得到了极大的提升 - WarpStream已经开始利用这一点。基于开放式表格格式的应用程序,例如Apache Hudi、Iceberg和Delta,也受益于更快的对象存储。人工智能需要读取海量数据,因此从高性能对象存储中获益匪浅。
分析
让我们详细了解 Amazon S3 Express One Zone 发布公告。
Amazon S3 Express One Zone 是一种临时对象存储,它将数据公开给本地计算。它并非旨在取代数据湖。亚马逊客户将继续在 S3 Standard 中存储数据。唯一的区别是,未来他们将将其复制或分层到 S3 Express 中以进行处理,然后在处理完成后将其从 S3 Express 中删除。存储在 S3 Standard 中的原始数据保持不变。
这在某种程度上是必需的。原因是 S3 Express 并非长期存储的可行选择。其价格是 S3 Standard 的 8 倍,但性能提升了3 倍到10 倍。它比EBS SSD贵 30% 到 200%。这种定价损害了早期 S3 增长最大的驱动力之一 - 可负担性。由于价格是 S3 Standard 的 8 倍,企业必须仔细选择其工作负载。
然而,这种新的存储类的引入利用了解耦的现代数据架构,并利用这种模块化功能为企业提供调整每个工作负载的能力,使其具有低延迟和高成本(S3 Express)或高延迟和低成本(S3 Standard)。这种模块化功能由对象存储提供支持。企业没有理由在本地文件系统或块存储上存储海量数据集 - 无论是在亚马逊还是其他地方。
这是一个关键点:对于现代工作负载而言,S3 Express 的引入进一步表明文件和块存储在 AWS 以及其他地方都已过时。企业现在可以设计和构建仅通过 S3 API 处理数据的云原生系统。单个编程接口简化了架构,无需编写任何特殊代码来推送 AI 训练数据,现在只需将其临时迁移到更快的对象存储层即可。
欢迎加入
没有什么比世界上最大的云提供商推出旨在满足数据密集型 AI/ML 应用程序需求的新服务更能体现我们“对象存储是 AI 的主要存储”的主张。它甚至设计为最适合处理大量小对象,而这是 AI/ML 的常见工作负载配置文件。大规模的 ML 训练必须依赖于对象存储,因为它在数百个计算节点上并行运行,很多时候依赖于昂贵的 GPU 进行计算。
我们可以几乎肯定地说,所有主要的云提供商都将以类似的价格推出类似的高性能对象存储选项。这对他们来说是一个极好的增值机会,可以添加一个更昂贵的存储选项。这可能不会阻止向数据回迁发展的趋势,这是一个可以节省成本的现象,它还能提高 AI/ML 性能并更好地控制数据,但这是一种旨在减缓该趋势的策略。真正的输家是块存储和文件存储领域(请参阅 NetApp 的最近一个季度业绩)。
总结
我们最终对 S3 Express 的推出感到荣幸。它验证了我们在过去几年中所做的大部分工作 - 在性能方面,以及在可扩展性、弹性和安全性方面。更重要的是,我们认为这对市场来说是一个重要的信号,表明文件和块存储正日益成为过时的技术,而现代数据栈的起点和终点都是对象存储。
近年来,对象存储作为主要存储的兴起是由性能驱动的。对数据需求旺盛的 AI/ML 应用需要低延迟、高吞吐量和高并发性的对象存储。对于已经投入 AWS 生态系统的用户来说,Amazon S3 Express One Zone 似乎是一项有价值的服务。
如果您需要本地部署或异地托管的高性能对象存储,用作 AI/ML 的主要存储,那么 MinIO 是您的最佳选择。
您不必完全相信我的话,下载 MinIO 并亲自探索它。如果您有任何疑问,请加入我们的社区 Slack 频道。