您知道一些最佳 AI 模型背后的秘密吗?那就是它们能够访问并用于训练的大量数据。对于 AI/ML 模型来说,**快速可访问的数据至关重要**。我要强调的是,这不仅仅是数据,而是 *快速* 可访问的数据。如果有人能够构建比您更快、更强大的模型,那么您就已经输掉了 AI 竞赛。
在设计 AI 基础设施组件(特别是数据存储组件)时,务必将 ML 工程师和数据科学家的整体体验考虑在内,因为他们需要有效地存储机器学习算法并管理 MinIO 集群中可用的资源。这确保了能够快速有效地构建可靠的模型,而不会让存储基础设施成为瓶颈。
AI 基础设施层中包含多个组件,这些组件不仅用于构建 AI 模型,还用于在快速可访问的数据存储(如 MinIO)中训练和存储生成的模型。ML Ops 的世界正处于 DevOps 与以惊人速度产生的 ML 模型集成的交汇点。在这篇文章中,我们将向您展示如何使用 WARP 衡量您的 MinIO AI 数据存储 基础设施的性能。
WARP 是一款开源的、功能齐全的 S3 性能评估软件,旨在执行 WARP 客户端和对象存储主机之间的测试。WARP 衡量来自多个客户端针对 MinIO 集群的 GET 和 PUT 性能。WARP 具有许多选项,可以通过命令行或环境变量进行配置,允许您创建与您的工作负载相匹配的测试。我们将快速向您展示如何运行它,以便您可以开始分析您的 AI 数据存储基础设施。
运行和分析 WARP
创建 warp 客户端监听器以运行分布式 warp 基准测试,这里我们将它们作为有状态集跨客户端节点运行。
kubectl apply -f https://raw.githubusercontent.com/minio/warp/master/k8s/warp.yaml |
在 warp-job.yaml 中更新 --warp-clients
和 --host
标志,以匹配您的集群详细信息。设置完成后,按如下方式部署
kubectl apply -f https://raw.githubusercontent.com/minio/warp/master/k8s/warp-job.yaml |
WARP 作业完成后,可以在日志中找到状态
kubectl get pods -l job-name=warp-job NAME READY STATUS RESTARTS AGE warp-job-6xt5k 0/1 Completed 0 8m53s
~ kubectl logs warp-job-6xt5k ... ------------------- 操作:PUT。并发性:256。主机:4。 * 平均值:412.73 MiB/s,12.90 个对象/s(1m48.853s,从 19:14:51 UTC 开始)
按主机划分的吞吐量 * http://minio-0.minio.default.svc.cluster.local:9000:平均值:101.52 MiB/s,3.17 个对象/s(2m32.632s,从 19:14:30 UTC 开始) ...
聚合吞吐量,分成 108 个 1 秒的时间段 * 最快:677.1MiB/s,21.16 个对象/s(1 秒,从 19:15:54 UTC 开始) * 50% 中位数:406.4MiB/s,12.70 个对象/s(1 秒,从 19:14:51 UTC 开始) * 最慢:371.5MiB/s,11.61 个对象/s(1 秒,从 19:15:42 UTC 开始) |
您还可以设置 WARP 进行分布式基准测试。这使您能够以更真实的方式使用多个 WARP 客户端执行测试,因为这通常是现实世界中的情况。

运行 WARP 时,请确保安装客户端的节点位于私有服务器上,因为如果客户端暴露在外,则存在遭受 DDoS 攻击的可能性。此外,请避免在生产高峰期运行 WARP,否则可能会导致资源竞争。
可以随机化对象大小,文件将具有高达精细化对象大小的“随机”大小。
对象(水平方向)及其大小的示例,最大 100MB

您还可以当结果被认为稳定时自动终止 WARP。为了检测稳定设置,warp 会持续将当前数据下采样到 25 个数据点,这些数据点分布在当前时间范围内。为了使基准测试被认为是“稳定的”,25 个数据点的最后 7 个必须在指定的百分比范围内。
查看一段时间内的吞吐量,它可能如下所示

红色框显示用于评估稳定性的窗口。框的高度由当前速度的阈值百分比决定。
Warp 加速前进!
我们鼓励您参考 文档 以了解如何执行更多测试场景。例如,您可以启用 TLS 和服务器端加密以衡量它们对您环境的影响。您可以通过增加并发测试的数量来更多地对基础设施施加压力。您可以使用随机的对象大小组合,或指定与您当前环境和工作负载匹配的对象大小。您可以将测试配置为运行一段时间或像我们上面那样自动终止。
如果您对 WARP 有任何疑问,请务必通过 Slack 与我们联系!