AI 工作负载回迁:应对不断飙升的云成本的本地解决方案

Repatriating AI Workloads: An On-Prem Answer to Soaring Cloud Costs

云计算曾经承诺无限的可扩展性、灵活性以及效率。但随着生成式 AI 的兴起,许多组织正在经历一种粗暴的觉醒,表现为前所未有的云计算账单。根据Tangoe 最近的报告,由于 AI 的计算需求以及 GPU 和 TPU 使用成本的上升,近四分之三的企业发现他们的云计算账单“难以管理”。

对于在 AI 驱动的世界中难以证明云计算支出的企业来说,有一个解决方案:将选定的 AI 工作负载回迁到本地基础设施。

回迁的理由

随着云服务提供商对高性能计算资源收取溢价,在云端运行高级工作负载可能会迅速导致支出飙升。根据我们的研究,我们将在稍后进行预览,39% 的受访者对在云端运行人工智能和/或机器学习工作负载相关的成本表示非常担忧或极其担忧。

回迁——将选定的工作负载从云端迁移回本地基础设施——可能是缓解这种日益增长的焦虑的解决方案,特别是对于具有可变且不可预测的使用模式的 AI 工作负载。通过将这些工作负载迁移到本地,拥有足够基础设施的公司可以规避隐藏的云成本,例如出口费用、存储检索费用以及经常让组织措手不及的空闲资源费用。

对于能够在商用或现成硬件上高效运行的软件,这种策略可能特别有效。大多数 AI 应用程序,包括机器学习和数据处理工作流,不需要定制的高端服务器或专用硬件,这使得它们成为回迁的理想选择。利用商品硬件,公司可以经济高效地处理要求苛刻的 AI 工作负载,减少对云服务提供商溢价基础设施的依赖,同时保留对其环境的灵活性和控制权。

回迁 AI 工作负载的关键优势

1. 成本可预测性和控制力在云端,基于用量的计费模式使得难以预测成本。相比之下,本地基础设施提供了一种固定成本模型,并有可能随着时间的推移摊销硬件成本,这反过来又可以提高可预测性。我们发现客户通过回迁可以节省 50% 的云成本

2. 增强性能高性能 GPU 和低延迟网络对于 AI 至关重要。通过在本地托管工作负载,公司可以更好地控制这些因素,确保 AI 模型能够尽可能高效地运行。通过减少对外部云网络的依赖,组织可以潜在地降低延迟并提高性能——这是实时 AI 应用程序的关键要素。

3. 改善数据安全和治理AI 和机器学习应用程序依赖于大量数据,这些数据通常具有敏感性。虽然云服务提供商提供了强大的安全措施,但将数据回迁到本地环境可以提供对数据治理的更细粒度的控制。组织可以通过将其信息保留在自己的防火墙内来实施更严格的访问控制并降低数据泄露的风险。

4. 减少影子 IT 并提高问责制回迁工作负载可以帮助解决影子 IT 的问题,在影子 IT 中,部门独立启动云资源,从而增加意外成本。本地基础设施需要集中审批和监督,使组织更容易确保资源得到有效和透明地使用。

何时进行回迁:确定适合本地的最佳 AI 工作负载

并非所有 AI 工作负载都适合回迁。需要大量计算能力的高优先级、实时或关键任务应用程序通常非常适合本地基础设施。批处理和模型训练任务通常需要在设定的时间段内使用高强度计算资源,也倾向于在专用的本地环境中表现良好。

相反,动态或临时工作负载可能仍然受益于云的灵活性。确定哪些工作负载最适合本地部署可以为组织节省大量时间和金钱,而不会牺牲性能或可扩展性。

在考虑您的基础设施时,最好通过选择可以在任何地方运行的软件来内置选择在哪个环境中运行工作负载的灵活性。 

采用混合方法处理 AI 工作负载

回迁 AI 工作负载并非“非此即彼”的解决方案。混合策略结合了云和本地环境的优势,是理想的选择,使公司能够在最有效的地方利用每个选项的优势。通过在本地运行可预测、高强度的 AI 工作负载,并在云端使用更灵活的任务,组织可以优化成本和性能。如果您有任何关于如何构建架构或任何问题,请通过hello@min.io或我们的Slack 频道与我们联系。