MinIO 最近与 User Evidence 合作进行了一项主要的研究计划,对 656 位 IT 领导者进行了调查。结果非常有趣,突出了我们在企业中看到的巨大变化,无论是向对象存储的迁移,还是对使用对象存储作为组织人工智能计划的主要基础设施的兴趣。我们将在这里总结一些关键要点作为预告,完整的报告将在 12 月初的 Gartner IOCS 活动发布时发布。
近 50% 的受访者在 IT 运维/基础设施部门工作,应用和软件开发紧随其后(27%),IT 架构(11%)排在第三位。其余的分布在 DevOps、数据工程和其他部门(按顺序)。
以下哪项最能描述您的主要工作职责?

受访者非常务实。我们询问了他们前三项职责,以下是最常出现的内容:评估和选择存储技术 (24%)、实施 (18%) 和构建应用程序/数据库/AI/ML (20%)。
您组织数据存储的前三项专业职责是什么?
最多选择三项

超过 80% 的受访者是管理层(副总裁、总监)或经理(团队负责人、项目负责人)。70% 来自拥有超过 500 名员工的组织,其中最大的部分(28%)来自 1000 到 5000 名员工的组织。受访者主要来自北美 (60%),其次是欧洲 (31%) - 其余来自亚太和中东非洲地区。
以下哪项最能描述您目前的工作?

您的组织总部位于哪里?

让我们从查看对象存储的使用情况开始。即使是我们也对听到的内容感到惊讶,而我们是业界最大的对象存储支持者。提出的问题是:“考虑您组织今天在云原生存储中拥有的一切数据。据您所知,其中有多少百分比的数据存储在对象存储中?”
平均值为 70%。最常给出的答案是 99%,中位数为 71%。
考虑您组织今天在云原生存储中拥有的一切数据。据您所知,其中有多少百分比的数据存储在对象存储中?

更重要的是,所有这些受访者都看到了这个数字的增长:“考虑一下您组织的数据存储是如何演变的。您对两年后数据存储在对象存储中的百分比有什么样的最佳猜测?”
平均值为 75%。最常给出的答案是 99%,中位数为 80%。
考虑一下您组织的数据存储是如何演变的。您对两年后数据存储在对象存储中的百分比有什么样的最佳猜测?

对象存储是当今主要的存储类型,并将继续增长。许多组织认为,在两年内几乎所有数据都将存储在对象存储中。这将让 SAN/NAS 社区感到相当震惊。总体而言,它们主导着传统的媒体来源,但事实是,它们并不那么重要,并且随着时间的推移会变得越来越不重要。原因是非结构化数据。它是人工智能的燃料。视频、音频、图像、日志文件、遥测数据、时间序列数据。这些都是当今企业产生的数据,并且存储在对象存储中。将新的开放式表格格式加入到混合中,您也可以轻松处理非结构化数据。这就是为什么数据库构建在对象存储上的原因。
但这里的故事是 AI = 对象存储。
这项研究在这方面非常清楚:推动您组织采用对象存储(公共或私有云)的最主要的三个业务或技术因素是什么?
支持 AI 19%
性能要求 17%
可扩展性 16%
这些都是相互关联的概念。对象存储的部署是为了支持人工智能,而人工智能又需要什么?…需要性能和可扩展性。如果我们能够写成“按比例的性能”,它会做得更好。
这就是 MinIO 的故事。我们把它讲给任何愿意听的人听。
推动您组织采用对象存储(公共或私有云)的最主要的三个业务或技术因素是什么?最多选择三项。

数据还告诉我们,在价值驱动因素方面,成本排名靠后。这与 SAN/NAS 供应商想要让你相信的“便宜、深度和缓慢”的说法背道而驰。
既然我们谈到了 AI,让我们来看看它如何在企业中进入市场。
当我们询问哪些工作负载使用对象存储时,答案与我们的预期一致。企业仍然使用对象存储作为其分析工作负载的基础 (24%),但越来越多地将其用于 AI 模型训练和推理 (22%)。其次是现代数据湖和数据湖仓 (19%)。然后,才是传统工作负载,如灾难恢复 (18%)。
哪些工作负载使用对象存储?选择所有适用的选项。

当您深入挖掘时,您就会真正了解推动训练数据开发的原因。这都是人工智能,而且相当集中。应用程序数据领先,其次是日志数据。我们原本预计“自定义语料库”会更高一点——但这可能是由于该术语的技术性。
您的组织将哪些类型的训练集发送到对象存储以进行 AI 分析?选择所有适用的选项。

尽管如此,在回复中还是存在一致性。当我们询问他们在对象存储上运行哪些类型的工作负载时,自定义语料库排在了最后…更有趣的是,使用公共云和私有云进行生成式人工智能的企业的数量实际上是相同的。
您是否计划在不久的将来使用对象存储构建数据湖仓?

看起来每个人都希望构建数据湖仓。有 92% 的人表示他们计划构建或已经构建了数据湖仓,而 62% 的人表示如果还没有,他们计划在未来一年内进行构建。这明确表明 SAN/NAS 不适合这些工作负载。
您的组织当前或计划在对象存储上运行哪些类型的 AI 工作负载?选择所有适用的选项

最后,关于 AI 的方面。我们要求受访者列出他们组织面临的 AI 的三大最具挑战性的元素。不出所料,安全和隐私位居榜首。
您组织面临的 AI 的三大最具挑战性的元素是什么?最多选择三项

企业回迁的原因之一是出于控制方面的考虑。安全和隐私都是关于控制的。数据治理是这种担忧的另一种表达方式。了解数据中的内容、谁可以访问数据,是这种控制叙述的核心表达方式。有许多回复处于相同的级别,并且可以大体上进行分组。例如,快速网络和高性能存储体现了运行不同类型工作负载的能力。云原生存储体现了对容器化、编排、RESTful API 和微服务的支持。SAN/NAS 技术不适合云原生世界,您无法将设备容器化。云原生 = 软件定义。
还有更多内容,但这是预告。我们有数据驱动类型、对象大小、谁管理对象存储、通常管理单个 PB 需要多少名全职员工、有多少云(公共和私有)、网络速度等等。 感恩节后(12 月初)我们将发布完整报告。敬请关注。
然而,关键的结论是,在企业中,对象存储是主要存储,而 AI 运行在对象存储上。对于从业人员来说,这不是新闻。对于开发人员来说,这不是新闻。对于架构师来说,这不是新闻。对那些成长于 SAN/NAS 主导的世界并对这些技术和设备模型有偏见的高级 IT 领导者来说,这可能是新闻。然而,这种情况正在发生明显的变化,而风险非常高。
过去的经验无法带你走向未来。
现在是加入对象存储浪潮的时候了。