TDWI 对 AB Periasamy 的问答:为什么成功的公司优先考虑数据

几个月前,TDWI 的 James Powell 与 MinIO 联合创始人兼首席执行官 AB Periasamy 坐下来,讨论数据领域的发展趋势和挑战。原始访谈(来自 TDWI 的 Upside)可以在此处找到,但我们将其包含在下面以备后用。

Upside:如果企业希望在当今保持竞争力,其数据战略中必须包含哪些技术或方法?为什么?

Anand Babu Periasamy:掌握机器学习和人工智能必须放在首位。话虽如此,人工智能和机器学习的掌握是一个过程,需要时间,不仅从技能获取的角度,而且从业务执行的角度。

企业今天需要做的是开发支持这一雄心的基础数据架构。任何大规模的机器学习/人工智能雄心壮志都需要对象存储。对象存储是云计算的事实上的存储方式,也是生产级机器学习/人工智能的事实上的存储方式。您可以使用块和文件进行沙盒工作,但在生产环境中,整个生态系统都围绕着对象展开。

需要指出的是,当我提到对象时,我指的不是提供数据备份和恢复的旧式设备供应商,而是指可以在 Kubernetes 管理的容器中运行的高性能、云原生、与 S3 兼容的对象存储,并且适合定义现代 DevOps 环境的微服务架构。

这是竞争力最重要的技术。它在今天带来了回报(卓越的经济效益、类似 Hadoop 的速度),并将确保企业至少十年。此外,追求现代对象存储为混合云现实提供了关键的桥梁。现在,本地环境可以看起来并像公共云一样运行,为未来的技术战略提供卓越的选择。

您对哪一项新兴技术最感兴趣,并认为它具有最大的潜力?这项技术有什么特别之处?

我们深信 Kubernetes。它不仅仅是一项技术——它是一种构建/打包/部署框架的不同方法,并且专门为持续变化的环境而设计。它以一种促进开发、运营和 IT 之间协作的方式,将物理基础设施从应用程序堆栈中抽象出来。这就是为什么整个公司(例如 VMware)都在转向拥抱这项技术的原因。

企业今天面临的最大挑战是什么?大多数企业如何应对(以及是否有效)?

最大的挑战是他们需要管理的数据量。首席执行官谈论的每一个问题,每一个问题,都与数据有关:如何存储它,如何从中提取价值,保留多长时间,如何保护它,如何使其民主化。一切围绕数据展开。

企业在这项任务上的表现平平。每项首席信息官/首席技术官/首席执行官/首席财务官调查基本上都表明了相同的事情;“我们通常知道我们想要什么,但我们似乎无法持续且大规模地执行它。”

问题的核心是部落主义。DevOps 对 IT 并没有好感。IT 认为 DevOps 不了解他们的职责或安全要求。业务部门人员继续询问“为什么我们不能……?”而不了解其中的难度和影响。同样的业务人员也出于政治原因囤积数据。数据科学是一个新的部落,他们有自己的工具、偏见和议程。

结果就是影子 IT。影子数据科学。大量的重复和低效率。企业花费太多时间试图管理这些“猫”,而没有花足够的时间退后几步,并询问“我的架构应该是什么样子才能交付x……?”

现在有一些公司正在这样做,它们将成为未来的典范。他们正在为未来十年构建架构,而不是修补他们现有的架构。这些公司从根本上认识到,无论外面的招牌上写着什么——无论是银行、制造业、工作室还是通信——他们都是一家数据公司。成功的公司首先考虑数据。每个人都说客户至上,但想想看,每一次客户互动都是一个数据事件。

可以想象,谷歌有一个很好的模型。他们有数据产品经理。这些产品经理承担着构建新的数据产品和创建新的数据架构所带来的独特战略和战术决策。他们有动力推动其数据产品的访问和使用。这促进了与其他数据产品经理的协作,并吸引了 IT 和 DevOps 共同解决问题。

数据和分析领域是否存在一项新技术正在造成比大多数人意识到的更多挑战?企业应该如何调整其方法?

如前所述,Kubernetes 正在席卷企业。这是一把双刃剑。我刚才谈到了它的好处,但另一方面,随着企业采用这种新的范式,许多现有的技术和角色将变得过时。传统的 IT 模型与 Kubernetes 架构 simply 不兼容。传统是指购买数据仓库应用程序以及购买 SAN 或 NAS 设备。

Kubernetes 正在颠覆设备供应商。它们无法通过 Kubernetes 进行容器化和编排。

这就是为什么像PrestoSparkSplunkTeradata、Vertica 等软件供应商如此努力地实现容器就绪,将状态留给对象存储,以便它们能够成为无状态的。因此,对象存储正在快速取代 SAN 和 NAS。您可以在Teradata 的 NOSSplunk 的 SmartStore中看到这一点。

有远见的企业正在应对这些艰难的决策。迁移到云 effectively 使这些遗留解决方案陷入困境,并改变了 IT 的本质,将影响力转移到 DevOps 人员手中。大多数组织将保留部分或全部数据在本地。使用 Kubernetes 的现代私有云实施将导致这些设备的停用以及管理它们的团队的演变。

这是一个艰难的过渡。大多数 IT 人员只想再订购一个他们拥有的刀片——这使他们的工作更容易。但是,从长远来看,它并不能使企业受益。需要部署的架构是软件定义的,通常是开源的,对微服务友好,与 S3 兼容,并且可扩展。这些不是与设备供应商相关的术语。

贵组织今天花费最多时间/资源的举措是什么?您的企业专注于哪些内部项目,以便从您自己的数据或业务分析中获益?

MinIO 有超过 12,000 个组织正在运行其软件,并且大多数组织有多个实例。这是一个巨大的信息来源,MinIO 利用 GitHub、Slack 和 Remix 来推动其产品管理功能。虽然 GitHub(22K 星)和 Slack(近 8k 用户)广为人知,但 Remix 是一个内部开发的分析平台。

MinIO 最初使用 MixPanel,但我们的部署规模使其变得不可行,因此我们构建了自己的平台。Remix 允许我们了解组织类型、配置类型、硬件类型、使用情况、更新频率等。将 Remix 与 GitHub 和 Slack 集成使我们能够实时优先处理功能和错误。这一点非常重要,因为 MinIO 每周都会发布新版本。

此外,这些工具使我们能够确定要删除哪些功能。作为一家将简化作为优先事项的公司,我们删除的内容与我们添加的内容一样受到关注。通过不断分析数据,我们可以确定未使用的功能并将其移除或改进。

您认为 2020 年及以后分析和数据管理将走向何方?地平线之外我们还没有听说过什么?

在 2020 年,分析和人工智能/机器学习将成为云原生,并转向高性能对象存储。这将导致 NVMe SSD 在未来 12 个月内成为主要的存储介质。金融服务行业已经对总拥有成本进行了计算,并将大部分工作负载迁移到那里。其他行业也已注意到这一点,并将开始将大部分支出(云和本地)转移到这个方向。

性能和可靠性超过了迅速缩小的成本差异。这反过来将推动更多 100GbE 网络,并在性能方面引发军备竞赛——就像更多人工智能/机器学习程序开始扩展一样。预计在 2020 年将会看到 PB 规模的大规模 NVMe 部署。

2020 年我们仍然会有磁带,但硬盘驱动器在明年将开始变得更像磁带。

描述您的产品/解决方案以及它为企业解决的问题。

MinIO 是一个高性能的分布式对象存储,旨在在私有云部署中提供海量扩展。这款与 S3 兼容、100% 开源的解决方案是业界增长最快的对象存储,并且被超过一半的财富 500 强企业部署。

MinIO 专为服务对象而构建,是速度最快的对象存储,在小型 NVMe 集群上可达到 183 GB/s 的速度。如此快的速度意味着企业可以直接在对象存储上运行 Spark、Presto、Tensorflow 和 H2O.ai,使其成为主要的存储解决方案,同时支持数据备份和恢复等传统用例。