使用 MinIO 实现您的数据策略

Achieving Your Data Strategy with MinIO

在哈佛商业评论最近发表的企业如何看待数据一文中,Leandro DalleMule 和 Thomas H. Davenport 提出了一种“适用于各行各业和不同数据成熟度水平的稳健数据战略构建框架”。该框架借鉴了他们在全球保险公司 AIG 的经验(DalleMulle 先生是 AIG 的首席数据官),并结合了对其他少数大型公司的研究,探讨了这些公司如何利用数据来支持管理决策和改善财务绩效。

该框架包含一个能够实现卓越数据管理和分析的战略,这是从企业数据中获取最大价值的两个必备要素。该框架旨在帮助企业明确其数据的主要用途,并执行战略数据管理的正确步骤。

在该框架中,数据可以服务于“进攻性”或“防御性”目的,企业必须在这些目的之间以及控制和灵活性之间进行权衡。数据防御和进攻具有不同的业务目标和数据处理方式。

数据防御旨在最大程度地降低业务风险——确保合规性、检测和处理欺诈以及构建应用程序以防止库存损失和盗窃。数据防御的目标是确保企业系统使用的数据的完整性和安全性,方法是“识别、标准化和管理权威数据源……在一个单一的事实来源中”。

相比之下,数据进攻侧重于支持业务目标,通常包括生成客户洞察(分析和建模)或整合客户和其他数据以支持决策的活动。数据进攻通常属于销售和营销部门,而数据防御则属于法律、财务、合规和 IT 部门。

每个企业都需要进攻和防御才能取得成功,但是,“两者都激烈争夺有限的资源、资金和人员”。为了最大程度地利用数据,两者都需要保持平衡。这对首席数据官和其他高管来说是最大的挑战——在进攻和防御之间建立适当的权衡,并在支持公司整体战略的基础上实现平衡。进攻和防御的平衡通常取决于数据控制和灵活性的平衡——更多的控制意味着防御,更多的灵活性意味着进攻。

许多企业将数据视为必须控制的东西,访问权限是谨慎给予的,然而,“这些自上而下的方法并不适合支持广泛的数据战略”。相反,“更灵活和现实的方法”是构建一个单一的事实来源 (SSOT) 和多个版本的真相 (MVOT)。SSOT 用于存储所有数据,而 MVOT 用于管理数据并向需要数据的人员提供有限的访问权限。

Dallemule 和 Davenport 在他们的研究结果中得出结论,SSOT 的概念“已得到 IT 部门和整个业务部门的充分理解和接受”。但更重要的是,“一个单一的事实来源可以提供多个版本的真相(例如,根据用户需求而不同的收入数据)的想法并没有得到很好的理解”。

企业需要灵活的架构,以便允许单一和多个版本的真相来支持数据进攻和防御。没有 SSOT 会导致数据混乱,因为各个团队会在数据孤岛中创建和存储数据。这个过程效率低下且成本高昂,通常会导致对组织数据准确性的普遍不信任。拥有数十个数据源的企业,每个数据源都相似但略有不同,每个数据源都由不同的业务部门依赖,它们缺乏 SSOT,因此缺乏对其数据的信心。作者提供了一个简单的案例研究,其中一家制造商利用人工智能工具筛选各种数据孤岛,并组建了一个可以被多个业务部门访问的 SSOT。在第一年,新的 SSOT 创造了 7500 万美元的收益。另一家大型金融服务公司将全球近 130 个数据孤岛整合到一个 SSOT 中。由此产生的运营支出下降在两年内产生了 190% 的投资回报率。

为了展示 SSOT-MVOT 系统的工作原理,作者以一家全球资产管理公司为例,该公司中的营销和财务部门都每月发布广告支出报告。营销部门报告广告的有效性,而财务部门则报告发票支付时的支出。这是从 SSOT 派生的 MVOT 的一个示例,这些报告包含不同的数字,但每个数字在上下文中都是准确的。这是涉及 SSOT 和构建 MVOT 所需的受控数据转换过程的自然结果。

数据湖让数据战略焕发生机

如果没有云原生对象存储,构建高效且受控的 SSOT-MVOT 数据架构几乎是不可能的。传统的以文件系统为基础,以层次结构方式存储结构化企业数据的数仓(如 Hadoop)无法满足当今海量数据的需求。

相比之下,数据湖用于存储无限量的结构化、半结构化和非结构化数据——数据库表、开放格式表、电子表格,甚至音频和视频文件。

数据湖是 Dallemule 和 Davenport 提倡的受控且灵活的 SSOT-MVOT 架构的理想平台。事实上,这与我们在客户在现代化其数据平台时所采用的架构一致。一个中心数据湖——SSOT——从整个企业的所有地方接收详细数据,如果需要,甚至可以细化到单个交易的级别。

SSOT 中的数据被查询、聚合、转换和丰富——在云原生世界中存在无限的选择——以创建 MVOT。两者都存储在数据湖中,受到保护,防止丢失或损坏,并且可供任何使用 S3 的应用程序访问。

成功的数仓建立在 MinIO 之上

客户购买 MinIO 以拥抱云原生技术,并抛弃传统的存储技术,如文件和块存储,SAN 和 NAS。使用与 S3 API 兼容的 MinIO 作为存储层可以实现各种基础设施优势,例如存储和计算的解耦、版本控制/持续数据保护、容错、大规模并发、无限可扩展性、零停机时间和更好的开发人员体验。请参阅架构师指南:现代数据栈,以获取有关云原生 S3 后端的更多详细信息。

高性能对象存储(如 MinIO)用作数据及其相关应用程序的主要存储。示例包括NeonSnowflakeWarpstreamDremioApache DruidLanceDBMotherduckBauplanDatadog。请参阅对象存储是主要存储,以获取更多此广泛实施架构的示例。

这种架构的基本优势在于存储和计算完全解耦,从而能够实现容错和使用 Kubernetes 进行弹性扩展。企业使用 MinIO 构建自己的私有云,MinIO 的擦除编码提供的更有效的数据持久性,优于传统的复制和 RAID 等方法。复制和 RAID

经过适当设计和实施的 MinIO 部署具有高可用性、无限可扩展性、不变性和高持久性。以 MinIO 为持久层构建可以带来引人注目的成本优势。企业不仅可以利用开源软件,还可以通过解耦存储和计算来避免过度配置。

让您的数据战略焕发生机

在 MinIO 之上构建可以为您提供开发人员创建业务所需的分析和 AI/ML 应用程序所需的一切功能。我们内置在 MinIO 中的所有使它成为云原生和 Kubernetes 原生的功能简化了 DevOps 团队的工作。他们现在可以利用领先的数据库、分析和 AI/ML 服务提供商使用的相同功能和架构。这催生了企业数据使用的新范式,并催生了下一代数据密集型初创企业。

围绕 SAN 和 NAS、文件、块和 HDFS 构建的传统架构无法与可用性持久性性能可扩展性相媲美,这些都是本地部署的 MinIO所提供的。随着最近对无服务器计算的关注,还需要注意的是,如果没有 MinIO 和 S3 API,就没有无服务器计算。

无论是初创企业还是大型企业,未来的发展方向都是构建基于开放式表格式(如Apache IcebergDelta)的模块化、可组合的云原生数据栈,并利用 Parquet 等开放文件格式和 Apache Arrow 等开放内存格式。Apache Arrow。在 MinIO 之上构建大大简化了数据湖及其访问应用程序。

立即下载 MinIO,体验轻松构建本地云原生数据湖的便捷。然后加入我们的社区 Slack,提出问题并展示您的成果。