AI 数据栈中互操作性的架构师指南

于 AI/ML 2024 年 11 月 7 日

The Architect’s Guide to Interoperability in the AI Data Stack

最初发布于 The New Stack。

AI 的未来是开放的，互操作性是您保持领先的通行证，无论您的技术栈中包含哪些技术。

随着 AI 和机器学习在各行各业不断扩展，数据架构师面临着一个关键挑战：在日益碎片化和专有的生态系统中确保互操作性。现代 AI 数据栈必须灵活、具有成本效益和面向未来，同时避免可怕的供应商锁定，这种锁定可能会扼杀创新并大幅增加预算。

互操作性为何重要

在以 AI 为中心的世界上，数据至关重要——而且数据量很大。您今天在数据存储、处理和分析方面做出的选择将直接影响您明天的敏捷性。构建互操作性意味着选择可在各种环境中良好运行的工具，减少对任何单个供应商的依赖，并允许您的组织随时选择最佳价格或功能集。

以下是一些互操作性应成为 AI 数据栈关键原则的原因。

避免供应商锁定 专有系统最初可能看起来很方便，但它们可能会变成一个代价高昂的陷阱。互操作系统允许您自由迁移数据，而无需锁定在一个生态系统中或支付高昂的退出费用。这种灵活性确保您可以利用不断发展的最佳技术。
成本优化 使用互操作系统，您可以自由选择供应商。需要更多计算资源？您不会受限于特定提供商的定价模型。您可以根据需要切换到更经济实惠的选项。互操作性使您能够为 AI 栈的每个组件做出最具成本效益的选择。
面向未来的架构 随着 AI 和机器学习工具的快速发展，互操作性可确保您的架构能够适应。无论是采用最新的查询引擎还是集成新的机器学习框架，互操作系统都能使您的组织在今天和未来做好 AI 准备。
最大化工具兼容性 互操作系统旨在跨不同的环境、工具和平台工作，从而实现数据平滑流动并减少对复杂迁移的需求。这可以加快实验和创新的速度，因为您无需浪费时间让工具协同工作。

互操作 AI 数据栈的关键技术

实现互操作性是关于在软件栈中做出战略决策。以下是促进这种灵活性的某些基本工具。

1. 开放式表格式

开放式表格式（如 Apache Iceberg、Apache Hudi 和 Delta Lake）支持高级数据管理功能，例如时光倒流、模式演变和分区。这些格式旨在实现最大兼容性，因此您可以在各种工具（包括 Dremio、Apache Spark 或 Presto 等 SQL 引擎）中使用它们。Iceberg 的开放结构确保随着新工具和数据库的出现，您可以在不重新构建整个系统的情况下将它们集成进来。

2. 高性能 S3 兼容对象存储

无论您是在本地、公共云还是边缘运行工作负载，AWS S3 兼容对象存储都提供了现代 AI 工作负载所需的灵活性。作为一种高性能、可扩展的选项，可以在任何地方部署，S3 兼容性允许组织避免云供应商锁定，同时确保从任何位置或应用程序一致访问数据。

3. Apache X-Table：多格式自由

Apache X-Table 是一个旨在实现开放式表格式灵活性的项目。它允许您在 Iceberg、Delta Lake 和 Hudi 等开放式表格式之间切换。这种自由确保了随着表格式的演变或提供新功能，您的架构能够保持适应性，而无需进行大量返工或迁移工作。

4. 查询引擎：无需迁移即可查询

互操作性也扩展到查询引擎。 Clickhouse、Dremio 和 Trino 是能够让您查询来自多个来源的数据而无需迁移数据的优秀工具示例。这些工具允许用户连接到各种来源，从 Snowflake 等云数据仓库到 MySQL、PostgreSQL 和 Microsoft SQL Server 等传统数据库。借助现代查询引擎，您可以对数据所在位置的数据运行复杂查询，有助于避免代价高昂且耗时的迁移。

5. 用于灵活性和性能的目录

Polaris 和 Tabular 等数据目录提供了高性能功能，并且构建了现代数据架构所需的功能。这些工具旨在与开放式表格式配合使用，使用户能够高效地管理和查询大型数据集，而无需供应商特定的限制。这有助于确保您的 AI 模型能够实时访问其所需的数据，而无论数据存储在哪里。

即刻实现互操作性

构建互操作性架构不仅仅是为了避免供应商锁定；它还关系到构建弹性、灵活且经济高效的 AI 数据栈。通过选择优先考虑开放标准的工具，您可以确保您的组织能够发展并适应新技术，而不会受到遗留决策的约束。无论您是采用高性能 S3 兼容存储、开放式表格式还是查询引擎，AI 的未来都是开放的——互操作性是您保持领先的通行证。