在 Kubernetes 上部署 MinIO 和 Trino

Trino (之前称为 Presto) 是一个 SQL 查询引擎,而不是 SQL 数据库。Trino 摒弃了 SQL 数据库的存储组件,专注于一件事——超快的 SQL 查询。Trino 只是一个查询引擎,不存储数据。相反,Trino 与各种数据库交互或直接在对象存储上运行。Trino 解析和分析您传入的 SQL 查询,创建一个包含数据源的查询执行计划并对其进行优化,然后安排能够智能地查询其连接的底层数据库的工作节点。
MinIO 经常用于存储来自 AI/ML 工作负载、数据湖到数据湖仓库的数据,无论是 Dremio、Hive、Hudi、StarRocks 还是其他十几种优秀的 AI/ML 工具解决方案。当 MinIO 用作主要存储层时,效率更高,从而降低了存储数据的总拥有成本,此外,您还可以获得将数据写入 MinIO 的额外好处,这些数据是 不可变的、版本化的 且受 擦除编码 保护。此外,将数据保存到 MinIO 对象存储使其可供其他云原生机器学习和分析应用程序使用。
在本教程中,我们将部署一个连贯的系统,允许跨存储在 MinIO 中的大型数据集进行分布式 SQL 查询,Trino 利用来自 Hive 元存储的元数据和来自 Redis 的表模式。
组件
以下是在我们接下来将要进行的设置过程中不同组件及其功能。
- Minio: Minio 可用于存储大型数据集,例如 Trino 通常分析的数据集。
- Hive 元存储:Hive 元存储是用于存储 Hive 表元数据(如表模式)的服务。Trino 可以使用 Hive 元存储来确定查询数据集时表的模式。
- 用于 Hive 元存储的 PostgreSQL:这是 Hive 元存储的数据库后端。它是元数据实际存储的地方。
- Redis:在此设置中,Redis 用于为 Trino 存储表模式。
- Trino: Trino(以前称为 Presto)是一个高性能分布式 SQL 查询引擎。它允许跨各种数据源查询数据,例如 SQL 数据库、NoSQL 数据库,甚至对象存储(如 MinIO)。
先决条件
在开始之前,请确保您已安装管理 Kubernetes 集群所需的工具
- kubectl:管理 Kubernetes 集群的主要命令行工具。您可以使用它来检查、操作和管理集群资源。
- helm:Kubernetes 的包管理器。Helm 允许您使用预定义的图表在集群中部署、升级和管理应用程序。
克隆存储库
要访问在 Kubernetes 上部署 Trino 所需的资源,请克隆特定的 GitHub 存储库并导航到相应的目录
Kubernetes 命名空间创建
Kubernetes 中的命名空间为应用程序提供隔离的环境。为 Trino 创建一个新命名空间以封装其部署
Redis 表定义密钥
Redis 将存储 Trino 使用的表模式。使用 Kubernetes 密钥来保护这些模式。以下命令创建一个通用密钥,从 JSON 文件中获取数据
添加 Helm 存储库
Helm 存储库提供预打包的图表,简化了应用程序部署。将 Bitnami 和 Trino 存储库添加到您的 Helm 配置中
部署 MinIO 用于数据存储
初始化 MinIO
在 Trino 命名空间中准备 MinIO。
创建 MinIO 租户
为数据存储设置多租户架构。以下示例创建了一个名为“tenant-1”的租户,该租户具有四个服务器、四个存储卷,容量为 4 GiB
设置 Hive 元存储
Trino 利用 Hive 元存储来存储表元数据。部署 PostgreSQL 来管理元数据,然后设置 Hive 元存储
安装 PostgreSQL
部署 Hive 元存储
使用预配置的 Helm 图表在 Trino 命名空间中部署 Hive 元存储
使用 Kubernetes 部署 MinIO 和 Trino
Trino 和 MinIO 为跨大型数据集进行分布式 SQL 查询创建了强大的组合。按照以下步骤部署和配置系统。
部署 Redis 以存储表模式
Redis 是一种高速的内存数据存储,用于保存 Trino 表模式,以提高查询性能。使用 Helm 图表在 Trino 命名空间中部署它
部署 Trino
部署 Trino 作为分布式 SQL 查询引擎,它将连接到 MinIO 和其他数据源
验证部署
通过列出 Trino 命名空间中的 Pod 来确认所有组件都正常运行
安全审阅和调整
根据需要审阅和调整安全设置。要禁用 S3 连接的 SSL 证书验证,请使用以下属性更新 values.yaml 文件的 additionalCatalogs 部分
测试
将端口转发到 MinIO 租户服务
将端口转发到租户的 MinIO 服务,以启用本地访问
为 Trino 创建别名和桶
1. 创建别名:使用 MinIO 部署中的凭据为租户建立别名
2. 创建桶:创建一个 Trino 将要使用的新的桶
通过端口转发访问 Trino UI
1. 获取 Pod 名称:检索 Trino 协调器 Pod 的名称
2. 端口转发:将本地端口 8080 转发到协调器 Pod
3. 访问 UI:通过访问 http://127.0.0.1:8080 在浏览器中使用 Trino UI。
通过 CLI 查询 Trino
访问 Trino 协调器 Pod 并通过命令行开始查询
确认 MinIO 桶中的数据
创建桶后,使用 mc 命令行工具列出内容,确认数据是否存储在 MinIO 中。使用以下命令
就这么简单!
最后的想法
在排查配置问题时,尤其是与安全相关的配置问题,请彻底查看每个组件的 values.yaml 文件,以确保设置正确。
Trino 突出表现在其跨各种数据层优化查询的能力,无论是专门的数据库还是对象存储。它旨在通过将查询推送到下层以仅检索所需的基本数据来最大程度地减少数据传输。这使 Trino 能够高效地连接来自不同来源的数据集,执行进一步处理或返回精确的结果。
MinIO 与 Trino 完美搭配,因为它拥有业界领先的可扩展性和性能。MinIO 能够处理 AI/ML 和分析方面的重大工作负载,轻松支持 Trino 查询及其他。在最近的基准测试中,MinIO 在仅 32 个节点上为 GET 操作实现了令人印象深刻的 325 GiB/s(349 GB/s)和为 PUT 操作实现了 165 GiB/s(177 GB/s)。这种卓越的性能确保了存储在 MinIO 中的数据易于访问,这使得 MinIO 成为 Trino 的可靠且高性能的选择,而不会成为瓶颈。
如果您对 MinIO 和 Trino 有任何疑问,请务必通过 Slack 与我们联系!