数据领域最令人兴奋的进展之一是所有主要数据库供应商都出现了湖仓一体功能。 Snowflake 和 SQL Server 早已采用这种功能,而现在 PostgreSQL 正在通过 pg_lakehouse 拥抱这种范式转变,使其比以往任何时候都更容易利用现代数据湖进行分析、AI 等。也许这并非巧合,随着越来越多的传统数据库允许您查询对象存储中的数据,AWS 已决定 弃用 Amazon S3 Select。该领域中有太多新的参与者可以成功地为客户提供这种功能,甚至更多功能。
虽然从头开始构建可以带来将技术栈定制到特定用例的快感,但完全的替换策略很少可行或明智。相反,前进的道路在于利用现有的数据库技术进行计算,同时投资世界级的对象存储。在这个现代时代,数据和存储才是真正有价值的,因为查询引擎虽然重要,但也已经变得商品化,可以互换。pg_lakehouse 使当前使用 PostgreSQL 的众多企业能够实现这种策略,让他们可以利用现代数据湖为未来构建,而不会牺牲现有投资。
pg_lakehouse 是由 ParadeDB 开发的开源扩展。此扩展利用 PostgreSQL 现有的外部数据包装器功能,通过与 Apache DataFusion 集成得到增强,以提供对各种数据源的高性能分析。
从 SQL 到对象存储:新的前沿
PostgreSQL 长期以来一直支持外部表和扩展,使其能够与外部数据源交互。新的 pg_lakehouse 扩展延续了这一传统,使 PostgreSQL 能够查询存储在对象存储系统(如 MinIO)中的数据。这不是简单的附加功能,而是 PostgreSQL 现有功能的扩展,允许用户将外部对象存储视为其数据库中的原生表。
与 MinIO 企业版对象存储 结合使用,用户可以存储海量数据,同时将其与现有的 SQL 工作流集成。数据工程师欢欣鼓舞,因为 PostgreSQL 已成为对象存储的查询引擎。
为什么重要
在现代数据环境中,高效存储和分析数据的能力至关重要。传统数据库本身在可扩展性和灵活性方面存在局限性,尤其是在处理大型数据集或各种数据格式时。
现代数据湖架构——将数据湖和数据仓库的优势结合在一起——解决了这些挑战。通过分离计算和存储,这种架构允许企业独立扩展资源,优化性能和成本。此外,现代数据湖支持各种 AI/ML 工作负载,确保数据始终可访问、弹性和安全,即使在大型的地理分布式部署中也是如此。
PostgreSQL 和 MinIO 企业版对象存储
将 PostgreSQL 与 MinIO 的企业版对象存储 (EOS) 集成,为构建现代数据湖提供了强大的基础,提供确保数据可扩展、安全和高性能的功能。
- 跨数据源使用 MinIO 查询:使用 pg_lakehouse 扩展直接查询存储在 MinIO 中的数据。目前支持 CSV 格式,以及与 S3 兼容的对象存储(如 MinIO)兼容。PostgreSQL 可以将这些文件视为原生表,使您能够执行复杂的分析,而无需移动数据。ParadeDB 表示,对 Iceberg 的支持将在短期内提供,进一步扩展了数据湖的多功能性。对 Iceberg 的支持将在 短期内 提供,进一步扩展了数据湖的多功能性。
- 企业级可扩展性:MinIO 的架构旨在实现大规模扩展,使其能够轻松管理艾字节级数据。MinIO 使用分布式、基于服务器池的架构,允许横向扩展,这意味着您可以添加更多池来提高容量和性能,而不会中断服务。这种设计非常适合处理现代企业的规模化数据需求,确保基础设施能够随着数据需求的增长而扩展。
- 高级安全性:安全性在现代数据架构中至关重要。MinIO EOS 提供强大的安全功能,包括 MinIO 企业版 KMS(密钥管理系统),用于服务器端加密。EOS KMS 确保数据在静止状态和传输过程中都已加密,保持最高级别的数据保护。
- 高性能:MinIO 企业版缓存 功能通过将频繁访问的数据存储在更靠近应用程序的位置来显著提高数据访问速度。这对 PostgreSQL 查询尤其有用,因为延迟降低会导致查询执行速度更快,特别是对于存储在数据湖中的大型数据集而言。世界上最快的对象存储只有一个,凭借超过 325 GiB/s 的 GET 操作速度和 165 GiB/s 的 PUT 操作速度(使用 NVMe SSD),只有一个真正的对象存储选择可以支持 PostgreSQL 作为查询引擎。
- 使用 MinIO 控制台简化管理:MinIO 企业版控制台 提供了一个直观的基于 Web 的界面,用于在一个位置管理所有对象存储,包括监控、用户管理和策略执行。这种易于管理的功能在构建现代数据湖时至关重要,因为它允许管理员从单个界面高效地监督存储层。
通过利用 MinIO 企业版对象存储的这些功能,结合 PostgreSQL 的强大功能,您很快将能够构建一个现代、安全且高度可扩展的现代数据湖,满足当今数据密集型环境的需求。这种设置不仅增强了您的分析功能,还为未来数据策略提供了坚实的基础,确保您的基础设施能够适应不断发展的数据管理格局。
开始使用 pg_lakehouse
安装过程很简单,在 ParadeDB 的官方文档中提供了详细的 设置 指南。作为一项根据 AGPL-3.0 许可的开源项目,pg_lakehouse 鼓励社区贡献,并确保扩展保持免费和可访问,使其成为希望使用 PostgreSQL 和 MinIO 现代化其数据基础设施的组织的宝贵工具。
继续构建
通过 pg_lakehouse 将湖仓一体功能集成到 PostgreSQL,结合 MinIO 强大的对象存储,为现代数据需求提供了一种强大的解决方案。这种举措不仅关乎添加功能,还反映了行业中更广泛的趋势——数据湖和数据仓库融合,以提供两者的优势。随着更多数据库采用类似的功能,数据分析的未来看起来更加光明和集成。
无论您是开发人员、数据工程师还是机器学习工程师,现在都是探索湖仓一体架构潜力的最佳时机。使用 PostgreSQL 和 MinIO,您不仅跟上了时代步伐,而且还走在时代前列。