在 SAP Data Intelligence Cloud 中创建读取和建模 MinIO 中数据的 ML 场景

Creating an ML Scenario in SAP Data Intelligence Cloud to Read and Model Data in MinIO

企业客户使用 MinIO 构建数据湖仓,用于存储各种结构化和非结构化数据,并使用机器学习和分析功能对其进行处理。数据从整个企业流入 MinIO,S3 API 允许分析和 AI/ML 等应用程序与之交互。

我之前写过一篇关于使用 SAP Data Intelligence Cloud、SAP HANA Cloud 和 MinIO 构建数据管道的博文。在那篇文章中,我解释了如何将 MinIO 连接到 SAP Data Intelligence Cloud,以便将数据导入到 SAP HANA Cloud 和本地 SAP HANA 中进行分析。

这篇博文重点介绍如何使用 SAP Data Intelligence Cloud 构建数据管道、检查、分析和利用机器学习功能。

ML 场景管理器入门

ML 场景管理器可帮助您在中心位置组织数据科学工件和管理任务。它包含设计时工件(如管道和 Jupyter Notebook)和运行时工件(如训练运行、模型和模型部署)。

您必须拥有一个SAP Data Intelligence Cloud 帐户或免费试用版。

如果您尚未安装 MinIO,请立即安装。请务必记下 API 端点地址、访问密钥、密钥和存储桶/路径,因为您需要在 SAP Data Intelligence 中创建连接时输入它们。

请参阅使用 SAP Data Intelligence Cloud、SAP HANA Cloud 和 MinIO 构建数据管道,了解有关创建存储桶、将文件复制到其中以及创建数据连接的说明。请注意,只有当存储桶中有数据时,它才会显示在 SAP Data Intelligence 连接管理中。

打开元数据浏览器,在“浏览连接”下,单击DI_DATA_LAKE,然后单击“外部”,再单击上面步骤中创建的 MinIO 存储桶的连接。您将看到您上传到 MinIO 的文件及其完整路径。在我的例子中,路径为di-dl://external/Play/online-retail.csv。您需要知道这一点才能在 ML 场景管理器中注册该文件。

在 SAP Data Intelligence 启动板上,单击 ML 场景管理器,然后单击“创建”并为您的场景命名。然后单击“创建”。

注册数据集

在您刚刚创建的 ML 场景中,单击“注册数据集”按钮,并为数据集输入一个名称。在“URI”字段中,您将输入数据集的完整路径。在我的例子中,这是di-dl://external/Play/online-retail.csv。您可以选择输入数据集的描述。最后,单击“注册”。

添加 Jupyter Notebook

创建 Jupyter Notebook 以试验您的数据和模型非常简单。

在 ML 场景页面上的“Notebook”部分,单击“创建”。

输入 Notebook 的名称,然后单击“创建”。Jupyter Lab 会在新浏览器窗口中打开 Notebook,您可以开始使用它。首次打开 Notebook 时,系统会提示您选择内核。SAP 建议您使用 Python 3。

您可以使用 Python 脚本探索数据并训练模型。

添加管道

在 ML 场景页面上,向下滚动到“管道”区域,然后单击“创建”。

“创建管道”对话框将弹出。输入新管道的名称。从下拉框中,选择一个模板来构建管道。有很多模板可供选择。您可以在此处找到这些模板的详细说明。

单击“创建”后,Data Intelligence Modeler 将打开并显示您刚刚创建的管道。要编辑管道,请将操作符拖放到工作区上并连接它们。

要运行此模型,请返回到 ML 场景管理器,选择要执行的管道的单选按钮,然后单击“执行”。

如果需要,系统会提示您进一步配置管道。

进一步开发

本教程快速概述了构建和执行机器学习场景的过程。要进一步了解此示例,请参阅优秀的教程SAP Data Intelligence:创建您的第一个 ML 场景,其中包含有关构建训练线性回归模型的 Jupyter Notebook 和管道的说明。如果您愿意,还有一个 R 版本的教程SAP Data Intelligence:使用 R 创建您的第一个 ML 场景

本次 SAP Data Intelligence 之旅仅仅触及了其潜力的皮毛。将 SAP Data Intelligence 数据湖扩展到读取 MinIO 对象存储中的数据,意味着您可以使用基于浏览器的 GUI 快速轻松地将数据科学方法应用于您的数据。您可以使用 SAP 的某个模型或编写自己的模型,然后按需或按计划运行它。您甚至可以通过 RESTful API 公开管道,并从云原生基础架构中的其他应用程序调用它。

下载MinIO 并加入我们的Slack 社区。不要忘记在 YouTube 上查看MinIO 操作指南