使用 SQL Server 2022 数据湖仓构建数据科学和 AI

Microsoft SQL Server 2022 是最常实施的企业关系数据库之一。许多世界上最成功的公司,无论其垂直领域如何,都拥有大量的 SQL Server 部署。数千家公司几十年来一直依赖 SQL Server。微软在过去十年中在拥抱开源和标准兼容技术方面取得了长足进步。结果是
阅读更多...Microsoft SQL Server 2022 是最常实施的企业关系数据库之一。许多世界上最成功的公司,无论其垂直领域如何,都拥有大量的 SQL Server 部署。数千家公司几十年来一直依赖 SQL Server。微软在过去十年中在拥抱开源和标准兼容技术方面取得了长足进步。结果是
阅读更多...在采用人工智能的热潮中,有一个关键且常常被忽视的事实——任何人工智能计划的成功都与底层数据基础设施的质量、可靠性和性能息息相关。如果您没有适当的基础,那么您在构建方面将受到限制,因此在实现方面也会受到限制。您的数据基础设施
阅读更多...简介 分布式数据处理是高效端到端分布式机器学习训练管道的关键组成部分。如果您正在构建用于统计预测的基本神经网络,那么分布式训练可能意味着每个实验运行 10 分钟而不是 1 小时,这确实是正确的。如果您正在训练或微调大型语言模型 (LLM),那么
阅读更多...这篇文章是与来自 lakeFS 的 Amit Kesarwani 合作撰写的。运行多个机器学习实验的现实情况是,管理它们可能会变得不可预测且复杂——尤其是在团队环境中。通常发生的情况是在研究过程中,团队会在实验之间不断更改配置和数据。例如,尝试几个训练集和几个超参数
阅读更多...简介 生成式 AI 代表了企业可以用来解锁其边界内被困数据的最新技术。理解生成式 AI 的可能性最简单的方法是想象一个自定义的大型语言模型——类似于为 ChatGPT 提供支持的模型——在您的防火墙内运行。现在,这个自定义的 LLM 与
阅读更多...关于 AI/ML 技术浪潮的重要性,已经有很多文章发表(这里有一些我们的文章)。但没有引起人们注意,但可能应该引起注意的是,AI/ML 如何正在重塑企业内部的技术权力结构。随着公司围绕数据中心化进行重组,他们也在重组谁来制定和执行技术架构。虽然
阅读更多...Hugging Face 的 DatasetDict 类是 Datasets 库的一部分,旨在有效地处理用于 Hugging Face Hub 上任何模型的数据集。顾名思义,DatasetDict 类是一个数据集字典。理解从此类创建的对象的最佳方法是快速了解一下
阅读更多...企业客户使用 MinIO 构建数据湖仓来存储各种结构化和非结构化数据,并使用 ML 和分析来处理这些数据。数据从整个企业流入 MinIO,S3 API 允许应用程序(如分析和 AI/ML)使用它。我之前写过一篇关于使用 SAP Data 构建数据管道的博文
阅读更多...引言 在之前的文章中,我介绍了特征提取,这是一种利用预训练的大型语言模型 (LLM) 来解决自定义问题而不必重新训练模型的技术。特征提取是使用模型已有的知识来完成与模型最初训练目标不同的任务的两种方法之一。
阅读更多...引言 在这篇文章中,我将介绍每位工程师都应该掌握的一种利用开源大型模型的技术。具体来说,我将展示如何执行特征提取。特征提取是使用模型已有的知识来完成与模型最初训练目标不同的任务的两种方法之一。
阅读更多...简而言之:在这篇文章中,我们将创建一个自定义图像数据集,然后为普遍的对象检测任务训练一个 You-Only-Look-Once (YOLO) 模型。然后,我们将使用 MinIO 存储桶通知实现一个系统,该系统可以自动对新图像执行推理。引言:计算机视觉仍然是人工智能的一个极其引人注目的应用。无论是识别
阅读更多...引言 在之前的文章中,我介绍了 Apache Iceberg,并展示了它如何使用 MinIO 进行存储。我还展示了如何设置开发机器。为此,我使用 Docker Compose 安装了 Apache Spark 容器作为处理引擎、REST 目录和 MinIO 作为存储。最后,我给出了一个非常简单的
阅读更多...引言 开放式表格格式 (OTF) 是数据分析领域的一种现象,最近势头强劲。OTF 的承诺是作为一种解决方案,利用分布式计算和分布式对象存储来提供超出数据仓库所能提供的功能。这些格式的开放性使组织在选择方面拥有更多选择。
阅读更多...引言 MLflow 模型注册表允许您管理即将用于生产环境的模型。这篇文章承接我上一篇关于 MLflow 追踪的文章。在我的追踪文章中,我展示了如何记录参数、指标、工件和模型。如果您还没有阅读过,请有机会时阅读一下。在
阅读更多...通过采用最佳技术来推动竞争优势,将优秀的运营商与良好的运营商区分开来。发现企业数据中的隐藏宝石,然后向您的客户提供关键的可操作见解,将有助于为您的客户创造一项不可或缺的服务,难道这不是每个高管都希望创造的吗?基于云的数据存储(由亚马逊 S3 等领导,
阅读更多...引言 跟踪机器学习实验具有挑战性。假设您在 MinIO 存储桶中有一组用于训练和测试模型的原始文件。始终有多种方法可以预处理数据、设计特征和设计模型。鉴于所有这些选项,您将希望运行许多
阅读更多...引言 加利福尼亚淘金热始于 1848 年,持续到 1855 年。据估计,大约 300,000 人从美国其他地区和国外迁移到加利福尼亚。经济估计表明,平均而言,只有半数人获得了适度的利润。其余的人要么赔钱,要么收支平衡。很少有淘金者获得了可观的
阅读更多...引言 这篇文章是与来自 lakeFS 的 Iddo Avneri 合作撰写的。管理不断增长的 ML 模型复杂性和不断增长的数据量已成为 ML 从业者面临的一项艰巨挑战。高效的数据管理和数据版本控制现在已成为成功 ML 工作流的关键方面。在这篇博文中,我们深入探讨了并行 ML 的强大功能
阅读更多...关于 MLflow MLflow 是一个开源平台,旨在管理完整的机器学习生命周期。Databricks 创建它作为内部项目,以解决其自身机器学习开发和部署过程中面临的挑战。MLflow 后来于 2018 年 6 月作为开源项目发布。作为管理完整生命周期的工具,MLflow 包含以下组件。* MLflow
阅读更多...通过利用 MinIO 对象存储的简单性,使 AI 模型的服务更加轻量级。简而言之,MinIO 对象存储可以用作机器学习模型的“单一事实来源”,进而使 PyTorch Serve 在管理大型语言模型 (LLM) 的更改时提高效率。与往常一样,示例代码为
阅读更多...