使用 Ray Train 和 MinIO 进行分布式训练

大多数机器学习项目都从单线程概念验证开始,其中每个任务都必须在下一个任务开始之前完成。下面显示的单线程 ML 管道就是一个示例。但是,在某些时候,您将无法再使用上面显示的管道。这可能是由于数据集不再适合单个进程的内存导致的。
阅读更多...大多数机器学习项目都从单线程概念验证开始,其中每个任务都必须在下一个任务开始之前完成。下面显示的单线程 ML 管道就是一个示例。但是,在某些时候,您将无法再使用上面显示的管道。这可能是由于数据集不再适合单个进程的内存导致的。
阅读更多...在采用 AI 的热潮中,有一个关键且经常被忽视的事实——任何 AI 计划的成功都与底层数据基础设施的质量、可靠性和性能息息相关。如果没有适当的基础,您在构建和实现方面都会受到限制。您的数据基础设施
阅读更多...简介 分布式数据处理是高效端到端分布式机器学习训练管道的一个关键组成部分。如果您正在构建用于统计预测的基本神经网络,那么分布式训练可能意味着每个实验运行 10 分钟而不是 1 小时,这是正确的。如果您正在训练或微调大型语言模型 (LLM),那么
阅读更多...简介 生成式 AI 代表了企业可以用来解锁其边界内被困数据的最新的技术。理解生成式 AI 的可能性最简单的方法是想象一个定制的大型语言模型——类似于为 ChatGPT 提供支持的模型——在您的防火墙内运行。现在,这个自定义 LLM 与
阅读更多...Hugging Face 的 DatasetDict 类是 Datasets 库的一部分,旨在使处理面向 Hugging Face Hub 上任何模型的数据集变得高效。顾名思义,DatasetDict 类是一个数据集字典。理解从此类创建的对象的最佳方法是查看一个快速的
阅读更多...简介 在之前的文章中,我介绍了特征提取,这是一种利用预训练的大型语言模型 (LLM) 来解决自定义问题而无需重新训练模型的技术。特征提取是使用模型已经掌握的知识来解决与模型最初训练目的不同的任务的两种方法之一。
阅读更多...简介 在这篇文章中,我将介绍每位工程师都应该了解的一种利用开源大型模型的技术。具体来说,我将展示如何执行特征提取。特征提取是使用模型已经掌握的知识来解决与模型最初训练目的不同的任务的两种方法之一。
阅读更多...引言 1997年,克莱顿·克里斯坦森在其著作《创新者的窘境》中,识别了一种创新模式,该模式追踪了在现有企业和新进入者之间能力、成本和细分市场采用率之间的关系。他将这种模式称为“颠覆式创新”。并非所有成功的产品都是颠覆性的——即使它导致成熟企业失去市场份额甚至失败。
阅读更多...引言 在之前的文章中,我介绍了 Apache Iceberg,并展示了它如何使用 MinIO 进行存储。我还展示了如何设置开发机器。为此,我使用了 Docker Compose 来安装 Apache Spark 容器作为处理引擎、一个 REST 目录和 MinIO 用于存储。最后,我提供了一个非常简单的
阅读更多...引言 开放式表格式 (OTF) 是数据分析领域最近势头强劲的一种现象。OTF 的承诺在于,它作为一种解决方案,利用分布式计算和分布式对象存储,提供了数据仓库无法实现的功能。这些格式的开放特性为组织提供了多种选择,使其能够
阅读更多...引言 MLflow 模型注册表允许您管理旨在用于生产环境的模型。这篇文章承接了我上一篇关于 MLflow 追踪的文章。在我的追踪文章中,我展示了如何记录参数、指标、工件和模型。如果您还没有阅读过,建议您有机会时阅读一下。在
阅读更多...引言 跟踪机器学习实验是一项挑战。假设您在 MinIO 存储桶中有一组原始文件,用于训练和测试模型。始终有多种方法可以预处理数据、设计特征和设计模型。鉴于所有这些选项,您将希望运行许多
阅读更多...引言 加利福尼亚淘金热始于 1848 年,持续到 1855 年。据估计,大约 30 万人从美国其他地区和国外迁移到加利福尼亚。经济评估表明,平均只有半数人获得了适度的利润。其余的人要么亏损,要么收支平衡。很少有淘金者获得了可观的
阅读更多...关于 MLflow MLflow 是一个开源平台,旨在管理完整的机器学习生命周期。Databricks 将其创建为一个内部项目,以解决其自身机器学习开发和部署过程中面临的挑战。MLflow 后来于 2018 年 6 月作为开源项目发布。作为管理完整生命周期的工具,MLflow 包含以下组件。* MLflow
阅读更多...引言 在之前关于 AI/ML 的几篇文章中,我提到 MinIO 的优势之一是它提供了版本控制、生命周期管理、对象锁定、对象保留和法律保留等工具。这些功能具有多种用途。您可能需要一种简单的方法来跟踪训练实验。您还可以使用这些功能来
阅读更多...引言 在之前的文章中,我介绍了使用 MinIO 和 Kubeflow v2.0 构建 ML 数据管道。我创建的数据管道将美国人口普查数据下载到一个专用的 MinIO 实例中。这与 Kubeflow Pipelines (KFP) 内部使用的 MinIO 实例不同。我们可以尝试使用 KFP 的 MinIO 实例——但是,这样做
阅读更多...这篇文章最初发表在 The New Stack 上。开发人员倾向于使用软件定义、开源、云原生和简单的技术。这基本上定义了对象存储。引言为机器学习 (ML) 项目的所有阶段选择最佳存储至关重要。研究工程师需要创建数据集的多个版本,并尝试不同的模型架构。当
阅读更多...工程师喜欢在本地玩耍和学习。正在调查的工具无关紧要:高端存储解决方案、工作流编排引擎,或者分布式计算领域的最新成果。学习新技术的最佳方法是在一台机器上塞满所有内容,以便您可以亲自动手
阅读更多...Kubeflow Pipelines (KFP) 是 Kubeflow 最受欢迎的功能。Python 工程师可以使用 KFP 装饰器将用普通 Python 编写的函数转换为在 Kubernetes 中运行的组件。如果您使用过 KFP v1,请注意——KFP v2 中的编程模型非常不同——但是,它是一个巨大的改进。将普通的
阅读更多...