利用 MinIO 和 lakeFS 进行并行 ML 实验

简介 这篇文章是与来自 lakeFS 的 Iddo Avneri 合作撰写的。管理不断增长的 ML 模型复杂性和不断增长的数据量已成为 ML 从业者面临的一项艰巨挑战。高效的数据管理和数据版本控制现在已成为成功 ML 工作流程的关键方面。在这篇博文中,我们将深入探讨并行 ML 的强大功能
阅读更多...简介 这篇文章是与来自 lakeFS 的 Iddo Avneri 合作撰写的。管理不断增长的 ML 模型复杂性和不断增长的数据量已成为 ML 从业者面临的一项艰巨挑战。高效的数据管理和数据版本控制现在已成为成功 ML 工作流程的关键方面。在这篇博文中,我们将深入探讨并行 ML 的强大功能
阅读更多...当我们宣布 MinIO 在 Red Hat OpenShift 上可用时,我们没有预料到需求会如此之大,以至于我们有一天会写一系列关于这种强大组合的博文。由于本地云的普遍性和大型组织希望将数据引入自己的云的需求,这种组合正在被迅速采用
阅读更多...关于 MLflow MLflow 是一个开源平台,旨在管理完整的机器学习生命周期。Databricks 将其创建为一个内部项目,以解决其自身机器学习开发和部署过程中面临的挑战。MLflow 后来于 2018 年 6 月作为开源项目发布。作为管理完整生命周期的工具,MLflow 包含以下组件。* MLflow
阅读更多...MinIO Jumbo 使用并行上传将备份性能提高了 15 倍。
阅读更多...这篇文章是 UCE Systems 的 Kevin Lambrecht 和 Raghav Karnam 合作撰写的。云运营模型,特别是 Kubernetes,已成为当今大型基础设施的标准。更重要的是,它们正在以惊人的速度发展,对数据科学、数据分析和 AI/ML 产生重大影响。这种转变对 Hadoop 生态系统产生了重大影响。
阅读更多...MinIO 已发展成为媒体和娱乐行业的核心构建块。我们的客户名单包括领先的有线电视公司、最大的流媒体公司以及数十家上下游公司,我们在最近几个季度添加了许多不同的功能。其中之一称为扇出功能,它
阅读更多...通过利用 MinIO 对象存储的简单性,使您的 AI 模型服务更加轻量级。tl;dr MinIO 对象存储可以用作机器学习模型的“单一事实来源”,进而使 PyTorch Serve 在管理大型语言模型 (LLM) 的更改时更有效率。与往常一样,示例代码是
阅读更多...MinIO 以速度和弹性为首要目标构建,无论您选择在何种环境中运行它。无论是多云、裸机、云实例还是本地部署,MinIO 都设计用于在 AWS、GCP、Azure、托管的裸机服务器以及 Red Hat OpenShift 等 Kubernetes 发行版上运行。MinIO 的运行效果与
阅读更多...了解如何通过低级系统组件测试来排查对象存储性能问题。
阅读更多...备份领域已经进入了一个全新的世界,传统解决方案仍然有用,但规模、变化速度和应用环境需要不同的……根本不同的……方法。本文旨在阐述这个新世界的挑战,界定分界线,以及如何思考构建一个能够
阅读更多...在 OpenShift 上运行 MinIO 使企业能够在其选择的硬件或云实例上实现云原生弹性,平衡成本、容量和性能。
阅读更多...这篇文章是与来自 cnvrg.io 的 Harinder Mashiana 合作撰写的。大型语言模型 (LLM) 彻底改变了科技世界,为文本分析、语言翻译和聊天机器人交互提供了强大的功能。根据 OpenAI 的说法,这场革命将对企业产生重大影响,大约 80% 的美国劳动力可能会受到至少 10% 的工作任务的影响。
阅读更多...引言 在之前关于 AI/ML 的一些文章中,我提到 MinIO 的优势之一是它提供了版本控制、生命周期管理、对象锁定、对象保留和法律保留等工具。这些功能有多种用途。您可能需要一种简单的方法来跟踪训练实验。您还可以使用这些功能来
阅读更多...购买存储时,通常会强调介质,但考虑访问方法可能更为重要。在设计和采购基础设施时,您需要考虑存储协议,尤其是在放弃传统存储以迁移到云原生对象存储时。但是,对象存储依赖于 S3 API 进行通信,
阅读更多...引言 在之前的文章中,我介绍了使用 MinIO 和 Kubeflow v2.0 构建 ML 数据管道。我创建的数据管道将美国人口普查数据下载到 MinIO 的专用实例中。这与 Kubeflow Pipelines (KFP) 内部使用的 MinIO 实例不同。我们可以尝试使用 KFP 的 MinIO 实例,但这
阅读更多...我们最新的 YouTube 培训系列全部围绕 MinIO 运算符展开,该运算符为在 Kubernetes 集群上部署和管理 MinIO 部署(“MinIO 租户”)提供了原生支持。MinIO 的 Mike Johnson(又名 MJ)为我们带来了这个包含 10 部分的视频系列,以奠定对 Kubernetes 的理解基础,然后重点介绍如何在 Kubernetes 上安装和配置 MinIO 运算符,这将
阅读更多...在这篇文章中,我们将探讨搜索,特别是 OpenSearch 如何帮助我们识别模式或查看我们不断增长的数据中的趋势。
阅读更多...这篇文章最初发表在 The New Stack 上。开发人员倾向于使用软件定义、开源、云原生和简单的技术。这基本上定义了对象存储。引言 为机器学习 (ML) 项目的所有阶段选择最佳存储至关重要。研究工程师需要创建多个数据集版本,并尝试不同的模型架构。当
阅读更多...大多数开发人员、工程师、架构师和 DevOps 人员都了解 MinIO。并非所有人都知道我们唯一做的事情就是软件定义的对象存储。我们不做文件或块存储。我们不提供服务,它是自托管的。我们的重点是唯一的。结果是,我们的对象存储客观上,基于采用率、奖项和客户反馈,是最佳的
阅读更多...Apache Kafka 和 Apache Spark 是用于构建流数据管道的两大领先技术,这些管道为数据湖和湖仓提供数据。从非常高的层面上讲,Kafka 将消息流式传输到 Spark,Spark 在那里将它们转换为应用程序可以读取并保存到存储中的格式。
阅读更多...