Keith Pijanowski - MinIO 博客 (第 2 页) - MinIO 博客

使用 Ray Train 和 MinIO 进行分布式训练

Keith Pijanowski Keith Pijanowski 发表于 AI/ML 2023 年 12 月 20 日

Distributed Training with Ray Train and MinIO

大多数机器学习项目都从单线程概念验证开始，其中每个任务都必须在下一个任务开始之前完成。下面显示的单线程 ML 管道就是一个示例。但是，在某些时候，您将无法再使用上面显示的管道。这可能是由于数据集不再适合单个进程的内存导致的。

阅读更多...

您的 AI 基础设施基石：现代数据湖

Keith Pijanowski Keith Pijanowski 发表于 AI/ML 2023 年 12 月 12 日

The Foundation of Your AI Infrastructure: A Modern Datalake

在采用 AI 的热潮中，有一个关键且经常被忽视的事实——任何 AI 计划的成功都与底层数据基础设施的质量、可靠性和性能息息相关。如果没有适当的基础，您在构建和实现方面都会受到限制。您的数据基础设施

阅读更多...

使用 Ray Data 和 MinIO 进行分布式数据处理

Keith Pijanowski Keith Pijanowski 发表于 AI/ML 2023 年 12 月 4 日

Distributed Data Processing with Ray Data and MinIO

简介分布式数据处理是高效端到端分布式机器学习训练管道的一个关键组成部分。如果您正在构建用于统计预测的基本神经网络，那么分布式训练可能意味着每个实验运行 10 分钟而不是 1 小时，这是正确的。如果您正在训练或微调大型语言模型 (LLM)，那么

阅读更多...

企业级生成式 AI

Keith Pijanowski Keith Pijanowski 发表于 AI/ML 2023 年 11 月 8 日

Generative AI for the Enterprise

简介生成式 AI 代表了企业可以用来解锁其边界内被困数据的最新的技术。理解生成式 AI 的可能性最简单的方法是想象一个定制的大型语言模型——类似于为 ChatGPT 提供支持的模型——在您的防火墙内运行。现在，这个自定义 LLM 与

阅读更多...

将 MinIO 与 Hugging Face 数据集集成

Keith Pijanowski Keith Pijanowski 发表于 AI/ML 2023 年 10 月 23 日

Integrating MinIO with Hugging Face Datasets

Hugging Face 的 DatasetDict 类是 Datasets 库的一部分，旨在使处理面向 Hugging Face Hub 上任何模型的数据集变得高效。顾名思义，DatasetDict 类是一个数据集字典。理解从此类创建的对象的最佳方法是查看一个快速的

阅读更多...

使用 Hugging Face 和 MinIO 微调大型语言模型

Keith Pijanowski Keith Pijanowski 发表于 AI/ML 2023 年 10 月 2 日

Fine-Tuning Large Language Models with Hugging Face and MinIO

简介在之前的文章中，我介绍了特征提取，这是一种利用预训练的大型语言模型 (LLM) 来解决自定义问题而无需重新训练模型的技术。特征提取是使用模型已经掌握的知识来解决与模型最初训练目的不同的任务的两种方法之一。

阅读更多...

使用大型语言模型、Hugging Face 和 MinIO 进行特征提取

Keith Pijanowski Keith Pijanowski 发表于 AI/ML 2023 年 9 月 26 日

Feature Extraction with Large Language Models, Hugging Face and MinIO

简介在这篇文章中，我将介绍每位工程师都应该了解的一种利用开源大型模型的技术。具体来说，我将展示如何执行特征提取。特征提取是使用模型已经掌握的知识来解决与模型最初训练目的不同的任务的两种方法之一。

阅读更多...

数据湖仓的颠覆性

Keith Pijanowski Keith Pijanowski 发表于 Apache Iceberg 2023 年 9 月 12 日

The Disruptive Nature of Data Lakehouses

引言 1997年，克莱顿·克里斯坦森在其著作《创新者的窘境》中，识别了一种创新模式，该模式追踪了在现有企业和新进入者之间能力、成本和细分市场采用率之间的关系。他将这种模式称为“颠覆式创新”。并非所有成功的产品都是颠覆性的——即使它导致成熟企业失去市场份额甚至失败。

阅读更多...

使用 Apache Iceberg 和 MinIO 构建数据湖仓

Keith Pijanowski Keith Pijanowski 发表于 AI/ML 2023年8月31日

Building a Data Lakehouse using Apache Iceberg and MinIO

引言在之前的文章中，我介绍了 Apache Iceberg，并展示了它如何使用 MinIO 进行存储。我还展示了如何设置开发机器。为此，我使用了 Docker Compose 来安装 Apache Spark 容器作为处理引擎、一个 REST 目录和 MinIO 用于存储。最后，我提供了一个非常简单的

阅读更多...

使用 MinIO 的 Apache Iceberg 开发人员入门指南

Keith Pijanowski Keith Pijanowski 发表于 AI/ML 2023年8月24日

A Developer’s Introduction to Apache Iceberg using MinIO

引言开放式表格式 (OTF) 是数据分析领域最近势头强劲的一种现象。OTF 的承诺在于，它作为一种解决方案，利用分布式计算和分布式对象存储，提供了数据仓库无法实现的功能。这些格式的开放特性为组织提供了多种选择，使其能够

阅读更多...

MLflow 模型注册表和 MinIO

Keith Pijanowski Keith Pijanowski 发表于 AI/ML 2023年8月11日

MLflow Model Registry and MinIO

引言 MLflow 模型注册表允许您管理旨在用于生产环境的模型。这篇文章承接了我上一篇关于 MLflow 追踪的文章。在我的追踪文章中，我展示了如何记录参数、指标、工件和模型。如果您还没有阅读过，建议您有机会时阅读一下。在

阅读更多...

MLflow 追踪和 MinIO

Keith Pijanowski Keith Pijanowski 发表于 AI/ML 2023年8月3日

MLflow Tracking and MinIO

引言跟踪机器学习实验是一项挑战。假设您在 MinIO 存储桶中有一组原始文件，用于训练和测试模型。始终有多种方法可以预处理数据、设计特征和设计模型。鉴于所有这些选项，您将希望运行许多

阅读更多...

淘金热期间的 AI/ML 最佳实践

Keith Pijanowski Keith Pijanowski 发表于 AI/ML 2023年7月31日

AI/ML Best Practices During a Gold Rush

引言加利福尼亚淘金热始于 1848 年，持续到 1855 年。据估计，大约 30 万人从美国其他地区和国外迁移到加利福尼亚。经济评估表明，平均只有半数人获得了适度的利润。其余的人要么亏损，要么收支平衡。很少有淘金者获得了可观的

阅读更多...

使用 MLFlow 和 MinIO 设置开发机器

Keith Pijanowski Keith Pijanowski 发表于 AI/ML 2023年7月21日

Setting up a Development Machine with MLFlow and MinIO

关于 MLflow MLflow 是一个开源平台，旨在管理完整的机器学习生命周期。Databricks 将其创建为一个内部项目，以解决其自身机器学习开发和部署过程中面临的挑战。MLflow 后来于 2018 年 6 月作为开源项目发布。作为管理完整生命周期的工具，MLflow 包含以下组件。* MLflow

阅读更多...

AI/ML 的对象管理

Keith Pijanowski Keith Pijanowski 发表于 AI/ML 2023年6月29日

Object Management for AI/ML

引言在之前关于 AI/ML 的几篇文章中，我提到 MinIO 的优势之一是它提供了版本控制、生命周期管理、对象锁定、对象保留和法律保留等工具。这些功能具有多种用途。您可能需要一种简单的方法来跟踪训练实验。您还可以使用这些功能来

阅读更多...

使用 MinIO 和 Kubeflow v2.0 构建 ML 训练管道

Keith Pijanowski Keith Pijanowski 发表于 AI/ML 2023年6月20日

Building an ML Training Pipeline with MinIO and Kubeflow v2.0

引言在之前的文章中，我介绍了使用 MinIO 和 Kubeflow v2.0 构建 ML 数据管道。我创建的数据管道将美国人口普查数据下载到一个专用的 MinIO 实例中。这与 Kubeflow Pipelines (KFP) 内部使用的 MinIO 实例不同。我们可以尝试使用 KFP 的 MinIO 实例——但是，这样做

阅读更多...

架构师指南：AI 存储

Keith Pijanowski Keith Pijanowski 发表于 AI/ML 2023年6月15日

The Architect’s Guide to Storage for AI

这篇文章最初发表在 The New Stack 上。开发人员倾向于使用软件定义、开源、云原生和简单的技术。这基本上定义了对象存储。引言为机器学习 (ML) 项目的所有阶段选择最佳存储至关重要。研究工程师需要创建数据集的多个版本，并尝试不同的模型架构。当

阅读更多...

使用 Kubeflow Pipelines 2.0 和 MinIO 设置开发机器

Keith Pijanowski Keith Pijanowski 发表于 AI/ML 2023年6月2日

Setting up a Development Machine with Kubeflow Pipelines 2.0 and MinIO

工程师喜欢在本地玩耍和学习。正在调查的工具无关紧要：高端存储解决方案、工作流编排引擎，或者分布式计算领域的最新成果。学习新技术的最佳方法是在一台机器上塞满所有内容，以便您可以亲自动手

阅读更多...

使用 MinIO 和 Kubeflow v2.0 构建 ML 数据管道

Keith Pijanowski Keith Pijanowski 发表于 AI/ML 2023年5月25日

Building an ML Data Pipeline with MinIO and Kubeflow v2.0

Kubeflow Pipelines (KFP) 是 Kubeflow 最受欢迎的功能。Python 工程师可以使用 KFP 装饰器将用普通 Python 编写的函数转换为在 Kubernetes 中运行的组件。如果您使用过 KFP v1，请注意——KFP v2 中的编程模型非常不同——但是，它是一个巨大的改进。将普通的

阅读更多...

© . This site is unofficial and not affiliated with MinIO, Inc.