招聘 AI 人才：为何你的首个招聘对象应该是一位数据工程师

于 AI/ML 2024 年 10 月 4 日

Hiring for AI Success: Why Your First Hire Should Be a Data Engineer

许多希望从数据中提取价值的组织，通常将人工智能计划列为首要任务。但是，在招聘高技能的人工智能/机器学习工程师之前，需要建立管理和优化数据的关键基础。为了取得人工智能的成功，首先聘用数据工程师至关重要，尤其是那些拥有对象存储和开放式表格格式经验的工程师。以下是有原因的。

从经验中学习：正确理解职位名称

当我们的技术和销售培训主管 Pete Hnath 开始在 MinIO 探索人工智能之旅时，他最初发布了一则招聘“数据科学家”的职位。他的目标是找到一位能够立即深入机器学习并构建人工智能模型的人才。但有些事情并不完全符合预期。正如 Pete 解释的那样：

“我最初发布的职位是‘数据科学家’，并收到了一堆层次过高的简历。这些候选人精通算法和高级分析，但缺乏我们需要的云基础设施实践经验。”

意识到构建人工智能模型需要强大的数据基础，Pete 将职位调整为“云工程师”。这一调整吸引了精通云基础设施，但专注于操作层的候选人——管理虚拟机、网络和云原生软件。

“他们的层次过低，”他继续说道，“这些候选人在云原生软件方面表现出色，但没有能力处理数据架构的细微差别。”

最后，他将职位重新定义为“数据工程师”。这正中要害。

“数据工程师似乎是我所需职位的‘金发姑娘’称号——能够为 AI/ML 工作负载管理、存储和优化数据，并具备帮助选择和部署可扩展、高性能、云原生基础设施的架构意识。”

为什么数据工程师对人工智能计划至关重要

AI/ML 模型的优劣取决于它们所依赖的数据。如果数据管理不善、杂乱无章或未针对高效处理进行优化，即使是最优秀的人工智能模型也会达不到预期效果。同样，如果数据架构没有针对 AI/ML 独有且苛刻的存储、网络和计算需求进行优化，应用程序将难以执行。拥有正确技能的数据工程师可确保您的 AI/ML 工作建立在坚实的基础之上。

以下是在人工智能成功中寻找数据工程师时需要关注的方面

对象存储经验：对象存储已成为现代数据湖和湖仓的支柱。它提供了处理海量非结构化和半结构化数据所需的灵活性和可扩展性，这对 AI 工作负载至关重要。数据工程师应该精通 MinIO 或 AWS S3 等平台，以确保无缝的数据管理。
数据湖仓专业知识：AI 工作负载需要对海量数据进行高性能访问，而数据湖仓架构提供了两全其美的方案——数据湖的可扩展性和数据仓库的可靠性。数据工程师应该精通数据湖仓环境的管理和优化，确保数据井井有条、易于检索，并针对 AI/ML 用例进行优化。
数据管道开发：优秀的数据工程师能够设计和实现强大的数据管道，高效地清理、转换和聚合数据。这确保了当 AI/ML 工程师开始工作时，数据已做好建模准备。
云原生技能：虽然层次过低并不理想，但强大的数据工程师仍然应该具备云原生经验，以利用软件实现可扩展的存储和计算。他们应该专注于数据架构以及存储、组织和访问数据的机制。

构建 AI 就绪的数据湖仓

对于现代 AI 计划，数据湖仓架构正日益成为首选解决方案。它将数据湖的灵活性和可扩展性与传统数据仓库的性能和 ACID 保证相结合。为了充分利用这种架构，您的首聘人员应该能够

管理大型对象存储系统。
使用开放式表格格式优化数据，以实现最大效率。
确保数据管道交付 AI 就绪的数据集。
与架构团队合作选择和部署正确的基础设施。

在聘用 AI/ML 工程师之前聘用数据工程师，可以确保您的数据基础设施能够满足高级分析和机器学习的需求。有了强大的数据基础，您可以避免常见的陷阱，并确保您的 AI 计划从第一天起就取得成功。

按正确顺序聘用正确的人才

对于着手进行 AI 计划的组织而言，关键的经验教训是优先聘用具有正确经验的数据工程师。寻找了解对象存储、开放式表格格式、云原生软件和数据基础设施的候选人。一旦您的数据基础稳固，您的 AI/ML 工程师就可以专注于构建和微调模型，而无需受数据低效的影响。