树林中的森林 - 我们人工智能年度的收获

The Forest Amidst the Trees - The Takeaway from our AI Year

2023 年将是意义非凡的一年,也许在人工智能历史的记录中,它是最具意义的年份之一。从本质上说,它是人工智能领域的“大爆炸”。

它始于 2022 年末,当时 OpenAI 的 ChatGPT 诞生了,而人们的反应令人惊叹。几个月内,我们便看到了 Meta 的 LLaMA 2,以及 Google 的 Bard聊天机器人,随后在这一年还出现了 Gemini、Anthropic 的 Claude 以及其他模型。专有模型和开源模型之间的竞争愈演愈烈,甚至强大的 Google 也得出了 没有护城河 的结论。我们认为,这有利于开源模型的发展。

无论如何,这种惊人的发展速度模糊了我们的视野。我们倾向于关注输出,尤其是媒体,而权重、度量、标记和参数则是树木,而不是森林。森林是数据基础设施,它让 OpenAI 这样的公司得以运作,在我们结束这一年的时候,它值得我们关注。

让我们混合一些比喻,并考虑人工智能鸡尾酒的核心成分。

GPU: 人工智能操作的点火装置是 GPU 和其他专用的人工智能芯片(但主要是 GPU)。它们对于复杂的计算和并行处理至关重要,是机器学习算法和深度学习神经网络的核心。

CPU 和 TPU: 虽然 CPU 只是次要的,但你实际上无法在没有它们的情况下实现端到端的运行。它们将变得越来越像 GPU(而且 GPU 也将变得越来越像 CPU)。

对象存储: 对象存储为人工智能系统所需的大量不同类型的数据提供了可扩展、灵活且经济高效的存储解决方案,并且它在扁平的环境中实现,使其成为人工智能通常依赖的非结构化数据的理想选择。此外,它利用了 S3 API,开发人员和机器学习从业人员已经熟悉并喜欢它。这些是每个基础模型都在对象存储上进行训练的原因。文件系统方面的人可以发布他们想要的所有合作公告,但数据科学界知道存储的“始末”就是对象存储。

网络基础设施: 在人工智能领域,网络方面的故事被严重忽视了。在当今时代,你根本无法足够快。很快,双 NIC 100 GbE 就会显得慢了。但它目前仍然能够胜任工作。

软件和算法: 虽然今年是“大爆炸”,但机器学习框架和库一直都在稳步发展。其中包括 CNN、RNN、GAN、强化学习、拓扑数据分析、NLP 以及其他技术。它们为 LLM、RAG 和联邦学习奠定了基础。尽管如此,我们也不能忽视 2023 年取得的巨大进步,它们为未来发展铺平了道路。

大规模数据和数据集: 如果说 GPU 是点火装置,那么数据就是人工智能和机器学习引擎的燃料。需要大量准确、干净、具有代表性、多样化的当前数据。无论数据是结构化的、半结构化的还是非结构化的,都不重要。它需要进行版本控制和来源跟踪。虽然数据是明星,但我们不能夸大路由、存储和复制数据的管道的重要性。

安全和合规性: 鉴于安全在其他所有领域的重要性,我们在人工智能的语境中谈论它并不多,正如我们应该的那样。然而,我们确实谈论合规性,而且有充分的理由——可解释性和安全性。它们都是技术方面的举措,是数据基础设施的重要组成部分。

我怀疑我们可能遗漏了一些东西,或者可以为以上部分添加一些额外的细节,但这涵盖了成功的人工智能数据基础设施的关键成分。

是的,2023 年是关于 LLMRAG 以及每周的突破,但要回到最初的类比,这些是树木。森林是底层的数据基础设施。正是它推动了进步。正是它将推动 2024 年的进步。现代数据基础设施堆栈不需要人工智能,而人工智能需要 现代数据基础设施堆栈。在可预见的未来,情况将一直如此。它是一个复杂而常常被低估的组件组合,它们协同工作,以发挥人工智能的真正潜力。无论模型设计得多么复杂,如果数据及其基础设施存在限制,那么它都无法超越理解的水平。我们设计了出色的模型架构,但它们的最大潜力受到计算、数据、网络和存储等依赖关系的限制。

现代数据基础设施扩展了我们的可能性。干净的管道为覆盖更多领域的数据集提供更准确的燃料,并减少偏差,从而立即改进下游模型。扩展基础设施还可以通过消除数据瓶颈,加速实验。

LLM 的最大优势在于它们被训练来理解构成现实世界的概率分布,或者更确切地说,是构成其训练数据集的数据。然而,这也是它们最大的弱点。LLM 可以对用户的询问给出非常好的猜测,但仅仅是猜测而已。就目前而言,生成式人工智能缺乏对问题进行推理和批判性思考的能力。这意味着 LLM 的可靠性和基础知识依赖于一件事,也仅仅依赖于一件事:网络规模的训练数据。为了处理这种数据收集和训练工作负载,组织需要可扩展的数据基础设施。基础设施决定了数据的广度和多功能性。因此,为了实现不受当今盲点限制的长期进步,改进底层数据结构将带来最广泛的连锁反应。数据是人工智能的生命线;基础设施为其提供通道。

当我们将人工智能创新扩展到 2024 年及以后时,我们很高兴能够参与一个关键组件的工作:灵活的软件驱动型对象存储。对象存储能够以经济高效的方式提供可扩展的性能,从而支持雄心勃勃的项目,它已经成为软件定义基础设施堆栈的核心。从 Anthropic 到 YOLO 的生态系统中的每个应用程序都利用了对象存储。

我们致力于成为这个领域的佼佼者。想要了解更多?请注册 新闻稿下载代码 或者 加入我们 Slack。我们是建设者,并致力于长期发展。