开源还是闭源?AI 的两难选择

这篇文章最初发表于 The New Stack,发布于2024年7月29日。
人工智能正处于软件行业的风暴中心,现在马克·扎克伯格呼吁 开源人工智能。
关于如何控制人工智能,三种强大的观点正在发生碰撞:
- 所有人工智能都应该开源,以实现共享和透明。
- 保持人工智能的闭源,并允许大型科技公司控制它。
- 制定人工智能使用规范。
有一些事实使这场辩论变得棘手。首先,如果你拥有模型的源代码,你对模型的行为一无所知。人工智能的开放性需要远不止提供源代码。其次,人工智能有多种不同的形式,可以用来解决广泛的问题。从用于欺诈检测和目标广告的传统人工智能,到用于创建聊天机器人的生成式人工智能,这些聊天机器人在表面上会产生类似人类的结果,从而将我们一步步推向人工智能最终(也是可怕的)目标——人工通用智能(AGI)。最后,上面列出的控制人工智能的想法都具有经过验证的记录,可以改善一般的软件。
在这篇文章中,我将讨论
- 开源的本质以及为什么行业必须为人工智能模型重新定义它。
- 理想主义者常见的论点和逻辑缺陷,他们过度关注单一用例。
- 创新者的权利和公众的权利。
- 关于对正确的模型进行适当控制的想法。
理解不同的观点
在深入探讨之前,让我们更详细地讨论一下上面列出的不同观点。
观点 #1 – 所有人工智能都应该开源,以实现共享和透明: 这源于对人工智能透明度的追求。开源是一种经过验证的软件共享和改进方法。当用于传统软件时,它提供了完整的透明度。(在这篇文章中,我将使用“传统软件”一词来指代与人工智能无关的软件。例如,操作系统、服务、可重用库或完整应用程序。)开源软件已经使软件行业取得了长足的进步。
观点 #2 – 保持人工智能的闭源,并允许大型科技公司控制它: 闭源或专有软件的想法是,一项发明可以保密,远离竞争对手,以最大化经济收益。对于开源理想主义者来说,这听起来完全邪恶;然而,它更多地是一种哲学选择,而不是存在于善与恶谱系上的选择。大多数软件都是专有的,这本身并不坏——它是竞争性和健康生态系统的基础。对于任何创造新事物并选择闭源路径的创新者来说,这都是一项基本权利。问题变成了,如果你在没有透明度的情况下运作,关于负责任的人工智能又能有什么保证呢?
观点 #3 – 制定人工智能使用规范: 这来自立法者和当选官员,他们正在推动监管。基本的想法是,如果一项公共职能或技术强大到足以让不法分子或不负责任的管理损害公众,那么应该任命一个政府机构来制定控制措施并执行这些控制措施。有一种观点认为,人工智能领域现有的领导者也希望进行监管,但原因不那么纯粹——他们希望在领先的情况下冻结竞争环境。我们将主要关注公共利益领域。
开源的本质
在生成式人工智能出现之前,数据中心中运行的大多数软件都是传统软件。如果你拥有传统软件的源代码,你可以准确地确定它的功能。精通适当编程语言的工程师可以检查代码并确定其逻辑。你甚至可以修改它并改变它的行为。开源(或开源代码)是另一种说法——我将提供确定行为和改变行为所需的一切。简而言之,开源软件的本质是提供理解软件行为并对其进行更改所需的一切。
现在,对于人工智能模型,如果你拥有模型的源代码,你对模型的行为一无所知。要使模型完全开放,你需要训练数据、模型的源代码、训练期间使用的超参数,当然还有训练后的模型本身,它由数十亿(很快将达到数万亿)存储模型知识的参数组成——也称为参数化内存。现在,一些组织只提供模型,将其他所有内容保留给自己,并声称该模型是“开源的”。这种做法被称为“开源漂白”,通常被开源和闭源社区视为不诚实的行为。我希望看到一个用于部分共享的人工智能模型的新术语。也许是“部分开放模型”或“来自开源漂白公司的模型”。
在完全共享的模型方面还有一个最终的难题。假设一个组织想要做正确的事情,并共享有关模型的所有信息——训练数据、源代码、超参数和训练后的模型。好吧,除非你对其进行广泛的测试,否则你仍然无法准确地确定它将如何表现。决定行为的参数化内存对人类来说是不可读的。同样,行业需要一个用于完全开放模型的不同术语。一个不同于“开源”的术语,因为“开源”只应用于非人工智能软件,因为模型的源代码无助于确定模型的行为。也许是“开放模型”。
常见的论点
让我们看看在互联网上你会发现的一些支持只使用前面描述的其中一个观点的常见论点。这些都是他们观点的热情捍卫者,但这种热情可能会蒙蔽判断。
论点: 闭源人工智能的支持者声称,大型科技公司有能力防止潜在的危险和滥用。因此,人工智能应该保持私密,不要进入开源社区。
反驳: 大型科技公司确实有能力防止潜在的滥用,但这并不意味着他们会明智地或根本不会这样做。此外,这不是他们的主要目标。他们的主要目标是为股东赚钱——这将永远优先。
论点: 那些认为人工智能可能对人类构成威胁的人喜欢问:“你会开源曼哈顿计划吗?”
反驳: 这显然是一个关于治理的论点。但是,这是一个不公平且不正确的类比。曼哈顿计划的目的是在战时利用放射性物质产生核聚变来制造炸弹。核聚变不是可以应用于不同任务的通用技术。你可以制造炸弹,也可以发电——仅此而已。成分和结果对公众来说非常危险,因此所有方面都应该受到监管。人工智能大不相同。如上所述,它具有不同的形式,风险也各不相同。
论点: 人工智能开源的支持者表示,开源有助于科学共享,提供透明度,并且是防止少数人垄断强大技术的途径。
反驳: 这在很大程度上是正确的,但并非完全正确。开源确实提供了共享。对于人工智能模型,它只会提供一定程度的透明度。最后,关于“开放模型”是否会阻止少数人垄断其权力,这一点尚有争议。要大规模运行像ChatGPT这样的模型,你需要只有少数几家公司能够获得的计算能力。
多数人的需求胜过少数人的需求
在《星际迷航II:可汗的愤怒》中,史波克死于辐射中毒。史波克意识到飞船的主引擎必须进行维修才能逃脱,但发动机舱充满了致命的辐射。尽管存在危险,史波克还是进入充满辐射的舱室进行必要的维修。他成功地恢复了曲速引擎,使企业号能够到达安全距离。不幸的是,瓦肯人对辐射并不免疫。他对柯克船长临终前的遗言解释了他行动背后的逻辑:“多数人的需求胜过少数人或个人的需求。”
这是完全合理的逻辑,并且必须用于控制人工智能。某些模型会对公众构成风险。对于这些模型,公众的需求胜过创新者的权利。
所有人工智能都应该开源吗?
我们现在准备将所有内容联系起来,并回答这篇文章标题中的问题。首先,让我们回顾一下迄今为止建立的公理
- 开源应该仍然是一种选择。
- 开放模型不如开源的非人工智能软件透明。
- 闭源是创新者的权利。
- 不能保证大型科技公司会正确控制其人工智能。
- 公众的需求必须优先于所有其他需求。
以上五点代表了我试图阐明关于开源、闭源和监管的所有内容。如果你认为它们是正确的,那么对于“所有人工智能都应该开源吗?”这个问题的答案是否定的,因为它既不能控制人工智能,也不能控制闭源。此外,在一个公平的世界里,开源和开放模型应该仍然是一种选择,闭源也应该仍然是一种权利。
我们可以更进一步,谈谈整个行业可以采取的行动,以朝着有效控制人工智能的方向发展
- 确定对公众构成风险的模型类型。由于控制信息(聊天机器人)或危险资源(自动驾驶汽车)而具有高风险的模型应受到监管。
- 应鼓励组织共享其模型作为完全开放的模型。开源社区需要加大力度,防止或标记仅部分共享的模型。开源社区还应制定可用于评估模型的测试。
- 如果封闭模型不构成对公众的风险,则仍应允许其存在。大型科技公司应加强自身控制和测试措施的开发,并提供资金和共享。也许这是一个机会,让大型科技公司与开源社区紧密合作,共同解决一个共同的问题。
如有任何疑问,请随时通过Slack与我们联系!