人工智能的未来是开源的

想象一个未来,人工智能不再被锁在企业金库里,而是由全球创新者社区,一块砖一块砖地公开构建。在那里,合作而不是竞争推动进步,道德考量与原始性能同等重要。这不是科幻小说,而是正在人工智能开发中心兴起的开源革命。但科技巨头有自己的议程,他们将受限模型伪装成开源,试图从中真正开放的社区中获利。让我们剥开代码层,揭示这些努力背后的真相。这次对开源人工智能未来的探索将剖析人工智能开发中的“伪装者”和“真实力派”,揭示支撑这一切的开源软件创新引擎。底线是,开源人工智能将催生开源数据栈。
需求
《大西洋月刊》中马特奥·王最近的一篇文章,名为《“开放”人工智能从未存在》,描述了学术界和软件社区中对真正开源人工智能的日益增长的趋势。“其理念是创造相对透明的模型,公众可以更轻松、更廉价地使用、研究和复制这些模型,试图将这项可能改变工作、执法、休闲甚至宗教的集中度很高的技术民主化。” 同一篇文章还指出,Meta 等科技巨头公司正在尝试通过“开源洗白”其产品来满足这一市场需求。他们没有真正开源其产品,而是假借开源社区的特征和正面声誉。但没有什么是能替代真正开源的。这是因为真正开源的软件推动着创新和协作:人工智能负责任地向前发展迫切需要这两种品质。
伪装者
LLaMA 2 是 Meta 创建的一个大型语言模型,可供研究和商业用途免费使用。这导致一些人认为 LLaMA 2 是开源的。然而,Meta 对其模型的使用实施了一些严格限制。例如,LLaMA 2 不能用于改进任何其他大型语言模型。这一立场违背了传统 开放软件的私人集体创新模式,该模式提倡为了软件社区所有人的利益而自由公开地揭示创新。
Meta 通过禁止将 LLaMA 2 集成到拥有 7 亿月活跃用户的产品中以及不公开其模型训练的数据或构建模型使用的代码,进一步削弱了其模型的使用。通过不公开,Meta 正在招致关于固有偏差和意外歧视的质疑。用歧视性数据训练的模型将 提供歧视性的回应。如果软件社区无法查看用于构建模型的代码(以查看是否内置了任何安全措施)或用于训练模型的数据,那么我们将无法了解这些道德问题。在 关于人工智能的已发表研究 更关注性能而非公平和尊重的时代,这种混淆尤其令人不安。
真实力派
Mistral AI 以其开源大型语言模型,特别是 Mistral 7B 和 Mixtral 8x7B 而闻名。该公司努力确保其人工智能模型广泛可用,鼓励开源软件社区对其进行审查、修改和重复使用。
vLLM 代表“矢量化低延迟模型服务”,是一个专门设计用于加速和优化大型语言模型 (LLM) 的开源库。它是一个功能强大的工具,可以显着提高 LLM 的性能和可用性。这对从事各种人工智能应用开发的开发人员来说是一个宝贵的资产,从聊天机器人和虚拟助手到内容创作和代码生成。以至于 Mistral 建议将 vLLM 作为 7B 和 8x7B 模型的推理服务器。
EleutherAI 是一家非营利性人工智能研究实验室,它从一个讨论 GPT-3 的 Discord 服务器发展成为一家领先的非营利性研究机构。该小组以其在训练和促进自然语言处理的开放科学规范方面的成果而闻名。他们发布了各种开源大型语言模型,并参与了与人工智能对齐和可解释性相关的研究项目。他们的 LM-Harness 项目可能是领先的语言模型开源评估工具。
Phi-2 是微软的 LLM,它表现超群。该模型使用合成文本和过滤网站的混合体进行训练,尽管规模较小,但功能强大,在问答、摘要和翻译等任务中表现出色。真正让 Phi-2 脱颖而出的是它对推理和语言理解的关注,即使没有先进的对齐技术,它也能取得令人印象深刻的性能。
许多优秀开源嵌入模型正在增强整个开源生成式人工智能领域。它们是当前开源领域的顶尖技术,包括 UAE-Large-V1 和 multilingual-e5-large。
在这个不断发展的领域中还有很多其他模型。这个有限的列表只是一个开始。
开源推动创新
拥抱极端开放式创新的理念,真正参与开源软件开发的公司通过承认 并非所有优秀的代码或伟大的想法都存在于他们的组织内部,从而挑战了传统的竞争优势概念。这种转变支持 论点,即开源生态系统中的共享创新导致更快的市场增长,即使是研发资金有限的较小软件公司也可以 从开源软件中存在的研发溢出中获益。这是因为,与传统的外包不同,开放式创新 增强内部资源,通过利用社区的集体智慧,而不会减少内部研发工作。这意味着开源软件公司不必牺牲预算来追求思想领导力和组织之外的代码。此外,开源软件公司通过 尽早且频繁地发布代码 来战略性地推动创新,认识到软件社区中创新过程的累积性。所有这些都说明了许多人已经认识到的一件事:开源软件推动着创新。
开放促进合作
通过 网络 在开源软件社区中,企业家能够实现短期和长期目标。短期利润目标构建公司,长期利润目标维持公司。同时,这种网络努力自我延续了网络本身 - 为下一代企业家发展网络。众所周知,开源平台提供对源代码的访问权限,使开发人员能够创建升级、插件和其他软件部件,并根据其需求使用这些部件。这种特殊类型的协作在 Kubernetes 被更广泛的软件社区广泛采用后蓬勃发展。现在比以往任何时候都多,现代技术几乎没有摩擦地协同工作,并且可以在几分钟内几乎在任何地方协同工作。
科技巨头公司在免费发布他们创建的框架、库和语言来维护和开发内部工具时,承认了开源社区固有的这种深度协作。这样做可以加深能够参与其产品开发的开发人员队伍,并开始设定类似技术应该如何运行的标准。同一篇文章引用了 Meta 创始人马克·扎克伯格的话,他说这“对我们来说非常有价值,因为现在行业中所有最优秀的开发人员都在使用我们也在内部使用的工具”。
开源催生开源
这些是我们在开源公司之间经常看到协同效应的原因。开源人工智能和机器学习公司自然会使用从基础产品(如对象存储)到整个堆栈(包括可视化工具)的其他开源产品开发解决方案。当一家开源公司向前迈进时,我们都会向前迈进。这种紧密结合且混合的方法可能是我们开发以人为本的人工智能的最佳选择。市场对开源人工智能的需求固有的这些自然力量,再加上开源软件的创新和协作特性,将推动人工智能数据栈开源。
请通过向我们发送电子邮件至 hello@min.io 或在我们的 Slack 频道 上给我们发送消息,加入并参与这场对话和我们的社区。