1.阿里云开源通义千问70亿参数模型
阿里大模型往开源道路上前进。
近日,阿里云开源通义千问70亿参数模型,包括通用模型Qwen-7B和对话模型Qwen-7B-Chat。
具体来看,Qwen-7B是支持中、英等多种语言的基座模型,Qwen-7B-Chat是基于基座模型的中英文对话模型,已实现与人类认知对齐。
据介绍,这两款开源模型均已上线魔搭社区,开源、免费、可商用。用户既可从魔搭社区直接下载模型,也可通过阿里云灵积平台访问和调用Qwen-7B和Qwen-7B-Chat,阿里云为用户提供包括模型训练、推理、部署、精调等在内的服务。
此次上线两款开源模型,让阿里云成为了国内首个加入大模型开源行列的大型科技企业。
开源,简单来说,就是指开放的源代码,过去通常指公开某款软件项目的源代码。人工智能三要素包括算法、算力和数据。从人工智能方面看,大语言模型的开源,其源码在算法上。算法的核心部分主要包括有模型结构和训练方法,这两部分都有对应的源码。
开源模型,也就是开源训练好的模型参数,这些模型是通过大量数据和算力训练出来的。站在企业的角度,阿里云上线这两款开源模型,能够帮助其他大中小企业简化模型训练和部署,极大降低了企业训练模型的成本。
站在阿里云角度,开源模型能够让阿里云建立起一个繁荣的开源社区生态,助力阿里云开源大模型的发展。
事实上,阿里云已经在构建开源模型社区上有所部署。魔塔社区就是去年推出的AI模型社区,魔搭社区成立初衷就是通过开源开放、共建社区生态的方式,让AI开发使用更简单。经过半年左右的发展,魔搭成为了国内规模最大AI模型开源社区。
(图源:阿里云开发社区)
阿里云表示,开源大模型可以帮助用户简化模型训练和部署的过程,用户不必从头训练模型,只需下载预训练好的模型并进行微调,就可快速构建高质量的模型。
今年,在世界人工智能大会上,阿里云CTO周靖人透露,阿里云魔搭社区已聚集180万AI开发者和由20多家顶尖人工智能机构贡献的900多个优质AI模型,将努力把魔搭社区培育成中国最大的“大模型自由市场”。
开源大模型平台的不断完善以及开源生态的日益繁荣发展,将助推中国大模型的技术进步与应用落地。
2.阿里云首个加入大模型开源行列
今年4月,阿里云就推出了大模型通义千问。在短短几个月的时间,阿里云发布了通义系列大模型,例如,通义听悟、通义万相等语言、视觉、多模态的AIGC工具。
通义千问,是阿里云推出的一个超大规模的语言模型,功能包括多轮对话、文案创作、逻辑推理、多模态理解、多语言支持,能够跟人类进行多轮的交互,也融入了多模态的知识理解,且有文案创作能力,能够续写小说,编写邮件等。
(图源:通义千问官网)
那么,阿里云成为国内首个加入大模型开源行列的大型科技企业意味着什么呢?
通义千问成为第一个科技大厂的开源大模型,或许意味着国内已经白热化阶段的“百模大战”,进入了一个新阶段。
我们需要清楚的是,大模型有开源模型和闭源模型之分。也就是说,不同企业会结合自己的战略需要来选择开源或者不开源。例如,盘古大模型不采用任何开源技术,华为云相关负责人表示,由于华为云盘古大模型定位于赋能千行百业,这里面必将聚集无数行业大数据(涉及行业机密等),因此未来盘古大模型不会开源。
不过,总的趋势来看,大模型的开源将会成为行业主要发展趋势,各大模型厂商需要通过开源迅速抢占市场。当技术难以成为拉开竞争对手的护城河,繁荣的开源生态就成为了各大企业关注的焦点。
在今年7月的世界人工智能大会上,周靖人宣称,阿里云将把促进中国大模型生态的繁荣作为自己的首要目标,向大模型创业公司提供全方位的服务,包括最强大的智能算力和开发工具,并在资金和商业化探索方面提供充分支持。
(图源:封面新闻)
2022年,阿里云在国内首倡MaaS(ModelasaService,模型即服务)理念,搭建了一套以AI模型为核心的云计算技术和服务架构,向大模型初创企业和开发者开放,提供包括模型训练、推理、部署、精调、测评、产品化落地等在内的全方位服务。
目前,阿里云已形成模型即服务(MaaS)、平台即服务(PaaS)、基础设施即服务(IaaS)三层架构。
此次开源的两款模型,大幅降低了研究者使用大模型的门槛。与此同时,开源打通了阿里模型之间的链路。例如,AI模型社区魔搭能够通过灵积实现服务化。
阿里云的灵积模型服务平台,提供了一系列自动化的模型上云工具链路,支持模型的自主接入,所有接入灵积平台的模型都能自动获取平台的强大服务能力。
总的来看,在行业开源大模型潮流趋势下,通义千问的开源势在必行。
3.开源大模型纷纷免费可商用
开源的一个重要体现就是免费、可商用,阿里云的大模型并不是第一个免费、可商用的大模型。
今年7月,智谱AI和清华KEG发布公告,称为了更好地支持国产大模型开源生态,ChatGLM-6B和ChatGLM2-6B权重对学术研究完全开放,并且在完成企业登记获得授权后,允许免费商业使用。公告提供了企业登记入口,需要的信息只有姓名、国家、邮箱、机构,用途和要申请的模型(ChatGLM-6B或ChatGLM2-6B)。
百川智能的Baichuan-13B模型在发布的同时也开源允许免费商用。据官方介绍,Baichuan-13B包含130亿参数的开源可商用的大规模语言模型,在中英文 Benchmark上均取得同尺寸模型中最好的效果。
Meta和微软合作推出下一代开源大语言模型 Llama 2,并宣布免费提供给研究和商业使用,开发者们可以直接在Llama 2官方网站下载该模型。
Meta认为,开放的方法是当今人工智能模型开发的正确方法,特别是在技术快速发展的生成领域。通过公开提供人工智能模型,它们可以使每个人受益。为企业、初创企业、企业家和研究人员提供其开发的工具。
今年6月,人工智能研究机构BAAI开源了一个全新的国产开源大语言模型Aquila系列模型。该模型基于大量的中英文数据集训练,是一个完全开源可商用国产大语言模型。
显然,开源模型在竞争中快速发展,越来越多企业的开源模型能力越来越成熟。不过,开源模型的使用范围也存在着局限性。
正如7月23日,在极客公园主办的AGI Playground大会上,BentoML亚太区负责人刘聪表示,开源的模型能力变得越来越好,但还是限于私有化部署以及商业公司内部的一些用例。普适化的用例可能还是依赖 OpenAI 这种大模型的能力。
RWKV、Syrius炬星联合创始人罗璇认为,其实现在很多商业公司也开始开源,但实际上是把一些效果比较差的模型开源,真正好的模型并不会开源,而且数据不会开源,数据是大家要关注的问题。
“现在大家开源社区用的数据都是ChatGPT对话的数据,这个是很大的问题。我认为开源社区应该更关注数据的建立,也希望所有的开源社区一起做这个事情。”
综合来看,开源大模型的免费可商用仍然需要一番探索,随着未来生态多元化的丰富,开源模型会继续呈现出更加繁荣的景象。