最近Hugging Face的开源大语言模型排行榜榜首发生了替换,Falcon-40B超越了MetaAI的LLaMA-65B开源大语言模型。
有人甚至称,Falcon-40B未来或可成为超越ChatGPT,直逼GPT4的新基线。
Falcon-40B是由阿联酋阿布扎比技术创新研究所(TII)开发的开源大语言模型,其拥有400 亿参数,经过1万亿token网络数据集的训练,能够理解多种语言,包括欧洲小语种。
该模型的训练成本低,仅相当于Chinchilla的40%和PaLM-62B的80%。相较于GPT-3,Falcon在只使用75%的训练计算预算的情况下,实现了显著的性能提升,推理能力强,只需要20%的计算时间。
Falcon-40B就是在亚马逊云科技上进行训练,而且现在客户可以将Falcon 40B部署在Amazon SageMaker JumpStart上,这是一个机器学习中心,提供预训练模型,使客户无需从头构建自己的模型即可获得Falcon 40B最先进的准确性和行业领先的性能。
没有云就没有Falcon-40B
大模型从去年年底开始就已经席卷全球,中国相关企业也陆续发布了几个大模型,企业都在关注和探索着大模型在各自行业的落地场景。
其实从2020年年初,全球各地的研究机构都将研究重点放在模型大小上,并观察到准确性与参数数量之间存在关联。例如,GPT-3(2020)和BLOOM(2022)拥有约1750亿个参数,Gopher(2021)拥有2300亿个参数,MT-NLG(2021)拥有5300亿个参数。
TII跨AI研究中心执行总监、代理首席AI研究员兼大语言模型项目负责人Ebtesam Almazrouei博士表示,我们自豪地宣布Falcon 40B开源版正式发布,这是TII开发的世界一流的开源语言模型,Falcon 40B展示了无需专门微调的卓越性能。
TII是一家全球领先的科研中心,一直致力于探索前沿的知识领域。TII的科学家、研究员和工程师团队竭力提供探索性科学成果和变革性技术。
Falcon 40B的开源版本使机构能够利用其卓越性能来推动AI赋能的解决方案发展。这是TII致力于促进AI创新的重要里程碑,也体现阿联酋深远的科学贡献。Ebtesam Almazrouei认为,他们在促进AI创新方面取得了重大进展,也体现了阿联酋在科学界的卓越贡献。
Falcon大语言模型提供了两种不同规模的开源版本——Falcon 40B和Falcon 7B, 两者均是使用Amazon SageMaker的数据预处理和模型训练任务从零开始构建。开源的Falcon 40B让用户能够构建和定制满足独特用户需求的AI工具,便于无缝集成,并确保长期保存数据资产。模型权重可供下载,检查和部署在任何地方。
据介绍,从6月7日起,两个开源Falcon大语言模型也将在Amazon SageMaker JumpStart中可用。Amazon SageMaker JumpStart提供了预训练模型、内置算法和预构建的解决方案模板,可以帮助用户快速上手机器学习。用户只需在SageMaker Studio中轻点鼠标就可以部署和使用Falcon模型,或者通过SageMaker Python SDK以编程方式使用。
TII使用SageMaker Training API提供的瞬态集群来训练Falcon大语言模型,最多支持48个ml.p4d.24xlarge实例(384个英伟达A100 GPU)。SageMaker Training提供了具有用户自定义硬件配置和代码的计算集群。计算作业按运行次数计费,按秒分配任务,这意味着用户在未使用服务时无需为GPU资源付费。现在,TII正在训练下一代Falcon大语言模型,将训练扩展到3136个A100 GPU(392个ml.p4d实例)。
同时,许多客户也在使用SageMaker处理其大语言模型工作负载,例如Stability AI、AI21 Labs、LG AI。
在亚马逊云科技上转动AI的飞轮
20多年来,人工智能和机器学习一直是亚马逊关注的焦点。最近,Gartner发布的《2023云AI开发者服务魔力象限》报告中,亚马逊云科技被评为“领导者”,且在执行能力轴上排名最高。
现在,在大模型如火如荼之时,亚马逊云科技的发展路径不是自己构建AI大模型,而是提供基础模型构建和扩展生成式应用的完全托管服务。
今年4月发布了,包括Bedrock生成式AI基础大模型云服务Amazon Bedrock,基础模型Amazon Titan,并宣布基于自研芯片Amazon Trainium和Amazon Inferentia2的两款EC2的新实例Amazon EC2 Trn1n和Amazon EC2 Inf2实例,以及自动代码生成工具AI编程工具Amazon CodeWhisperer正式可用。
Amazon Bedrock让开发者可以通过API访问AI21Labs、Anthropic和Stability AI等热门AI公司的预训练基础模型,还提供对亚马逊云科技开发的基础模型系列Amazon Titan的独家访问。Amazon Bedrock提供无服务器体验。客户可以轻松找到适合自身业务的模型,快速上手,在确保数据安全和隐私保护的前提下,使用自有数据基于基础模型进行定制,并使用已经熟悉的亚马逊云科技工具和能力,将定制化模型集成并部署到应用程序,无需自己管理基础设施。
今年6月,德勤宣布将利用亚马逊云科技的 Amazon Bedrock 全托管服务扩展其生成式人工智能(AI)能力,将亚马逊云科技的技术力量与德勤深厚的AI经验和顶尖人才相结合,帮助客户更快速地大规模构建新的AI应用,释放生成式AI能力的巨大价值。
Amazon CodeWhisperer基于数十亿行代码进行训练的同时,还基于亚马逊的代码进行了训练,可以为Amazon EC2、Amazon Lambda和Amazon S3等云服务生成最准确、最快和最安全的代码。开发者使用Amazon CodeWhisperer,完成任务的速度平均快57%,成功率高27%。
埃森哲正在使用Amazon CodeWhisperer加快编码任务,作为其Velocity 平台软件工程最佳实践计划的一部分。借助 CodeWhisperer,埃森哲新的开发人员就能够为Amazon S3和 Amazon DynamoDB 等亚马逊云科技服务编码。在短时间内,他们就能够高效工作并为项目做出贡献。
全球数字工程领导者Persistent Systems也宣布与亚马逊云科技进一步深化合作关系,成为利用亚马逊云科技最新生成式AI服务的合作伙伴。Persistent将为其16000多名工程师配备Amazon CodeWhisperer编程助手,以便他们更快速、更安全地为企业客户构建和交付行业应用程序。
未来亚马逊云科技在大模型和生成式AI方面也将持续创新,让越来越多的AI开发者聚拢至此,互相作用在亚马逊云上产生更多的AI创新。
好文章,需要你的鼓励
Blackwell GPU的生产制造工作量达到Hopper GPU的两倍有余,但带来的收入仅增加至约1.7倍。
由AMD驱动的El Capitan超级计算机(现位于美国劳伦斯利弗莫尔国家实验室(LLNL))成为世界上速度最快的超级计算机。