Claude 3最近正在被网友疯狂测试。一位量子物理学博士,认为Claude 3是唯一理解他博士毕业论文的人之一,没错就是“人”。
还有就是在经典的“大海捞针”测试中,Claude 3不仅找到了那句格格不入的话,而且它还怀疑这个披萨配料“事实”可能是作为一个笑话插入的,或者是为了测试它是否在注意,因为它根本不符合其他话题。
一时间,很多人都在惊呼Claude 3产生了“自我认知”。当然英伟达科学家Jim Fan也认为不必过度解读,Claude 3看似有自我意识的表现只是对齐了人类数据。Claude 3的发布受到了热捧,就像OpenAI背后的微软一样,也让亚马逊云科技这个幕后玩家成为最大受益者。
三种“杯形”任你选择
Anthropic的核心成员都是来自OpenAI,所以Claude 3也是无时无刻不在对标GPT-4,距离上一代的Claude 2发布,仅相隔8个月。
Claude 3系列模型主要包括Haiku(中杯)、Sonnet(大杯)与Opus(超大杯)。在推理、数学、编码、多语言和视觉等多个领域的20款测试中,Claude 3 Opus在14个性能指标下超越了GPT-4、谷歌Gemini等一系列模型。
三个模型均提供200k长度的上下文,并针对不同的用例进行了优化。三个模型有着不同的适用场景。
Haiku的优势在于速度和成本效益,这是一种快速紧凑的模型,具有近乎即时的响应能力。
Sonnet在智能和速度之间实现了理想的平衡,适用于绝大多数工作负载,速度比Claude 2 和Claude 2.1快2倍,且智能水平更高。它擅长执行需要快速响应的智能任务,例如知识检索或销售自动化。
Opus是最先进、最强大的大模型,具有深度推理、高级数学和编码能力,在高度复杂的任务上具有顶级性能。它可以非常流畅地导航开放式提示和新颖场景,包括任务自动化、假设生成以及图表、图形和预测的分析。
Claude 3具备三大优势:一流的基准性能、视觉功能以及更加安全。
一流的基准性能:Claude 3在数学问题、编程练习和科学推理,超越了现有模型。Opus在大多数常见的评测基准中都优于同行,本科水平专家知识(MMLU)、研究生水平专家推理(GPQA)、基础数学(GSM8K),官方也给出了根据上下文数据审计财务报告的例子。
视觉功能:Claude 3模型经过训练,可以理解各类数据,包括语言、图像、图表等。企业能够基于多源媒体,构建真正跨领域的生成式人工智能应用。像查询药物研究论文、蛋白质结构分析,媒体组织可以自动生成图像标题或视频脚本。
减轻幻觉:Claude 3模型通过宪法AI技术减轻幻觉现象,这些技术提供了对模型推理过程的透明度,并且提高了准确性。Claude 3 Opus在困难的开放式问题上,减少了错误回答的可能性。可控的指导自动化流程,在制造、医疗、金融和法律等行业至关重要。
至顶网也从故事、数学、识图三个层面进行了测试,其中较为突出的是数学和识图能力,而且Claude 3的生成速度也更快,不会产生中断。官方也公布了三段演示视频,通过图像识别预测美国GDP在未来十年的可能走向,以及全球各主要经济体的趋势;在不到三秒的时间内完成对约10k token的arXiv论文的阅读;用西班牙语进行交谈,用英语写出这些内容,并用西班牙语回复。
静待合作开花结果
亚马逊云科技在去年9月就宣布向Anthropic投资40亿美元,加速Anthropic未来基础模型的开发,并将其广泛提供给亚马逊云科技的客户使用。Anthropic使用Amazon Trainium和Amazon Inferentia芯片来构建、训练和部署其未来基础模型,并充分利用亚马逊云科技在价格、性能、规模和安全方面的优势。
去年4月Amazon Bedrock就已经开始提供Claude模型给亚马逊云科技的客户。Amazon Bedrock是一项完全托管的服务,可提供多种高性能基础模型(FM),以及构建生成式人工智能应用程序所需的一系列广泛功能。
Amazon Bedrock也成为率先提供Claude 3 Sonnet的托管服务商,下一代Claude 3另外两个模型 Claude 3 Opus和 Claude 3 Haiku也将很快在Amazon Bedrock推出。
在大模型的应用中,多种模型的组合使用是非常常见的,Amazon Bedrock则已经帮助客户优选了模型,让其可以在一个平台同时使用多种模型。Amazon Bedrock在近日将大模型提供商扩充至7家。至此,Amazon Bedrock的大模型供应商共有AI21 Labs、Anthropic、Cohere、Meta、Stability AI、Amazon和Mistral AI,Mistral AI的两种高性能模型Mistral 7B 和 Mixtral 8x7B也已经在Amazon Bedrock正式可用。
最近亚马逊云科技数据和AI副总裁Swami Sivasubramanian博士在博客文章中写到:“回顾2021年,当Anthropic第一次开始在亚马逊云科技上构建时,没有人能想到Claude系列模型会带来多大的变革。”
亚马逊云科技全球产品副总裁Matt Wood博士表示,在智能程度上,Claude 3 Opus是世界上最先进、最强大、最先进的基础模型,具有深度推理、高级数学和编码能力,在高度复杂的任务上具有顶级性能。Claude 3 Sonnet在智能和速度之间取得了理想的平衡,特别适合企业用例。Claude 3 Haiku是一款快速紧凑的模型,具有近乎即时的响应能力。所有Claude 3型号现在都包含最先进的视觉功能,可以通过OCR处理和分析图像、照片、图表、图表、技术图表和文本。因此,Claude 3模型可以从文档、Web 用户界面等中提取更多信息。
未来“云+大模型”将成为主要的发展路径,同OpenAI的AGI选择不同,Claude 3还是希望走2B路线,在商业场景中实现价值,这也和亚马逊云科技服务的客户相吻合,两者组合在一起,也会变相加速大模型应用的快速落地。
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。