Claude 3最近正在被网友疯狂测试。一位量子物理学博士,认为Claude 3是唯一理解他博士毕业论文的人之一,没错就是“人”。
还有就是在经典的“大海捞针”测试中,Claude 3不仅找到了那句格格不入的话,而且它还怀疑这个披萨配料“事实”可能是作为一个笑话插入的,或者是为了测试它是否在注意,因为它根本不符合其他话题。
一时间,很多人都在惊呼Claude 3产生了“自我认知”。当然英伟达科学家Jim Fan也认为不必过度解读,Claude 3看似有自我意识的表现只是对齐了人类数据。Claude 3的发布受到了热捧,就像OpenAI背后的微软一样,也让亚马逊云科技这个幕后玩家成为最大受益者。
三种“杯形”任你选择
Anthropic的核心成员都是来自OpenAI,所以Claude 3也是无时无刻不在对标GPT-4,距离上一代的Claude 2发布,仅相隔8个月。
Claude 3系列模型主要包括Haiku(中杯)、Sonnet(大杯)与Opus(超大杯)。在推理、数学、编码、多语言和视觉等多个领域的20款测试中,Claude 3 Opus在14个性能指标下超越了GPT-4、谷歌Gemini等一系列模型。
三个模型均提供200k长度的上下文,并针对不同的用例进行了优化。三个模型有着不同的适用场景。
Haiku的优势在于速度和成本效益,这是一种快速紧凑的模型,具有近乎即时的响应能力。
Sonnet在智能和速度之间实现了理想的平衡,适用于绝大多数工作负载,速度比Claude 2 和Claude 2.1快2倍,且智能水平更高。它擅长执行需要快速响应的智能任务,例如知识检索或销售自动化。
Opus是最先进、最强大的大模型,具有深度推理、高级数学和编码能力,在高度复杂的任务上具有顶级性能。它可以非常流畅地导航开放式提示和新颖场景,包括任务自动化、假设生成以及图表、图形和预测的分析。
Claude 3具备三大优势:一流的基准性能、视觉功能以及更加安全。
一流的基准性能:Claude 3在数学问题、编程练习和科学推理,超越了现有模型。Opus在大多数常见的评测基准中都优于同行,本科水平专家知识(MMLU)、研究生水平专家推理(GPQA)、基础数学(GSM8K),官方也给出了根据上下文数据审计财务报告的例子。
视觉功能:Claude 3模型经过训练,可以理解各类数据,包括语言、图像、图表等。企业能够基于多源媒体,构建真正跨领域的生成式人工智能应用。像查询药物研究论文、蛋白质结构分析,媒体组织可以自动生成图像标题或视频脚本。
减轻幻觉:Claude 3模型通过宪法AI技术减轻幻觉现象,这些技术提供了对模型推理过程的透明度,并且提高了准确性。Claude 3 Opus在困难的开放式问题上,减少了错误回答的可能性。可控的指导自动化流程,在制造、医疗、金融和法律等行业至关重要。
至顶网也从故事、数学、识图三个层面进行了测试,其中较为突出的是数学和识图能力,而且Claude 3的生成速度也更快,不会产生中断。官方也公布了三段演示视频,通过图像识别预测美国GDP在未来十年的可能走向,以及全球各主要经济体的趋势;在不到三秒的时间内完成对约10k token的arXiv论文的阅读;用西班牙语进行交谈,用英语写出这些内容,并用西班牙语回复。
静待合作开花结果
亚马逊云科技在去年9月就宣布向Anthropic投资40亿美元,加速Anthropic未来基础模型的开发,并将其广泛提供给亚马逊云科技的客户使用。Anthropic使用Amazon Trainium和Amazon Inferentia芯片来构建、训练和部署其未来基础模型,并充分利用亚马逊云科技在价格、性能、规模和安全方面的优势。
去年4月Amazon Bedrock就已经开始提供Claude模型给亚马逊云科技的客户。Amazon Bedrock是一项完全托管的服务,可提供多种高性能基础模型(FM),以及构建生成式人工智能应用程序所需的一系列广泛功能。
Amazon Bedrock也成为率先提供Claude 3 Sonnet的托管服务商,下一代Claude 3另外两个模型 Claude 3 Opus和 Claude 3 Haiku也将很快在Amazon Bedrock推出。
在大模型的应用中,多种模型的组合使用是非常常见的,Amazon Bedrock则已经帮助客户优选了模型,让其可以在一个平台同时使用多种模型。Amazon Bedrock在近日将大模型提供商扩充至7家。至此,Amazon Bedrock的大模型供应商共有AI21 Labs、Anthropic、Cohere、Meta、Stability AI、Amazon和Mistral AI,Mistral AI的两种高性能模型Mistral 7B 和 Mixtral 8x7B也已经在Amazon Bedrock正式可用。
最近亚马逊云科技数据和AI副总裁Swami Sivasubramanian博士在博客文章中写到:“回顾2021年,当Anthropic第一次开始在亚马逊云科技上构建时,没有人能想到Claude系列模型会带来多大的变革。”
亚马逊云科技全球产品副总裁Matt Wood博士表示,在智能程度上,Claude 3 Opus是世界上最先进、最强大、最先进的基础模型,具有深度推理、高级数学和编码能力,在高度复杂的任务上具有顶级性能。Claude 3 Sonnet在智能和速度之间取得了理想的平衡,特别适合企业用例。Claude 3 Haiku是一款快速紧凑的模型,具有近乎即时的响应能力。所有Claude 3型号现在都包含最先进的视觉功能,可以通过OCR处理和分析图像、照片、图表、图表、技术图表和文本。因此,Claude 3模型可以从文档、Web 用户界面等中提取更多信息。
未来“云+大模型”将成为主要的发展路径,同OpenAI的AGI选择不同,Claude 3还是希望走2B路线,在商业场景中实现价值,这也和亚马逊云科技服务的客户相吻合,两者组合在一起,也会变相加速大模型应用的快速落地。
好文章,需要你的鼓励
OpenAI明确表示要成为互联网一切事物的主导界面。AI智能体正在改变用户的数字习惯,从健康记录分析到购物指导,ChatGPT已经在多个领域扩展影响力。用户快速采用AI工具,但企业和生态系统的适应速度滞后。电商领域的权力分配尚不明确,用户偏好AI驱动的答案优先体验,品牌则推动生成式引擎优化。研究旨在了解用户与企业在AI变革中的适应差异。
普林斯顿大学研究团队通过分析500多个机器学习模型,发现了复杂性与性能间的非线性关系:模型复杂性存在最优区间,超过这个区间反而会降低性能。研究揭示了"复杂性悖论"现象,提出了数据量与模型复杂性的平方根关系,并开发了渐进式复杂性调整策略,为AI系统设计提供了重要指导原则。
微软亚洲研究院开发出革命性的认知启发学习框架,让AI能够像人类一样思考和学习。该技术通过模仿人类的注意力分配、记忆整合和类比推理等认知机制,使AI在面对新情况时能快速适应,无需大量数据重新训练。实验显示这种AI在图像识别、语言理解和决策制定方面表现卓越,为教育、医疗、商业等领域的智能化应用开辟了新前景。