过去“春节档”属于电影行业的黄金时间窗口,如今大模型厂商也开辟了属于自己的“春节档”,成为技术与产品集中亮相的“发布季”。
先把时间拨回到过去几天,看看都有哪些发布内容。
2月10日,阿里发布新一代图像生成及编辑模型Qwen-Image-2.0,支持1K token的超长文字输入和2K高分辨率,是千问大模型的图像生成模型底座。
2月11日,智谱发布新一代旗舰模型GLM-5,被官方定义为“Agentic Engineering时代最好的模型”。其核心突破在于编程能力与智能体任务执行能力,在真实编程场景中的体验已逼近Claude Opus 4.5,尤其擅长复杂系统工程和长程任务。
2月12日,字节跳动上线新一代AI视频生成模型Seedance 2.0,并接入旗下生成式AI创作平台“即梦”以及豆包App、电脑端和网页版。该视频生成模型支持原声音画同步、多镜头长叙事和多模态可控生成。连埃隆·马斯克都在社交平台X上转发评论Seedance 2.0的相关推文,说道:发展得太快了!
同日,MiniMax正式上线最新旗舰编程模型MiniMax M2.5,定位为“为Agent场景原生设计的生产级模型”,直接对标Claude Opus 4.6。其亮点在于“小而美”,仅10B激活参数即可支持100 TPS的高吞吐量,在推理能效上优势显著。
2月14日,字节跳动推出豆包大模型2.0(Doubao-Seed-2.0)系列。豆包2.0针对大规模生产环境的使用需求进行系统性优化,旨在更好地完成真实世界的复杂任务。
目前,豆包2.0 Pro已在豆包App、电脑客户端和网页版上线,用户选择「专家」模式即可对话体验。火山引擎也已上线豆包2.0系列模型API服务。所谓专家模式,核心是面向具备专业知识的用户群体,减少基础引导与冗余交互,提供更灵活的操作空间,适配专业分析、参数调试与复杂任务场景。
模型能力开始逼近真实任务门槛
模型能力竞争仍然离不开基础指标,从公开测试成绩看,豆包2.0旗舰版本Pro在数学和推理能力方面取得了较高水平。在IMO、CMO数学竞赛以及ICPC编程竞赛相关评测中达到金牌成绩,并在Putnam基准测试中超过同类模型。
官方数据显示,豆包2.0在长尾知识领域进行了扩展,在SuperGPQA等公开测试集中的科学领域成绩与主流顶级模型处于同一水平,在跨学科知识应用排名中也处于前列。
多模态能力也是此次升级的重要部分,视觉推理、空间感知以及长上下文理解能力均有所提升,可以处理图表、复杂文档以及视频内容。这类能力在教育、办公和内容生产场景中都有着较高的需求。
模型对动态环境的理解能力也有所增强,包括时间序列分析与运动感知。官方展示的应用场景涵盖实时视频分析、环境感知以及交互辅助,例如健身指导、穿搭建议和陪伴场景。
测试数据显示,豆包2.0 Pro在指令遵循、工具调用以及Search Agent评测中达到较高水平,在HLE-Text测试中取得54.2分。这类能力关系到模型在多步骤任务中的执行表现。
大模型能力正在出现一个明显转折,早期竞争集中在知识覆盖与语言流畅度,如今更多厂商开始围绕任务完成率、稳定性与执行成本优化。
成本下降正在重塑企业采用曲线
过去两年,大模型价格持续下降已成为行业普遍现象,大家也都非常关心新模型的价格。
豆包2.0 Pro在32k输入范围内,输入价格为3.2元/百万tokens,输出价格为16元/百万tokens。Lite版本价格更低,百万tokens输入价格为0.6元,同时综合性能已经超过两个月前发布的上一代主力模型豆包1.8。
多家厂商公开定价显示,相比早期阶段,部分模型调用成本下降数倍,一些场景的推理费用降至早期水平的三分之一甚至更低。价格变化直接影响企业采用意愿,也推动应用规模扩大。
IDC预测,中国生成式AI市场规模预计将在2027年达到约140亿美元,2023年至2027年的年复合增长率接近70%。企业级应用被普遍认为将占据主要商业收入来源,包括智能客服、营销自动化、办公协同以及行业解决方案等方向。
目前,模型更新节奏明显加快,能力测试成绩仍然重要,但商业收入、客户数量以及成本控制能力越来越受到重视。能够证明商业化路径的公司,更容易获得长期支持。
用户入口到企业场景,全都要
去年腾讯元宝宣布接入DeepSeek后,便开始在各个渠道大力宣传投放广告,囊括了腾讯系App在内的所有平台,当时也让元宝用户量级直接起飞。
相比之下,豆包则主要依赖持续、分散、可复制的用户UGC内容扩散。例如用豆包批改作业、识别宠物、搭配穿搭建议等。与此同时,拟人化名称与头像设计强化了产品记忆点,在用户心智中逐渐形成稳定认知。
还有之前初代豆包手机一上市就迅速售罄,通过对话就可以完成所有操作,二手市场一度被炒至3万元以上,但很快微信、支付宝、美团、部分银行App等主流应用也开始集体反制。
最近,千问APP投入30亿元启动“AI请客”活动,每个注册用户都会获得一张价值25元的无门槛抵扣券,通过对话“帮我点杯奶茶”,就能自动匹配店家和产品,不超过25元即可1分钱下单。当日下午4点,千问APP的AI生成订单已突破1000万单,千问也超越元宝和豆包,登顶苹果App Store免费榜第一。
临近春节,春晚合作、红包活动等资源位也成为竞争焦点,几家大厂也是纷纷下场,流量争夺战一触即发。
当然,未来的大模型时代的超级入口目前还没有定论,但是现在各家也是两手抓,C 端带来规模与数据,B 端带来收入与场景深度,两条路径互相支撑。
春节档发布,看似只是时间节点的选择,背后却展现了模型竞争已进入第二阶段,围绕真实世界生产力,并形成稳定的商业价值。
豆包2.0也落在“执行力”这一点上。
好文章,需要你的鼓励
今天讲的出海案例是美信科技,一家做功率电源模块和AI服务器配套供配电的深圳企业,已在泰国完成工厂选址并取得BOI(泰国投资促进委员会)免税资质,预计2026年上半年投产。
MIT研究团队开发了GraphAgents多智能体AI系统,通过五个专门智能体协同工作来寻找PFAS等化学物质的环保替代材料。该系统将科学文献转化为知识图谱,利用不同的图遍历算法发现跨学科材料设计方案。在生物医学管道应用测试中,系统成功提出了多种创新复合材料设计,消融实验证明完整系统显著优于简化版本,为材料科学发现提供了新的AI驱动范式。
今天讲的出海案例是美信科技,一家做功率电源模块和AI服务器配套供配电的深圳企业,已在泰国完成工厂选址并取得BOI(泰国投资促进委员会)免税资质,预计2026年上半年投产。
威斯康星大学麦迪逊分校研究团队发现,经过"思考训练"的AI在用户服务场景中反而表现更差。通过测试七种主流AI模型,研究发现思考能力强的AI变得更加"内向",主动披露的有用信息减少约30%,导致用户无法获得足够信息做出正确决策。研究团队开发的"信息披露提示"方法能够有效改善这一问题,为AI开发指明了新方向。