据报道,在一份员工问题的 AI 总结中,Hassabis 被问及公司可以从 DeepSeek 的成功中学到"什么经验和启示"。他向员工表示,DeepSeek 声称的训练具有竞争力的 AI 模型的低成本可能"只是"其实际花费的"一小部分",并且这家 AI 初创公司可能使用了比其声称更多的硬件。据报道,他还告诉员工,DeepSeek 很可能依赖于西方 AI 公司的先进模型。
据报道,Hassabis 对员工表示:"事实上,我们拥有比 DeepSeek 更高效、性能更好的模型。因此,我们对自己的战略非常镇定和自信,我们具备在今年保持领先地位的所有要素。"
Google 和 DeepMind 均未立即回应置评请求。
据 CNBC 报道,本周早些时候,在巴黎 AI 行动峰会的 Google 活动上,Hassabis 表示杭州这家初创公司的 AI 模型"可能是"中国"最好的成果",而且"令人印象深刻"。Hassabis 表示 DeepSeek 展示了"极其出色的工程能力",其 AI 模型具有更深层的地缘政治意义。
然而,据 CNBC 报道,他也表示 DeepSeek 并未展示"真正的科学突破",而是"使用了" AI 行业的"已知技术"。
上个月,DeepSeek 发布了其最新开源推理模型 DeepSeek-R1 的结果,该模型在多个行业基准测试中的表现可与 OpenAI 的推理模型 o1-mini 和 o1 相媲美。去年 12 月,该初创公司推出了 DeepSeek-V3 模型,称其在 Nvidia (NVDA-1.42%) 的 H800 芯片(Nvidia H100 芯片的降级版本,供美国公司使用)上的训练和开发成本仅为 560 万美元。
DeepSeek 这种低成本却具有竞争力的模型引发了人们对科技巨头在 AI 基础设施上的巨额支出的质疑,同时也让人思考美国芯片出口管制的有效性。
好文章,需要你的鼓励
Lumen Technologies对美国网络的数据中心和云连接进行重大升级,在16个高连接城市的70多个第三方数据中心提供高达400Gbps以太网和IP服务。该光纤网络支持客户按需开通服务,几分钟内完成带宽配置,最高可扩展至400Gbps且按使用量付费。升级后的网络能够轻松连接数据中心和云接入点,扩展企业应用,并应对AI和数据密集型需求波动。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
RtBrick研究警告,运营商面临AI和流媒体服务带宽需求"压倒性"风险。调查显示87%运营商预期客户将要求更高宽带速度,但81%承认现有架构无法应对下一波AI和流媒体流量。84%反映客户期望已超越网络能力。尽管91%愿意投资分解式网络,95%计划五年内部署,但仅2%正在实施。主要障碍包括领导层缺乏决策支持、运营转型复杂性和专业技能短缺。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。