性能优化文章列表第2页-至顶网频道

2025-09-30

高通新一代骁龙平台将推动智能体AI时代到来

高通在骁龙峰会上发布两款旗舰处理器：骁龙8 Elite Gen 5手机芯片和骁龙X2 Elite PC芯片，旨在成为新一代智能体AI的硅基础设施。新芯片采用3纳米工艺，CPU性能提升20%，能效提升35%，GPU性能提升23%，NPU速度提升37%。重点是支持情境感知、多模态AI代理，能实时理解用户需求并主动响应，实现设备间无缝协作。

Bcachefs转向DKMS模式应对Torvalds内核驱逐令

bcachefs文件系统在被Torvalds逐出Linux内核后，发布了首个DKMS动态加载版本。目前内核6.17仍包含bcachefs代码但未更新，项目负责人发布了可动态加载的新版本，暂时仅支持Ubuntu和Debian发行版。性能测试显示DKMS版本表现更佳，多项测试中速度提升约一倍。openSUSE调整立场，计划在6.18版本才移除支持。

谷歌展示其推理规模和技术实力

谷歌在AI基础设施峰会上披露了其AI推理的惊人规模增长。从2024年4月的9.7万亿tokens/月激增至2025年8月的约1460万亿tokens/月，增长49.5倍。公司推出全新Ironwood TPU v7p系统，性能比前代提升5倍，内存容量增加6倍，单集群可容纳9216个TPU。谷歌还展示了液冷技术和推理优化工具，可将推理延迟降低96%，吞吐量提升40%，成本降低30%。

NetApp StorageGRID 12版本发布，AI工作负载性能提升20倍

NetApp本周推出StorageGRID对象存储平台第12版，新版本将改善AI工作负载扩展性，先进缓存技术可将训练和HPC工作负载性能提升20倍。客户可通过存储桶分支对AI数据集进行版本控制，支持空间高效的对象存储桶克隆。新版本还增强了加密标准、对象锁定等安全功能。集成缓存简化了AI工作流程中的缓存使用，性能比当前设备提升10倍。平台发布限制翻倍，单个集群可支持超过6000亿个对象。

d-Matrix声称3D堆叠内存将突破AI推理瓶颈

数字内存计算芯片初创公司d-Matrix推出3D堆叠内存技术，声称相比当前行业标准HBM4，该技术可将AI模型运行速度提升10倍，能耗降低90%。该公司成立于2019年，采用LPDDR5内存配合数字内存计算硬件，通过改进的SRAM单元直接在内存阵列中执行计算。首款3DIMC芯片Pavehawk已在实验室投入运行，下一代架构Raptor将整合该技术。

Bun JS工具包新增MySQL驱动和密钥管理功能

Bun团队发布了1.2.21版本，新增MySQL和SQLite内置驱动、YAML解析器和密钥管理器等功能。新的数据库驱动属于Bun.SQL API，现已支持MySQL、MariaDB和SQLite。据称其MySQL客户端比Node.js的mysql2包快9倍。Bun.secrets为CLI工具和本地开发提供原生密钥管理。此版本还包含安全扫描API、独立可执行文件构建API等更新。

戴尔Project Lightning项目为PowerScale带来并行性能提升

戴尔闪电项目为PowerScale集群文件系统存储带来并行化性能提升，早期测试反馈积极。该项目旨在为PowerScale和ObjectScale存储系统添加并行访问能力，实现97%网络利用率和支持数千个GPU。通过客户端软件层分布式读取和RDMA技术，直接从客户端访问设备而无需遍历文件系统，有望成为全球最快的并行文件系统，性能比竞争系统高出2倍。

DeepSeek-AI重新定义注意力机制：NSA稀疏注意力让AI训练提速11倍

DeepSeek-AI联合北京大学开发的NSA稀疏注意力技术，通过令牌压缩、精选保留和滑动窗口三重策略，让AI在处理长文本时实现原生稀疏化。该技术在64K文本处理中达到11.6倍解码加速，同时在多项AI能力测试中超越传统方法，为高效AI应用开辟新路径。

英伟达推出千兆级网络与快速推理服务技术

英伟达发布Spectrum-XGS千兆级以太网交换平台，实现数据中心间互联协调，让分布式GPU集群如同一个巨型处理器运行。同时推出Dynamo推理服务框架，通过分解式服务技术将上下文构建和令牌生成分配到不同GPU，显著提升模型部署效率。在GPT和DeepSeek等模型测试中，令牌生成速度分别提升4倍和2.5倍，投机解码技术更实现35%性能提升。

PCIe 7.0和8.0标准即将到来，超高速连接2028年实现

PCIe总线是连接x86服务器、PC和笔记本电脑核心处理器与外设的重要技术。随着CPU和GPU性能提升，PCIe标准也在不断演进，每一代带宽都会翻倍。目前PCIe 4.0和5.0已广泛应用，首批6.0外设开始推出。即将到来的PCIe 7.0将提供128GT/s传输速率，可能采用光互连技术，主要面向超大规模数据中心和高性能计算领域。PCIe 8.0的初步开发已启动，预计传输速率将再次翻倍。

DeepSeek发布V3.1版本，为国产新一代芯片做好准备

中国AI公司DeepSeek发布旗舰语言模型V3.1更新版，该模型已针对新一代国产芯片进行优化。新模型采用UE8M0数据类型训练，为即将发布的国产芯片做准备。V3.1统一了"思考"和"非思考"模式，单一模型支持两种范式，上下文窗口从65536扩展至131072个token，在工具调用能力上显著提升，Browsecomp基准测试得分从8.9提升至30。

上海交通大学团队让AI文本生成速度飞跃：比传统模型快2.5倍的D2F技术问世

上海交通大学邓志杰教授团队开发出革命性的D2F技术，成功让AI文本生成速度比传统模型快2.5倍。该技术通过巧妙的分块并行处理和预测机制，在大幅提升速度的同时保持文本质量不变，打破了AI领域长期存在的"速度与质量不可兼得"难题，为未来AI应用带来重大突破。

.NET 10 Preview 7发布，接近功能完整版本

微软发布.NET 10运行时和框架预览版7，新增WebSocket连接流封装、ASP.NET改进密钥认证和MAUI多项功能修复。WebSocketStream提供基于流的抽象简化编程，Blazor应用自动支持密钥认证，MAUI新增XAML强类型源代码生成器提升构建性能。作为LTS版本，正式版将于11月中旬发布。

Firefox内置AI功能导致CPU占用率飙升

近期用户反映Firefox浏览器出现CPU和电力消耗激增问题，原因是Mozilla在最新版本中嵌入了LLM机器人用于标签组命名。后台运行的"推理引擎"进程造成了性能问题。Mozilla承认在功能推出过程中意外引入了性能漏洞，已暂停相关功能推广。用户可通过设置界面或about:config页面禁用AI聊天机器人功能来解决此问题。

Nvidia在温哥华Siggraph大会上发布了两款小型Blackwell GPU：RTX Pro 4000 SFF和RTX Pro 2000，功耗仅70瓦。RTX 4000 SFF配备8960个CUDA核心，光线追踪性能提升1.7倍，AI性能提升2.5倍，搭载24GB GDDR7显存。RTX Pro 2000拥有4352个CUDA核心，3D建模性能提升1.6倍。两款产品将由戴尔、惠普、联想等厂商集成到OEM系统中。

数据存储

闪存技术

性能优化

2025-08-12

Pure Storage声称其闪存在功耗和碳排放方面超越固态硬盘

Pure Storage发布研究报告，声称其直接闪存模块（DFM）在功耗和碳排放指标上优于传统SSD和机械硬盘。该公司表示，DFM具有更大容量且采用系统级管理，能以更少设备数量满足容量和吞吐量需求，从而降低电力消耗。在10年使用周期的对比测试中，150TB DFM系统的年功耗比HDD系统低4.8倍，碳排放量也显著更低。Pure Storage认为，系统级闪存存储在速度、密度、可持续性和可靠性方面均超越HDD。

人工智能

大语言模型

性能优化

2025-08-08

ChatGPT-5震撼发布，教育界准备好了吗？

OpenAI发布了最先进的GPT-5语言模型，虽未实现通用人工智能但影响深远。GPT-5采用统一系统架构，具备智能路由机制和自适应推理能力，在编程、数学推理等多项基准测试中创新高。该模型已免费向所有用户开放并集成到微软生态系统中。对教育领域而言，GPT-5提供个性化辅导功能，将深刻改变学习方式，教育机构必须积极适应这一变革。

数据处理

Apache Spark

性能优化

2025-08-08

Snowflake为自家分析引擎构建Spark客户端连接器

Snowflake推出客户端连接器，支持在其云数据仓库中直接运行Apache Spark代码，无需集群设置。该方案基于Spark Connect的客户端-服务器架构，让用户可以使用Spark客户端连接Snowflake分析引擎。据称，预览用户的代码运行性能平均提升5.6倍，成本降低约40%。此举体现了数据湖和数据仓库市场的融合趋势。

人工智能

自然语言处理

性能优化

2025-08-06

Anthropic发布Claude 4.1编程测试称霸，GPT-5即将来袭

Anthropic周一发布旗舰AI模型升级版Claude Opus 4.1，在SWE-bench Verified基准测试中获得74.5%成绩，超越OpenAI o3模型的69.1%和谷歌Gemini 2.5 Pro的67.2%。该公司年收入从10亿美元增至50亿美元，但近一半API收入依赖Cursor和GitHub Copilot两大客户。新模型采用最严格ASL-3安全协议，在多文件代码重构方面表现突出，但面临GPT-5竞争威胁。

人工智能

存储系统

性能优化

2025-08-06

MLPerf存储基准测试v2.0显示阵列性能大幅提升

MLPerf存储基准测试第二版显示，测试系统服务的加速器数量比2023年1.0版本增加约一倍。MLCommons表示本轮测试参与度大幅提高，提交机构地域代表性更强，系统多样性更丰富。该基准测试评估存储系统在Unet3D、Cosmoflow和Resnet50 AI训练任务中的性能，以及Llama 3训练中的检查点性能。随着AI训练集群GPU数量增加，故障率上升，检查点技术成为标准做法。

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: