ZD至顶网CIO与应用频道 05月17日 北京消息: 5月17日,京东和Mellanox在北京签署全面合作框架协议,宣布将共同建立 “JD-Mellanox联合创新实验室” ,同时启动双方在技术创新方面的战略合作。根据协议,双方将在技术创新、用户体验和企业级产品电商平台三个方面展开合作,共同布局人工智能领域,开展底层技术合作,并针对高速互连产品展开联合研发。
“Mellanox是一家极具创新力的高科技公司,在虚拟网络、云计算等方面都有很深的造诣。京东则拥有丰富的业务场景和优秀的技术团队,希望借助Mellanox的技术和产品,提升生产效率,给业务带来更强的保障。”京东集团CTO张晨在发布会上表示。
“Mellanox一直致力于高速网络互连产品的开发和推广,在机器学习、深度学习等领域的应用非常广泛,很多产品具有全球领先的地位。”Mellanox公司商务拓展高级副总裁Amir Prescher表示,通过与京东的合作,将加快Mellanox打开中国市场的步伐,让高速互连的技术有更多可以落地的应用场,开发出更好的产品来服务用户。
高速互连 领跑人工智能
在多年的高速发展中,京东积累了大量的、真实有效的数据,并不断充分利用数据挖掘、人工智能和机器学习等技术,打造“智慧京东、智慧业务、智慧创新”和“品质电商”。
高速互连是支撑人工智能的必要条件。目前,京东已经有了先进的算法,也布局了支撑人工智能的硬件配套设施。“服务器升级会为计算效率带来质的飞跃,让京东的人工智能从‘土路’跑上‘高速公路’。”京东集团技术副总裁翁志介绍,Mellanox的技术结合京东的领先算法和众多应用场景,一定能在感知互联领域一起做出有含金量、领先业界的产品,最终打造极致用户体验。
Mellanox公司市场副总裁Gilad Shainer表示: “Mellanox已经在深度学习领域积累了诸如GPUDirect,硬件卸载等成熟的技术和解决方案。和京东成立联合实验室,一方面能让我们更贴近实际应用场景,优化产品和技术;另一方面,实验室也有助于Mellanox创新解决方案,推动互联感知领域的发展。”
JD-Mellanox联合创新实验室将以图像处理和认知技术为切入点,在金融、电商、物流、智能等领域展开深度合作,以期在图像识别(拍照购、智能冰箱、人脸识别)、大数据搜索、大数据推荐、智能物流(无人机、无人仓、无人驾驶)等方面取得进一步进展,为业界带来示范性的应用实例。
强强联手 布局图像识别
除了为京东在大数据处理、云计算等方面提供高性能可靠的运算保障外,JD-Mellanox联合创新实验室的成果也将率先在京东进行落地、推广和使用,将创新成果发挥最大效应。
在现场,京东展示了“拍照购(JD Camera+)”应用,这是图像识别、图像相似搜索的算法在移动端的典型应用。JD Camera+从方便用户出发,无需精准的语言描述,只需一张照片,即可以帮助用户搜索到想要购买的产品。
虽然在消费者看来只是一张照片,但在技术实现上却面临很多挑战:人体姿态归一化、特征描述、以及光照和角度的调整都会对图像识别造成很大影响。“目前京东在很少的研发投入下,已经达到或接近了业内的最优效果。未来,通过JD-Mellanox联合创新实验室,JD Camera+将从平面搜索走向实拍搜索,并结合图像搭配算法,帮助用户从商品图像搭配角度进推荐,如服装搭配、美妆搭配、家具搭配等。”翁志表示。
正如张晨所说,京东与Mellanox的合作可谓是强强联手,京东也将不忘打造领先技术体系的初衷,继续耕耘,让京东用户的生活变得更加简单和快乐!
好文章,需要你的鼓励
这项由加州大学圣地亚哥分校和微软研究院合作开发的REAL框架,通过程序分析反馈训练大型语言模型生成高质量代码。与传统方法不同,REAL采用强化学习将代码安全性和可维护性作为奖励信号,不依赖人工标注或特定规则。研究在多个数据集上的实验表明,REAL在保证功能正确性的同时显著提高了代码质量,有效解决了"即兴编程"中的安全漏洞和维护性问题,为AI辅助编程提供了新的范式。
加州大学伯克利分校与Meta FAIR研究团队开发了"Self-Challenging"框架,让大语言模型通过自己创建和解决任务来提升能力。该方法引入创新的"Code-as-Task"格式,包含指令、验证函数、示例解决方案和失败案例,确保生成的任务既可行又有挑战性。在工具计算、网页浏览、零售服务和航班预订四种环境测试中,仅使用自生成训练数据,Llama-3.1-8B模型性能提升了两倍多,证明AI可以通过自我挑战实现有效学习,减少对人类标注的依赖。
南洋理工大学与SenseTime Research合作提出了PoseFuse3D-KI,一种创新的人体中心关键帧插值框架。该方法将3D人体模型信息融入扩散过程,解决了现有技术在处理复杂人体动作时产生扭曲结果的问题。研究团队开发了专门的SMPL-X编码器直接从3D空间提取几何信息,并设计了融合网络将3D线索与2D姿态无缝整合。他们还构建了CHKI-Video数据集,包含2,614个视频片段及完整的人体标注。实验结果显示,PoseFuse3D-KI在PSNR上提升9%,LPIPS减少38%,显著超越现有方法。
这项研究提出了LongGuide算法,解决了大型语言模型在长文本生成任务中的局限性。研究团队发现,仅依靠上下文学习无法使模型充分掌握文本的语言和格式特性。LongGuide通过自动生成两种指导原则:度量指导原则和输出约束指导原则,显著提升了模型性能。在七种长文本生成任务中,该方法使开源和闭源模型的ROUGE-L评分平均提高约6%。LongGuide具有通用性强、易于学习、成本效益高等优点,为提升AI长文本生成能力提供了新方向。