6月25日,全球首届人工智能黑客马拉松(Global AI Hackathon)圆满落幕。经过28个小时的昼夜奋战,北京站15支团队共80名AI发烧友最终决出三大赛题的冠军。在美团云服务器及其GPU云主机高效计算力的支持下,乐得金融战队和天网战队包揽其中两项挑战的冠军。
美团云、阿里云受邀提供计算支持
本次赛事由全球性黑客马拉松组织者社区hackathon.com发起,在北京、旧金山、西雅图、纽约、巴黎、东京、慕尼黑、伦敦、阿姆斯特丹等全球范围内15个国际性城市同时举办,是全球范围内首次最大规模的人工智能黑客马拉松。北京站由全球人工智能信息服务平台机器之心承办,华院数据协办,共设三个赛题,分别为Business Challenge(MICROSOFT NOW)、Social Challenge(眼见为实)和Media Challenge(知人知面不知心)。
AI课题的挑战需要强大的计算能力对大量的数据进行分析和模型训练。为保障选手的计算资源与技术需求,美团云与阿里云受邀成为全球首届人工智能黑客马拉松北京站的战略合作伙伴,为参赛队伍提供高性能GPU云主机及PAI算法平台。
美团云助力斩获两项冠军
参赛的15支团队中,有11支团队选择使用美团云高性能GPU云主机完成挑战。最终,天网战队凭借“天网计划”夺得Social Challenge组冠军。这支来自网易的团队尝试用美团云GPU云主机做神经网络的训练,开发出一套在电商时代具有广泛用户需求的“易选优品”商品比价解决方案。
电商平台上商品质量良莠不齐、以假乱真,有些商家为了博取眼球,往往在同样商品的名称处进行部分的夸张修饰,给消费者造成比价困难的问题。“天网计划”可以对不同商家的某一类产品的多种性能进行横向比较。比如购买笔记本的客户可以勾选 i5 这一选项,系统会自动给出各商家的包含 i5 这一要求的产品的对比分析图,性价比一目了然。
Business Challenge题组的冠军——乐得金融战队使用美团云主机的数据存储及应用服务器,配合团队的创意,针对商务办公场景设计出一个人工智能会议助手“AIMI”。其亮点在于可以自动抓取与会人员发言的重点,对其进行总结,并快速发给所有参会人员,大大提升了会议效率。
借助美团云的高性能GPU云主机,参赛选手还开发出智能便利贴、情绪识别安保系统、学生课堂专注力识别等应用场景清晰、符合社会需求的产品模型。
高性能GPU也能很“经济”
美团云为此次人工智能黑客马拉松提供的高性能GPU云主机搭载了NVIDIA Tesla M60 GPU,并预装了TensorFlow 1.1-GPU框架和Keras 2.0.4框架。NVIDIA M60可灵活提供最高达4096个并行处理核心,16GB的GDDR5显存及9.7TFlops 的单精度峰值性能。
美团云GPU云主机可以灵活配置,并能与美团云的对象存储、MySQL数据库、云主机等产品无缝对接,满足多种场景的业务需求,如深度学习、仿真模拟、动画渲染、基因组学、地震分析、分子建模等。
人们普遍认为“高性能”即“高价格”,但是美团云GPU云主机始终坚持“高品质、低价格”的原则,采用秒级计费规则,是目前唯一一家按秒计费与包月价格一致的GPU云主机服务商。此外,美团云还提供 7×24 小时的专业运维服务,服务可用性达99.95%,数据可靠性不低于 99.9999%。
简单易用、极具价格优势的美团云GPU云主机为企业、开发者、AI研究人员节约了资金、学习及运维成本,让用户能够真正共享技术发展带来的“高品质、低价格”红利。
好文章,需要你的鼓励
这项研究由浙江大学、复旦大学等机构联合完成,提出了ReVisual-R1模型,通过创新的三阶段训练方法显著提升了多模态大语言模型的推理能力。研究发现优化的纯文本冷启动训练、解决强化学习中的梯度停滞问题、以及分阶段训练策略是关键因素。ReVisual-R1在各类推理基准测试中超越了现有开源模型,甚至在某些任务上超过了商业模型,为多模态推理研究开辟了新途径。
这项研究提出了一种名为"批评式微调"的创新方法,证明仅使用一个问题的批评数据就能显著提升大语言模型的推理能力。研究团队对Qwen和Llama系列模型进行实验,发现这种方法在数学和逻辑推理任务上都取得了显著提升,平均提高15-16个百分点,而且只需要强化学习方法1/20的计算资源。这种简单高效的方法为释放预训练模型的潜在推理能力提供了新途径。
新加坡国立大学研究团队开发了名为IEAP的图像编辑框架,它通过将复杂编辑指令分解为简单原子操作序列解决了当前AI图像编辑的核心难题。研究发现当前模型在处理不改变图像布局的简单编辑时表现出色,但在需要改变图像结构时效果差。IEAP框架定义了五种基本操作,并利用思维链推理技术智能分解用户指令,实验证明其性能显著超越现有方法,尤其在处理复杂多步骤编辑时。
Character AI的研究者开发出TalkingMachines系统,通过自回归扩散模型实现实时音频驱动视频生成。研究将预训练视频模型转变为能进行FaceTime风格对话的虚拟形象系统。核心创新包括:将18B参数的图像到视频DiT模型改造为音频驱动系统、通过蒸馏实现无错误累积的无限长视频生成、优化工程设计降低延迟。系统可让多种风格的虚拟角色与人进行自然对话,嘴型与语音同步,为实时数字人交互技术开辟了新可能。