ZD至顶网CIO与应用频道 10月31日 北京消息:美国时间10月27日,滴滴联合创始人兼CTO张博受邀在硅谷斯坦福大学给International Conference on 3D Vision 2016大会(下称:3DV大会)的“最佳论文奖”获得者颁奖。据悉,最佳论文获奖团队由来自苏黎世联邦理工学院(ETH Zurich)和Disney Research Zurich的四个人组成,他们的论文获得组委会的一致认可,得到了最高投票。现场专家称:“凭借密集光场下复杂物体重建的高效算法,他们获得了大会最佳论文奖。”
张博给“最佳论文获”获得者颁奖
据介绍,自2013年以来,3DV会议围绕计算机视觉和图形3D研究领域的多方面主题,包括创新的光学传感器、信号处理技术、几何建模、呈现和传输、可视化和互动,以及多种应用,推动了多项研究成果分享,是一个全球高端技术交流与分享平台,包括工业界、学术界等顶级专业人士均到场参会。本届演讲嘉宾包括来自Google、Facebook、微软的专家及MIT和UCLA大学教授等学界泰斗。
此次张博也受邀参加了3DV大会的专题演讲,他首先对滴滴的四年业务发展历史作了简单介绍:“滴滴成立于2012年,当时主要解决的是司机与乘客双方的信息不对称问题;2013年我们迅速发展,这一年的10月,我们市场占有率实现第一;2014年3月,我们用户数超过1亿,同年8月专车业务上线;2015年2月,滴滴和快的合并,并陆续上线了快车、顺风车和代驾、巴士业务;2016年3月,我们日订单突破1000万,5月获得苹果战略投资,8月并购Uber中国。”
张博在现场演讲
同时,他还透露了滴滴如何利用人工智能对出行带来的改变。“当乘客发出订单,我们会根据历史上发布订单和乘客行驶轨迹预测会在哪里上车,我们设置这个地点,司机会直接到该点接乘客,这是我们的推荐上车地点功能,可减少与司机沟通具体接驾时间。”
利用人工智能技术,滴滴可以为用户作路线规划,“ETA是很复杂的技术问题,从A点到B点到底需要多长时间,需要预估未来的路况。”
“拼车则是提高交通效率的大杀器,怎么满足出行需求又不增加道路车辆,拼车是唯一办法,当乘客发出拼车订单时,我们不仅要计算路径匹配程度,还要预测同路线是否有其他乘客能拼成功。”公开数据显示,滴滴利用算法技术,每天有超过200万人次通过拼车出行,大量减少了道路上的车辆,为社会创造了价值,而这些复杂的拼车运算,都是在以秒计算的很短时间内完成。
提及智能调度,张博表示,理想的交通状态是,全城拥有一个智能交通大脑,可对未来的出行需求进行预测。“滴滴对15分钟后供需预测的准确度达到了85%,平台会调度司机满足未来需求,使得未来该区域供需不平衡的概率下降。比如,预测某个区域15分钟后出现供给需求,就会把运力往这个区域调度,使得未来该区域供需不平衡的概率下降。”
张博演讲后的提问环节,来自全球学者围绕滴滴在人工智能、计算机视觉等领域的研究挑战,以及滴滴学术合作计划和高水平人才招募计划向他提问,张博一一回答了大家的问题,并表示滴滴期待和学术界同仁一起,共同解决出行领域的世界级挑战。
滴滴作为受邀企业,还参加了3DV大会的展示环节,介绍了滴滴研究院在人工智能领域的黑科技。此前有报道称,目前滴滴在美国硅谷招聘数据科学家,以帮助公司进行先进技术产品的研发。
好文章,需要你的鼓励
这项研究提出了ORV(占用中心机器人视频生成)框架,利用4D语义占用作为中间表示来生成高质量的机器人操作视频。与传统方法相比,ORV能提供更精确的语义和几何指导,实现更高的时间一致性和控制精度。该框架还支持多视角视频生成(ORV-MV)和模拟到真实的转换(ORV-S2R),有效弥合了虚拟与现实之间的差距。实验结果表明,ORV在多个数据集上的表现始终优于现有方法,为机器人学习和模拟提供了强大工具。
这项研究由Writer公司团队开发的"反思、重试、奖励"机制,通过强化学习教导大型语言模型生成更有效的自我反思内容。当模型回答错误时,它会生成反思并二次尝试,若成功则奖励反思过程。实验表明,该方法在函数调用和数学方程解题上带来显著提升,最高分别改善18.1%和34.7%。令人惊讶的是,经训练的小模型甚至超越了同家族10倍大的模型,且几乎不存在灾难性遗忘问题。这种自我改进技术为资源受限环境下的AI应用开辟了新方向。
FuseLIP是一项突破性研究,提出了通过早期融合离散标记实现多模态嵌入的新方法。与传统CLIP模型使用独立编码器不同,FuseLIP采用单一编码器同时处理图像和文本标记,实现了更自然的模态交互。研究证明,这种早期融合方法在多种多模态任务上表现优异,特别是在需要理解图像结构而非仅语义内容的任务上。研究还开发了创新的数据集和评估任务,为多模态嵌入研究提供了宝贵资源。
ByteDance与浙江大学合作开发的MERIT是首个专为多语言多条件语义检索设计的基准数据集,包含320,000条跨5种语言的查询和135,000个产品。研究发现现有模型在处理多条件查询时过度关注全局语义而忽略特定条件元素,为此提出CORAL框架,通过嵌入重建和对比学习相结合的方式,使检索性能提升45.9%。这项研究不仅识别了现有方法的关键局限性,还为多条件交错语义检索领域的未来研究奠定了基础。