自2010年兴起的网约车,可以说经历了跌宕起伏多个阶段。近些年受到宏观经济放缓、政策趋严等因素影响,市场交易规模增速放缓等因素,网约车行业已经进入规范化调整期。
易观千帆数据显示,2019年中国网约车市场整体交易金额达3044.1亿元,环比增长3%。中国网约车市场一直保持“一超多强”的市场竞争格局,独立专车APP中,首汽约车活跃用户规模最高,达411.5万。
过去几年网约车行业虽然热闹,但在首汽约车CEO魏东眼中网约车还处在1.0时代,“我们做的只是连接,使用各种手段提升司机和乘客的匹配效率,通过不断挖掘交易引擎、地图引擎、定价引擎,让整体交易效率更高。”
首汽约车CEO魏东
随着网约车新政的逐步落实,网约车市场正向着系统化、标准化发展,所以让乘客打到一个信任、满意、干净、有温度的车正是现在首汽约车在做的事,这也是首汽约车理解的网约车2.0。
“如何做到走心的服务,这取决于背后智能化的能力。”魏东说道,智能化升级有很多课题,供需匹配变革、智能管理升级、乘客体验提升我们需要一个一个去破解,我们首先要做的就是通过人工智能管理驾驶员的行为。
语音识别破解客诉烦恼
首汽约车一直认为AI在出行服务中的应用是重中之重,首先,服务质量管控是首汽约车的重要主题,视频语音数据是重要抓手,音频数据的处理离不开AI能力的实现;其次,提高服务和管理效率是伴随公司规模增长需要解决的问题,AI代替人工和辅助人工可以实现效率提高和成本节约;最后,AI可以从复杂海量的网约车数据中挖掘价值信息,提高业务水平和行业竞争力。
“网约车行业是一个人对人的服务,而且车又是一个高速运动的载体,任何一个环节的偏差都可能导致问题的发生。” 魏东表示,司乘安全是关乎两个群体的事情,国内网约车行业普遍采用行程录音辅助安全监控,以及用户问题投诉处理。
安全监控是一个比较大的范畴,包括冲突识别,辱骂识别,推单识别等等。例如在遇到推单投诉时,调查需要多方参与反复确认,并不是一个简单就能解决的问题,如果涉及骚扰,还需要通过语音核实。
但是车内录音很难受到控制,可能会出现杂音、方言等各种情况,因为录音质量问题有时难以达到安全监控的目的。首汽约车也开始利用人工智能和机器学习技术,打造一个智能语音解决方案来有效排除噪音、音乐、导航音等干扰项,并将语音快速准确地转换成文字。
基于AWS Amazon SageMaker和Amazon Transcribe,首汽约车开发了出行行业首个定制智能语音解决方案。其可以高效地将行程录音进行音频降噪、导航音分离,提取清晰的司乘对话内容,并将语音转成文字,从而通过场景化的关键词识别分析触发安全预警,实现实时行程安全监控。这样首汽约车通过人工智能可以自动化的进行一些判断,在无法判断时再介入人工进行校验,提升司乘体验和服务效率,并降低成本,提高安全性。
人工智能推动未来交通
首汽约车使用Amazon SageMaker首先对音频降噪和导航音分离两个模型进行攻克,同时使用Amazon Transcribe人工智能语音服务将行程录音自动转化为文字,经历了4个月就完成了智能语音解决方案的开发和上线。首汽约车副总裁闫磊表示,客诉其实是网约车行业的一个痛点,在市面上没有一个很好的解决方案,除了算法要从零开始,我们还要明确范围,例如各地方方言等。
而利用Amazon SageMaker可以实现模型训练、部署和调优,让模型的快速迭代。AWS大中华区产品部总经理顾凡表示,整个解决方案不仅仅是开发两个模型,录音的调度、并发等等都是需要考虑的因素,而且Amazon SageMaker极大地降低了机器学习的门槛。
目前首汽约车的客诉承诺24小时进行答复,通过人工智能则大幅提高了效率,可以更快地回应客户。最终节省客服人工审核工作量35%,缩短客服人员人工听音审核时长20%,智能客诉处理准确率达90%以上。
“未来的处理要更加及时,做到事中处理,实时监测车内声音,通过语音识别让客服及时接入,改善客服,降低运营成本,提高安全性。”闫磊说道,在语音识别之后还有一个有待解决的痛点就是如何鉴别司机推单,这不仅需要文字的判断,还要识别场景,结合司机的行驶状态、定位信息、周边信息,综合判断责任的归属。
首汽约车和AWS未来也将进一步紧密合作,丰富智能判责场景,例如针对网约车服务中可能出现的司乘矛盾、行驶路线问题等,通过语音智能识别后用作判定的依据。同时首汽约车还计划将其打造为行业通用解决方案,服务于其它网约车平台、传统出租车企业和货运企业,构建交通出行领域的智能解决方案,推动行业发展。
如今,用户已经接受了网约车的形式,AI也将持续赋能出行服务行业,最终实现承载移动生活的未来交通。
好文章,需要你的鼓励
新加坡国立大学研究人员开发出名为AiSee的可穿戴辅助设备,利用Meta的Llama模型帮助视障人士"看见"周围世界。该设备采用耳机形态,配备摄像头作为AI伴侣处理视觉信息。通过集成大语言模型,设备从简单物体识别升级为对话助手,用户可进行追问。设备运行代理AI框架,使用量化技术将Llama模型压缩至10-30亿参数在安卓设备上高效运行,支持离线处理敏感文档,保护用户隐私。
阿里达摩院联合浙江大学推出VideoRefer套件,这是首个能够精确理解视频中特定物体的AI系统。该系统不仅能识别整体场景,更能针对用户指定的任何物体进行详细分析和跨时间追踪。研究团队构建了包含70万样本的高质量数据集VideoRefer-700K,并设计了全面的评估体系VideoRefer-Bench。实验显示该技术在专业视频理解任务中显著超越现有方法,在安防监控、自动驾驶、视频编辑等领域具有广阔应用前景。
OpenAI推出新AI模型GPT-5-Codex,能够在无用户协助下完成数小时的编程任务。该模型是GPT-5的改进版本,使用额外编码数据训练。测试显示,GPT-5-Codex可独立工作超过7小时,能自动发现并修复编码错误。在重构基准测试中得分51.3%,比GPT高出17%以上。模型可根据任务难度调整处理时间,简单请求处理速度显著提升。目前已在ChatGPT付费计划中提供。
Sa2VA是由UC默塞德等高校联合开发的突破性AI系统,首次实现图像视频的统一理解与精确分割。通过巧妙融合SAM-2视频分割技术和LLaVA多模态对话能力,Sa2VA能够同时进行自然对话和像素级物体标注。研究团队还构建了包含7万多个复杂视频表达式的Ref-SAV数据集,显著提升了AI在长文本描述和复杂场景下的表现。实验显示,Sa2VA在多个基准测试中达到业界领先水平,为视频编辑、医疗诊断、智能监控等领域带来新的应用可能性。