ZD至顶网CIO与应用频道 05月23日 北京消息(文/王聪彬):5月18日-20日,由中国电子学会主办,ZD至顶网协办的第八届中国云计算大会在北京国家会议中心举办,畅捷通信息技术股份有限公司技术委员会主席李鲲介绍了自然语言处理在企业应用领域的实践,以及云计算大数据的发展让自然语言处理在企业更快落地。
畅捷通信息技术股份有限公司技术委员会主席李鲲
以下为采访实录:
主持人:各位网友大家好,我们今天已经进入了中国云计算大会的第三天了,今天有幸采访到畅捷通信息技术股份有限公司技术委员会主席李鲲,首先请您介绍下演讲的内容?
李鲲:我今天讲的主题是“自然语言处理在企业应用领域的实践”。这个是我们畅捷通公司两大重要研究方向中的一个。我们今天已经看到了很多自然语言处理技术在日常生活中的应用,比如谷歌刚刚发布的谷歌助手、亚马逊的Alexa、微软的小娜等,这类应用已经给人们的生活带来了很大的方便。但是在企业应用这样的垂直领域,目前我们还没有看到非常好的实践。畅捷通公司在这方面已经积累了三四年的时间,希望做到通过自然语言来做人跟系统的交互,彻底改变大家觉得一个企业的软件或应用一定是很复杂很难用的观念。举个例子,比如说我们用了一套企业管理系统,我要在里边做一个申请审批的流程,传统的方式就需要填各种各样的单据,这种交互方式并不友好。而自然语言的交互方式是直接对着手机说:“明天要出差上海,申请借款两千块。”,然后系统就能自动生成财务系统的借款单,同时自动把借款单提交给相关的审批人。这是一项颠覆传统企业应用人机交互方式的技术。
主持人:云计算不断地落地也让开发自然语言应用起来很简单了,在这个方面畅捷通在这个有哪些拳头产品呢?
李鲲:我们有两个具体的应用,一个是在畅捷通的T+软件系统中实现了手机端语音下单。我们知道在手机上面输入大量的数据是非常不方便的,所以我们做了语音下单。比如一个批发商给零售店供货的场景,可能一次补货几十种商品,我们要通过手机一项一项地去输入点击选择商品,这是非常麻烦的。但通过语音交互,就是简单地对着手机说出要购买的商品和数量,很快就可以把下单完成,这个过程就变得很简单,没有任何的压力,所以用户应用起来非常方便。
另外一个应用是在会计应用方面实现的语音记账,有两个产品里实现了这一功能,一个是易代账,给代账会计和代账公司使用;另外一个是好会计,给企业内部会计使用。所谓的语音记帐,就是对手机说出企业中发生的财务业务,比如说从建行提现金两万,说完这样一句话以后,通过自然语言的处理把它理解,对应到企业内部系统里面的单据。这个业务应该生成什么样的凭证呢?借方科目是现金,贷方科目是银行,金额是两万元。这个过程比一般的自然语言处理更加复杂,是自然语言向结构化数据的转化,在我们的应用中已经实现了。
主持人:自然语言应用到日常生活很方便,把自然语言应用到企业的时候需要有什么样的帮助吗?
李鲲:其实我们自然语言的应用对企业来讲并不需要太多的帮助,是一个很自然的过程,只需要交互界面上有一个提示:“你可以这样说......”。因为对人来说,说出发生的业务是一个自然的过程,也不需要企业去做什么。我们通过在大数据方面的积累,来支持怎么样把自然语言转变成企业需要的数据,这个靠云上数据的搜集来做。
主持人:确实像您说的背后的大数据非常重要的,畅捷通在数据上怎么提取价值?
李鲲:在垂直领域数据的提取很困难,不像谷歌、百度这样的公司有很多互联网公开的语料数据可以使用。我们主要依靠社区、垂直的论坛,这里有很多会计的提问,有一些专家来回答。另外我们还有服务社区,有大量的企业用户,不管在线下还是在云端有几十万的企业客户,所以通过云端的企业客户数据,以及客户服务社区可以提取这样的数据。另外也有公开的商品数据,还有一些就是在企业允许的情况下,使用他们的数据来做训练数据。我们不会利用企业内部具体的数据,但可以用它的数据来训练我们的自然语言模型。
主持人:您认为云计算技术和大数据的技术处在什么样的位置?
李鲲:我觉得应该处在一个新的工业革命的前沿,这个革命马上就要开始,就像当年机器取代工人的时代一样,当然我们还不用担心人类所有的工作都会被机器取代。目前机器智能可以做到的是,如果只需要简单的识别出场景,然后根据场景做直接地反应,这些简单工作是可以被机器替代的。我们可以看到现在研究最热门的无人驾驶,它在驾驶过程中做出的反应不需要运用逻辑推理,实际上只要对看到的、听到的这些周围环境做出一个正确的应对就可以了,这是一个非常直接的应用。其它还有各个方面的应用,比如说很简单的应用,像垃圾分类这种都完全可以用机器来实现。
主持人:云计算在不断落地过程中,您参加我们这个大会以后有什么参会感受吗?
李鲲:我觉得参加这个大会非常激动人心,也看到了在各个领域上技术的积累和突破。另外也很高兴看到我们国内的厂商已经和全球的技术水平相当,甚至在某些方面处于领先地位。
好文章,需要你的鼓励
这项研究由浙江大学、复旦大学等机构联合完成,提出了ReVisual-R1模型,通过创新的三阶段训练方法显著提升了多模态大语言模型的推理能力。研究发现优化的纯文本冷启动训练、解决强化学习中的梯度停滞问题、以及分阶段训练策略是关键因素。ReVisual-R1在各类推理基准测试中超越了现有开源模型,甚至在某些任务上超过了商业模型,为多模态推理研究开辟了新途径。
这项研究提出了一种名为"批评式微调"的创新方法,证明仅使用一个问题的批评数据就能显著提升大语言模型的推理能力。研究团队对Qwen和Llama系列模型进行实验,发现这种方法在数学和逻辑推理任务上都取得了显著提升,平均提高15-16个百分点,而且只需要强化学习方法1/20的计算资源。这种简单高效的方法为释放预训练模型的潜在推理能力提供了新途径。
新加坡国立大学研究团队开发了名为IEAP的图像编辑框架,它通过将复杂编辑指令分解为简单原子操作序列解决了当前AI图像编辑的核心难题。研究发现当前模型在处理不改变图像布局的简单编辑时表现出色,但在需要改变图像结构时效果差。IEAP框架定义了五种基本操作,并利用思维链推理技术智能分解用户指令,实验证明其性能显著超越现有方法,尤其在处理复杂多步骤编辑时。
Character AI的研究者开发出TalkingMachines系统,通过自回归扩散模型实现实时音频驱动视频生成。研究将预训练视频模型转变为能进行FaceTime风格对话的虚拟形象系统。核心创新包括:将18B参数的图像到视频DiT模型改造为音频驱动系统、通过蒸馏实现无错误累积的无限长视频生成、优化工程设计降低延迟。系统可让多种风格的虚拟角色与人进行自然对话,嘴型与语音同步,为实时数字人交互技术开辟了新可能。