ZD至顶网CIO与应用频道 11月25日 北京消息(文/王聪彬):虽然在不同场合听过多次科大讯飞的演讲,但这次是我第一次参加科大讯飞的发布会,让我诧异的是人工智能的火热程度远超我的想象,有如人工智能这只堂前燕早已飞到寻常百姓家的感觉。
在发布会上展示语音转写其实早有先例,这次科大讯飞不仅展示了中文语音识别,还同时做了多语种实时翻译。科大讯飞到现在为止在单机情况下,已经可以做到90%的准确率。
其实人工智能并不是一个新事物,在60年前它就存在,但是技术和应用场景的缺失让人工智能并不能走到台前。在AlphaGo的出现后仿佛一夜之间,大街小巷都在谈论人工智能。在人工智能第三次浪潮下,产业大潮已经不是概念的泡沫,进入到行业应用中,在未来5-10年将成为生活的必需品。
人工智能深入行业的创新
“以语音和语言为入口的认知计算,是人工智能的必由之路。”科大讯飞董事长刘庆峰说。科大讯飞把人工智能进化路径分为三种情况,第一、信息完全输入,得到输入就可以充分准确的得到相应的输出;第二、通过输入进行判断,辅助人和机器产生耦合;第三、创意类,现在的人工智能还远远达不到艺术的层面。
科大讯飞董事长刘庆峰
但现在80%的应用还集中在第二阶段,还在不断学习的过程中,未来机器可以做更多的事,分担你的劳作。刘庆峰理解的未来世界应该是由顶尖专家和顶尖管理者协同管理人和机器的联合体的未来。而且在这样一个人机协同机制下,人类智慧大爆炸时代正在到来。
AlphaGo学习了3000万个围棋对弈,但在教育领域科大讯飞只要学习500张阅卷,就可以改几十万份卷子,大大超过人工。在医疗领域,学习顶尖医疗专家知识和已有案例,就能够超过一线全科医生。人工智能在学习顶尖专家的知识后,可以超过90%普通专业认识,达到一流专家水平。
目前科大讯飞人工智能云平台上总用户达到8.9亿,同比增长48%;日均使用次数达到30亿,同比增长200%;第三方创业团队达20万,同比增长180%。
同时人工智能产业必须要强调生态,科大讯飞的平台上已有21万家合作伙伴。今年科大讯飞还牵头发布了中国人工智能《深圳宣言》,而且为了有效节约社会投资,制定一系列的标准和规范也将是当务之急。
科大讯飞最新黑科技
科大讯飞人工智能技术在多个领域的创新应用,已经深度改变人类生活。科大讯飞轮值总裁胡郁今年也带来最新的技术发布,万物互联输入解决方案、讯飞听见多语种翻译、智能家居、智能服务机器人、智能车机、个性化语音合成、智慧教育等技术产品。
科大讯飞轮值总裁胡郁
万物互连输入法:在万物互联的环境下输入过程又得到了颠覆,在电视、机器人、VR设备等各种设备上,科大讯飞也推出了万物互连输入法,融合OCR智能扫描技术,体感输入及语音输入技术,现场也还展示了隔空手写的输入。
讯飞听见:实时将语音转换成文字,在速度和精准率上已经远超人工。尤其是在演讲和回忆场景下的语音转写技术得到突破,并且通过融合多语种翻译,实施将中文演讲翻译成英语、维吾尔语、日语、韩语等语言。
晓译翻译机:在口语翻译上可以实现快速、准确的中英口语即时互译,而且还实现了汉维互译,未来也将加入更多语种。
飞鱼助理:作为汽车智能车载系统,其可以将远场识别、全双工、多轮交互、方言识别等技术应用于汽车。目前科大讯飞已与30多个汽车厂商建立了长期合作,并已在100多款量产车型中搭载产品。
晓曼机器人:将语音合成、语音识别、语义理解和人脸识别等技术运用到智能服务机器人上,并且结合麦克风阵列、3D摄像头、身份证读卡器、取号小票机等外设应用,提供语音、触屏、动作等多模态的交互方式。
万物互联输入法展示
晓曼机器人展示
飞鱼助理展示
好文章,需要你的鼓励
谷歌发布新的AI学术搜索工具Scholar Labs,旨在回答详细研究问题。该工具使用AI识别查询中的主要话题和关系,目前仅对部分登录用户开放。与传统学术搜索不同,Scholar Labs不依赖引用次数或期刊影响因子等传统指标来筛选研究质量,而是通过分析文档全文、发表位置、作者信息及引用频次来排序。科学界对这种忽略传统质量评估方式的新方法持谨慎态度,认为研究者仍需保持对文献质量的最终判断权。
Meta公司FAIR实验室与UCLA合作开发了名为HoneyBee的超大规模视觉推理数据集,包含250万训练样本。研究揭示了构建高质量AI视觉推理训练数据的系统方法,发现数据质量比数量更重要,最佳数据源比最差数据源性能提升11.4%。关键创新包括"图片说明书"技术和文字-图片混合训练法,分别提升3.3%和7.5%准确率。HoneyBee训练的AI在多项测试中显著超越同规模模型,同时降低73%推理成本。
Meta发布第三代SAM(分割一切模型)系列AI模型,专注于视觉智能而非语言处理。该模型擅长物体检测,能够精确识别图像和视频中的特定对象。SAM 3在海量图像视频数据集上训练,可通过点击或文本描述准确标识目标物体。Meta将其应用于Instagram编辑工具和Facebook市场功能改进。在野生动物保护方面,SAM 3与保护组织合作分析超万台摄像头捕获的动物视频,成功识别百余种物种,为生态研究提供重要技术支持。
上海AI实验室团队提出ViCO训练策略,让多模态大语言模型能够根据图像语义复杂度智能分配计算资源。通过两阶段训练和视觉路由器,该方法在压缩50%视觉词汇的同时保持99.6%性能,推理速度提升近一倍,为AI效率优化提供了新思路。