至顶网CIO与应用频道 09月05日 北京消息:eyeSight科技今日宣布,将与中国顶尖语音识别公司科大讯飞合作,致力于研究和实现智能语音和语言技术。eyeSight是一家提供嵌入式计算机视觉人工智能、深度学习,以及手势识别解决方案的领先创新企业。通过将科大讯飞先进的人工智能语音识别功能与eyeSight市场领先的人工智能计算机视觉和感应技术结合在一起,合作双方将联手开发出对电子设备最为自然的交互方式。
在交互方式领域,语音和计算机视觉形成了互补而非竞争的关系。只要处理得当,二者联合即可创造真正的自然交互,这将简化并扩展人们与设备的交流方式。从智能家庭、消费电子产品、机器人,到车载系统,都蕴含着巨大的潜在市场和应用空间。在产品中同时应用基于语音和计算机视觉的控制系统,例如手势控制和用户感知功能,用户将体验到更为即时和直观的控制,人机交互再也无需滚动菜单和屏幕,从而使设备更加智能和自然地进行互动。
“此次合作是一个撬动语音和语言技术发展的绝佳机遇。结合计算机视觉和手势控制技术,我们得以带来更加无缝的交互体验。”科大讯飞研究院副院长王智国说道。“eyeSight科技采取独特方式开发创新人工智能与计算机视觉解决方案,这与我们简化智能设备交互体验的追求完美契合。”
eyeSight科技的首席执行官Gideon Shmuel表示:“我们非常荣幸并且很高兴可以与科大讯飞进行合作。人们的交流主要就是通过声音和肢体动作完成的,因此,计算机视觉与声音的无缝对接将能真正使人们可以用最为自然的方式与身边的设备或界面进行互动。”
了解eyeSight科技更多信息,请访问www.eyesight-tech.com.
好文章,需要你的鼓励
这项由浙江大学与阿里巴巴通义实验室联合开展的研究,通过创新的半在线强化学习方法,显著提升了AI界面助手在多步骤任务中的表现。UI-S1-7B模型在多个基准测试中创造了7B参数规模的新纪录,为GUI自动化代理的发展开辟了新的技术路径。
阿里巴巴联合浙江大学开发的OmniThink框架让AI学会像人类一样慢思考写作。通过信息树和概念池的双重架构,系统能够动态检索信息、持续反思,突破了传统AI写作内容浅薄重复的局限。实验显示该方法在文章质量各维度均显著超越现有最强基线,知识密度提升明显,为长文本生成研究开辟了新方向。
新加坡国立大学研究人员开发出名为AiSee的可穿戴辅助设备,利用Meta的Llama模型帮助视障人士"看见"周围世界。该设备采用耳机形态,配备摄像头作为AI伴侣处理视觉信息。通过集成大语言模型,设备从简单物体识别升级为对话助手,用户可进行追问。设备运行代理AI框架,使用量化技术将Llama模型压缩至10-30亿参数在安卓设备上高效运行,支持离线处理敏感文档,保护用户隐私。
腾讯混元3D 2.0是一个革命性的3D生成系统,能够从单张图片生成高质量的带纹理3D模型。该系统包含形状生成模块Hunyuan3D-DiT和纹理合成模块Hunyuan3D-Paint,采用创新的重要性采样和多视角一致性技术,在多项评估指标上超越现有技术,并提供用户友好的制作平台。作为开源项目,它将大大降低3D内容创作门槛,推动3D技术的普及应用。