ZD至顶网CIO与应用频道 08月04日 北京消息:最近,Avegant公司亮相ChinaJoy并展示了其虚拟现实(Virtual Reality, VR)设备。而早在Avegant公司共同创始人Edward Tang与他的同事决定开发头戴式显示器之初,他们深知自己面临着巨大的技术挑战。
“我们希望打造一款时髦的设备,能够带来大屏幕的体验,”Tang表示,“我希望消费者们会真的戴上这款设备使用——它必须是优雅的。”
基于这些想法而开发的消费品——名为Glyph——看上去与一组连接到智能手机的工作室耳机并无二致。头带中的两个微型显示器可以带给观众丰富的多媒体体验,同时能够让他们看到显示屏边缘周围的真实世界。
Tang表示:“选用TI的DLP Pico显示技术作为Glyph的主要显示组件可谓顺理成章。”毕竟,早在密歇根大学学习微机电系统(MEMS)时,Tang和他的许多Avegant同事就已经非常了解DLP技术。
Glyph的首款原型设备于2012年制作完毕。该原型设备与洗衣机大小相当,不仅机身上满是外露的电线,还有一个缺点——不适合穿戴。事实上,用户必须将眼睛贴近一对镜头才能获得充分的体验。
不过,该设备仍然强有力的证明了概念的可行性,随后不久,Avegan就推出了易携带、轻巧的原型设备。TI邀请Avegant在消费电子展(CES)上展示更新后的Glyph原型设备,随即在展会上获得了数个奖项和媒体的赞誉。
“即使它只是原型,我们也意识到了我们的图像质量是以前的该类设备所不具备的。”Tang说道,“我们觉得现在是该将这款设备商业化的时候了。”
Glyph上使用的LED照明视觉效果由多功能的DLP微型投影技术提供支持,Avegant也将其称为“全球第一项视网膜成像技术”。Avegant使用了TI的0.3英寸对角线微镜阵列、720p分辨率的DLP3010芯片。
Tang表示, Avegant之所以选择基于DLP芯片组开发投影显示技术,是由于该技术的亮度高、小尺寸、高分辨率、色域丰富、高能效的特点。对他来说,与TI长期的合作关系也十分重要。
“DLP解决方案中有许多良好的属性,比如填充因子非常高,因此,用户在使用Glyph时,眼睛根本不会看到任何像素失真的现象,”Tang说,“低延迟性则是另一个很大的优势。”
Avegant的客户很喜欢这些优点。
Tang表示,他已经看到用户们在逐渐发现Glyph除媒体消费以外的新应用,这十分有趣。他指出,Glyph的头部追踪能力和超清晰的分辨率让其成为了无人机飞行员的不二之选,因为这可以打造一种无与伦比的、独特的、身临其境的视觉体验,。
“一直以来,我们的首要专注对象都是那些随时追求超高品质娱乐体验的人,但在如何能让用户更好的使用设备方面,我认为我们做的还远远不够。”Tang说道。
好文章,需要你的鼓励
华中科技大学与利哈伊大学研究团队开发的MMMR基准是首个专门评估多模态大语言模型推理思考过程的综合工具。通过1,083个跨六大领域的高难度推理任务和创新的推理过程评估管道,研究发现即使最先进的模型在推理任务上也与人类存在约10%的差距。研究揭示了答案准确性与推理质量间的脱节:模型常出现思考不一致(41.5%)、过度思考(20.5%)等问题。这一基准不仅评估答案正确性,更深入分析思考质量,为提升AI系统的可靠性和透明度提供了重要方向。
UI-Genie是一个创新的自我改进框架,解决了GUI智能体面临的两大挑战:轨迹验证困难和高质量训练数据缺乏。研究团队开发了专用奖励模型UI-Genie-RM,采用图像-文本交错架构有效处理历史上下文,并统一了步骤级和任务级奖励评估。通过精心设计的数据生成策略和迭代自我改进,该框架无需人工标注即可创建高质量合成轨迹。实验结果显示,经过三轮数据-模型自我改进后,UI-Genie在多个基准测试上达到了最先进水平。该研究已开源全部实现和数据集,为GUI智能体研究提供重要资源。
浙江大学和蚂蚁集团的研究团队开发了ACTIVE-O3,一种创新框架,赋予多模态大语言模型"主动感知"能力,使AI能够智能地决定"看哪里"和"怎么看"。基于群体相对策略优化(GRPO)构建,该系统采用两阶段策略,先选择关注区域,再执行任务。实验表明,ACTIVE-O3在小物体检测、密集物体定位和交互式分割等任务上显著优于现有方法,并展示出强大的零样本推理能力。该研究为AI系统提供了更接近人类认知的视觉探索能力,对自动驾驶、医疗诊断等领域具有重要应用价值。
ImgEdit是北京大学与兔小贝AI联合推出的图像编辑框架,解决了开源编辑模型落后于商业产品的问题。该框架包含120万对高质量编辑图像对,涵盖13种编辑类型和11万个多轮交互样本。通过融合视觉语言模型、检测模型和分割模型的多阶段流程,ImgEdit确保了数据的高质量性。研究团队基于此数据集训练了ImgEdit-E1模型,并提出ImgEdit-Bench评估基准,从指令遵循、编辑质量和细节保留三个维度全面评估模型性能。实验结果显示,ImgEdit-E1在多个任务上超越现有开源模型,推动了图像编辑技术的进步。