从2022年11月30日,OpenAI发布ChatGPT后,生成式AI的大势就一发不可收拾。
2月7日,微软宣布对Bing搜索引擎和Edge网络浏览器进行升级,将支持ChatGPT,提升搜索和回答能力。
2月8日,谷歌推出了聊天机器人产品Bard,作为ChatGPT最重要的挑战者,Bard却在现场演示时,尴尬出错。
3月15日,OpenAI发布多模态大型语言模型GPT-4,它可以处理超2.5万字的文本,并支持图像输入。
3月16日,百度文心一言正式发布,展现了文学创作、商业文案创作、数理推算、中文理解、多模态生成五个使用场景中的综合能力。
3月17日,微软宣布名为Microsoft 365 Copilot的AI产品将应用于Word、Excel、PowerPoint、Outlook、Teams等产品中。
3月21日,Adobe推出创意生成式人工智能(AI)模型集——Adobe Firefly,聚焦于图像生成和文本效果,其将整合至Adobe Creative Cloud、Document Cloud、Experience Cloud和Express Cloud的工作流程中。
3月23日,OpenAI宣布,开始为ChatGPT引入插件,帮助ChatGPT访问最新信息、运行计算或使用第三方服务。
几个月间,几乎每天都有关于生成式AI的消息,之前我们做过一期ChatGPT特刊来专门介绍它,这次我们则针对ChatGPT及其相关产品将会对产业带来哪些变化进行讨论。
这次我们问了很多人一个问题,ChatGPT的出现为您或您的企业带来的最大价值是什么?他们都给出了积极的反馈。而且一位CIO还提出了今天我们谈论生成式AI,它代表的不仅是技术,这其中也反映出了整个行业的焦虑和短板。
作为报道前沿科技的我们,也早早接入了ChatGPT,在使用ChatGPT的过程中我明显感觉到它的学习能力之强。我们不要把它当做一个搜索引擎,给它一些素材学习,你可能会得到一个意想不到的结果。
找灵感、写问题、列大纲、翻译都是我经常使用ChatGPT干的事,企业也都在寻找场景的结合点,我们看到金融和教育行业应该是最先应用的行业,像金融里的客服、智能投顾、辅助开发等,教育行业里的智能辅导、智能答题、智能导师、语言学习等都是我们已经能看到的落地场景。
ChatGPT就像一颗石子,当它落入水中之时,也激起了层层涟漪,而且涟漪还将不断扩大,将整个水面带入其中。
《数字化转型方略》2023年第3期:http://www.zhiding.cn/dxinsight/2303
好文章,需要你的鼓励
这篇研究提出了OThink-R1,一种创新的大型推理模型,能够像人类一样在快速直觉思维和慢速深度推理之间自动切换。研究者发现,现有推理模型即使面对简单问题也会生成冗长的推理过程,导致计算资源浪费。通过分析推理轨迹并使用LLM评判员区分冗余和必要推理,OThink-R1能根据问题复杂度动态调整思考深度。实验表明,该方法平均减少了23.4%的生成文本量,同时保持或提高了准确率,代表了向更高效、更人性化AI推理系统迈出的重要一步。
这项研究提出了SHARE,一种新型文本到SQL修正框架,它利用三个小型语言模型(SLM)协同工作,实现高效精准的SQL错误修正。SHARE首先通过基础行动模型将SQL转换为行动轨迹,再经过模式增强模型和逻辑优化模型的层次化精细化修正。研究团队还创新性地提出了层次化自演化训练策略,大大提高了训练数据效率。实验结果表明,SHARE在多个基准测试上显著提升了SQL生成准确率,计算成本仅为传统方法的十分之一,并展现出强大的泛化能力,适用于各种生成器模型和SQL方言。
这项由香港大学和南京大学等机构研究人员联合开发的双专家一致性模型(DCM)解决了高质量视频生成中的效率难题。研究团队发现扩散模型蒸馏过程中存在优化冲突:早期阶段负责语义布局与运动,后期阶段关注细节精修,两者学习动态差异显著。DCM创新性地将这两个任务分配给不同的专家模型,通过参数高效的实现方式,使模型仅需4步即可生成接近50步原始模型质量的视频,大幅提升生成速度,为实用化AI视频创作铺平道路。
这项研究介绍了QARI-OCR,一种基于Qwen2-VL-2B-Instruct模型微调的阿拉伯文字识别系统。研究团队通过三阶段合成数据训练,成功解决了阿拉伯文字识别中的主要挑战:曲线连笔特性、上下文变化的字母形状和发音符号。QARI v0.2模型创下了0.061的字符错误率和0.160的单词错误率,超越了现有开源解决方案,为阿拉伯文化遗产的数字化保存提供了重要工具。