在近三年中最难熬的12月,我们还是想聊一聊AIGC(人工智能创作内容)。
其实在AI发展中有几个节点,都是和C端应用有关,AI被大众所熟知的就是那次AlphaGo在2016年击败了围棋世界冠军、职业九段棋手李世石,当然2017年它又击败了排名世界第一的世界围棋冠军柯洁。
这一次也是因为AI绘画和ChatGPT等应用在大众间的使用,让AIGC成为AI一个新的标志性阶段。
2022年8月,美国科罗拉多州举办艺术博览会,《太空歌剧院》获得数字艺术类别冠军,其是由AI生成,并由设计师花费了近 80 个小时后得到的作品。最近OpenAI发布了一个全新的聊天机器人模型ChatGPT,从发布的示例看到,不管是生成编程代码还是写冷笑话,其表现都让人吃惊。
AIGC能够受到关注,一方面是因为AI之前做的更多的是学习和推理,是分析型或机械式的认知计算,现在的AIGC是AI在创造生成全新的东西。AIGC的发展让AI不仅变得更快、更便宜,而且在某些情况下,其生成的结果比人类手工创造的还要好。
在中国我们叫AIGC,国际市场更常使用 Generative AI(生成式人工智能)。Forrester分析师卢冠男说,其实整个AIGC相关的技术和产品服务一直在发展,今年出现基于Stable Diffusion模型的图片生成工具以及ChatGPT服务后,市场对AIGC关注度显著上升,因为无论是生成的图片质量还是对话内容质量都超越了使用者的预期,从而为AIGC的流行奠定了基础。
Forrester分析师卢冠男
Forrester 在2021年描述了AI 2.0的趋势,AIGC的发展就是AI 2.0 趋势的体现之一。Forrester描述的AI 2.0相比于以往的AI模型应用有三个特点:创造性、通用性、泛化。创新性指企业开始利用人工智能执行生成任务,而不仅仅是预测和分类任务;通用性指在模型训练环节,企业将更多利用通用预训练模型作为起点;泛化指企业将在更多应用场景中,嵌入人工智能的能力。
“最近AIGC的发展,既表现了创造性方面有着出色的表现,也体现了大模型所能覆盖场景的通用性,为企业逐步接纳和利用AI 2.0 的价值奠定了基础。”卢冠男说道。
人工智能的三大核心要素是数据、算力、算法,数据是饲料,算力是基础,算法则是背后的推手,是在数据上运行以创建机器学习模型的过程。
AIGC的发展离不开预训练大模型的不断精进,AI大模型是Foundation Model(基础模型),指通过在大规模宽泛的数据上进行训练后能适应一系列下游任务的模型,可以说AI大模型是人工智能迈向通用智能的里程碑技术。OpenAI在2020年5月发布的GPT-3是一个自回归语言模型,具有1750亿参数,在互联网文本数据上训练得到的这一基础模型,可以使用提示的例子完成各式各样的任务。
AIGC在现阶段正处在快速发展期,还会遇到三方面的挑战。
第一,应用场景:在商业场景探索上,目前还没有特别多的成功案例,如何通过AIGC为企业发挥可量化商业价值,仍需企业与合作伙伴探索。
第二,使用方式:AIGC的服务是以标准化API服务交付给企业使用,还是模型定制开发后才能使用,这仍处于不确定的状态。如果需要进一步定制,则需引入模型开发团队,潜在增加了使用该服务的复杂度,同时商业计费方式也还没有形成行业标准。
第三,合规:AIGC服务所生成的内容自身是否涉及版权冲突,这一潜在风险目前没有得到定论。企业在使用过程中需要思考如何规避这一风险。
现阶段比较成型的生成结果有:代码生成、文本生成、图片生成。这对于软件开发,市场内容营销,以及设计创新场景都具备应用的可能性。卢冠男看来,除了在职能部门场景,在客户体验创新方面也会得到应用,比如Lensa AI提供的人像生成服务,以及腾讯的图片生成服务“异次元的我”,这些都是在探索新的客户体验和服务形态。
AIGC虽然能够快速生成内容,但是AI是否能够真正理解绘画的含义,从而能够根据这些含义进行推力并决策,仍是未知数。比如输入“骑着科学家的马”等一些不符合常理的内容时,AI就难以准确生成对应的图像,这也是因为模型还有很多不可控因素。
在生成工具类型中,卢冠男建议企业可以考虑图灵机器人(TuringBot)类产品。Forrester 将图灵机器人定义为一种AI驱动的软件,可以帮助应用程序开发团队以自动和自主的方式设计、构建、更改、测试和重构软件代码和应用程序,比如 GitHub Copilot。这类工具有潜力赋能企业的软件开发团队,帮助企业加速产品的开发、提高代码准确性和部署速度。
尽管AIGC现在还并不完美,但这并不妨碍我们使用AIGC成为效率工具,从事辅助生产的工作。就像《太空歌剧院》经历了900多次修改才问世是一个道理,所以未来探索和应用开发的大门已经打开。
《数字化转型方略》2022年第12期:http://www.zhiding.cn/dxinsight/2212
好文章,需要你的鼓励
这项由浙江大学与阿里巴巴通义实验室联合开展的研究,通过创新的半在线强化学习方法,显著提升了AI界面助手在多步骤任务中的表现。UI-S1-7B模型在多个基准测试中创造了7B参数规模的新纪录,为GUI自动化代理的发展开辟了新的技术路径。
阿里巴巴联合浙江大学开发的OmniThink框架让AI学会像人类一样慢思考写作。通过信息树和概念池的双重架构,系统能够动态检索信息、持续反思,突破了传统AI写作内容浅薄重复的局限。实验显示该方法在文章质量各维度均显著超越现有最强基线,知识密度提升明显,为长文本生成研究开辟了新方向。
新加坡国立大学研究人员开发出名为AiSee的可穿戴辅助设备,利用Meta的Llama模型帮助视障人士"看见"周围世界。该设备采用耳机形态,配备摄像头作为AI伴侣处理视觉信息。通过集成大语言模型,设备从简单物体识别升级为对话助手,用户可进行追问。设备运行代理AI框架,使用量化技术将Llama模型压缩至10-30亿参数在安卓设备上高效运行,支持离线处理敏感文档,保护用户隐私。
腾讯混元3D 2.0是一个革命性的3D生成系统,能够从单张图片生成高质量的带纹理3D模型。该系统包含形状生成模块Hunyuan3D-DiT和纹理合成模块Hunyuan3D-Paint,采用创新的重要性采样和多视角一致性技术,在多项评估指标上超越现有技术,并提供用户友好的制作平台。作为开源项目,它将大大降低3D内容创作门槛,推动3D技术的普及应用。