在近三年中最难熬的12月,我们还是想聊一聊AIGC(人工智能创作内容)。
其实在AI发展中有几个节点,都是和C端应用有关,AI被大众所熟知的就是那次AlphaGo在2016年击败了围棋世界冠军、职业九段棋手李世石,当然2017年它又击败了排名世界第一的世界围棋冠军柯洁。
这一次也是因为AI绘画和ChatGPT等应用在大众间的使用,让AIGC成为AI一个新的标志性阶段。
2022年8月,美国科罗拉多州举办艺术博览会,《太空歌剧院》获得数字艺术类别冠军,其是由AI生成,并由设计师花费了近 80 个小时后得到的作品。最近OpenAI发布了一个全新的聊天机器人模型ChatGPT,从发布的示例看到,不管是生成编程代码还是写冷笑话,其表现都让人吃惊。
AIGC能够受到关注,一方面是因为AI之前做的更多的是学习和推理,是分析型或机械式的认知计算,现在的AIGC是AI在创造生成全新的东西。AIGC的发展让AI不仅变得更快、更便宜,而且在某些情况下,其生成的结果比人类手工创造的还要好。
在中国我们叫AIGC,国际市场更常使用 Generative AI(生成式人工智能)。Forrester分析师卢冠男说,其实整个AIGC相关的技术和产品服务一直在发展,今年出现基于Stable Diffusion模型的图片生成工具以及ChatGPT服务后,市场对AIGC关注度显著上升,因为无论是生成的图片质量还是对话内容质量都超越了使用者的预期,从而为AIGC的流行奠定了基础。
Forrester分析师卢冠男
Forrester 在2021年描述了AI 2.0的趋势,AIGC的发展就是AI 2.0 趋势的体现之一。Forrester描述的AI 2.0相比于以往的AI模型应用有三个特点:创造性、通用性、泛化。创新性指企业开始利用人工智能执行生成任务,而不仅仅是预测和分类任务;通用性指在模型训练环节,企业将更多利用通用预训练模型作为起点;泛化指企业将在更多应用场景中,嵌入人工智能的能力。
“最近AIGC的发展,既表现了创造性方面有着出色的表现,也体现了大模型所能覆盖场景的通用性,为企业逐步接纳和利用AI 2.0 的价值奠定了基础。”卢冠男说道。
人工智能的三大核心要素是数据、算力、算法,数据是饲料,算力是基础,算法则是背后的推手,是在数据上运行以创建机器学习模型的过程。
AIGC的发展离不开预训练大模型的不断精进,AI大模型是Foundation Model(基础模型),指通过在大规模宽泛的数据上进行训练后能适应一系列下游任务的模型,可以说AI大模型是人工智能迈向通用智能的里程碑技术。OpenAI在2020年5月发布的GPT-3是一个自回归语言模型,具有1750亿参数,在互联网文本数据上训练得到的这一基础模型,可以使用提示的例子完成各式各样的任务。
AIGC在现阶段正处在快速发展期,还会遇到三方面的挑战。
第一,应用场景:在商业场景探索上,目前还没有特别多的成功案例,如何通过AIGC为企业发挥可量化商业价值,仍需企业与合作伙伴探索。
第二,使用方式:AIGC的服务是以标准化API服务交付给企业使用,还是模型定制开发后才能使用,这仍处于不确定的状态。如果需要进一步定制,则需引入模型开发团队,潜在增加了使用该服务的复杂度,同时商业计费方式也还没有形成行业标准。
第三,合规:AIGC服务所生成的内容自身是否涉及版权冲突,这一潜在风险目前没有得到定论。企业在使用过程中需要思考如何规避这一风险。
现阶段比较成型的生成结果有:代码生成、文本生成、图片生成。这对于软件开发,市场内容营销,以及设计创新场景都具备应用的可能性。卢冠男看来,除了在职能部门场景,在客户体验创新方面也会得到应用,比如Lensa AI提供的人像生成服务,以及腾讯的图片生成服务“异次元的我”,这些都是在探索新的客户体验和服务形态。
AIGC虽然能够快速生成内容,但是AI是否能够真正理解绘画的含义,从而能够根据这些含义进行推力并决策,仍是未知数。比如输入“骑着科学家的马”等一些不符合常理的内容时,AI就难以准确生成对应的图像,这也是因为模型还有很多不可控因素。
在生成工具类型中,卢冠男建议企业可以考虑图灵机器人(TuringBot)类产品。Forrester 将图灵机器人定义为一种AI驱动的软件,可以帮助应用程序开发团队以自动和自主的方式设计、构建、更改、测试和重构软件代码和应用程序,比如 GitHub Copilot。这类工具有潜力赋能企业的软件开发团队,帮助企业加速产品的开发、提高代码准确性和部署速度。
尽管AIGC现在还并不完美,但这并不妨碍我们使用AIGC成为效率工具,从事辅助生产的工作。就像《太空歌剧院》经历了900多次修改才问世是一个道理,所以未来探索和应用开发的大门已经打开。
《数字化转型方略》2022年第12期:http://www.zhiding.cn/dxinsight/2212
好文章,需要你的鼓励
本文评测了六款控制台平铺终端复用器工具。GNU Screen作为老牌工具功能强大但操作复杂,Tmux更现代化但学习曲线陡峭,Byobu为前两者提供友好界面,Zellij用Rust编写界面简洁易用,DVTM追求极简主义,Twin提供类似TurboVision的文本界面环境。每款工具都有各自特点和适用场景。
纽约大学研究团队通过INT-ACT测试套件全面评估了当前先进的视觉-语言-动作机器人模型,发现了一个普遍存在的"意图-行动差距"问题:机器人能够正确理解任务和识别物体,但在实际动作执行时频频失败。研究还揭示了端到端训练会损害原有语言理解能力,以及多模态挑战下的推理脆弱性,为未来机器人技术发展提供了重要指导。
网络安全公司Snyk宣布收购瑞士人工智能安全研究公司Invariant Labs,收购金额未公开。Invariant Labs从苏黎世联邦理工学院分拆成立,专注于帮助开发者构建安全可靠的AI代理工具和框架。该公司提供Explorer运行时观察仪表板、Gateway轻量级代理、Guardrails策略引擎等产品,并在工具中毒和模型上下文协议漏洞等新兴AI威胁防护方面处于领先地位。此次收购将推进Snyk保护下一代AI原生应用的使命。
北卡罗来纳大学教堂山分校研究团队提出MEXA框架,通过动态选择和聚合多个专业AI模型来处理复杂的多模态推理任务。该方法无需额外训练,在视频理解、音频分析、3D场景理解和医学诊断等多个基准测试中显著超越现有模型,为AI系统设计提供了新思路。