虽然2023年被称为是大模型元年,但全球科技界普遍认为,今天对于未来的想象力,依然是保守的。
从Chat GPT的出现到百模大战,只用了不到半年时间,生成式AI已经成为一个不得不打,还要打出成绩的战役。
经过一年的沉淀,通用大模型的能力正在逐渐增强,大模型厂商也在将这些能力逐渐下沉,希望真正应用到实际场景产生价值。
行业中也出现了一些产业标准和评测指标,12月22日,国内首个官方“大模型标准符合性评测” 《人工智能大规模预训练模型第2部分:评测指标与方法》结果公布,百度文心一言、腾讯混元大模型、360智脑、阿里云通义千问四款国产大模型首批通过测试。
测试由工信部中国电子技术标准化研究院发起,评测围绕多领域多维度模型评测框架与指标体系,从大模型的通用性、智能性、安全性等维度开展,涵盖语言、语音、视觉等多模态领域。
评测指标与方法的出台,一方面可以评估大模型的能力,一方面可以减少大模型诸如幻觉带来的安全问题、伦理问题。
我们常说的大模型幻觉,就是“胡说八道”。具体是指模型生成的内容与现实世界事实或用户输入不一致的现象。
大模型幻觉问题在于可能会导致误信和误用,特别是在用户未能意识到模型输出的不可靠性时。因此,理解和识别大模型幻觉的存在,对于任何依赖或使用这些技术的人来说都至关重要。
这要求从技术层面持续改进模型的准确性,减少错误和偏差的发生。让我们可以更安全、更有效地利用大模型的强大能力,同时避免或减轻由幻觉带来的负面影响。
最近,来自哈尔滨工业大学和华为的研究团队发表了一篇长达50页的综述,综述给出了一套新的范畴框架来定义模型幻觉,并将其分为事实性幻觉、忠实性幻觉两大类,其中也列出了少不业内比较有代表性减轻幻觉的方法。
本期《数字化转型方略》将探讨大模型的指标和幻觉问题,因为大模型不能只是刷榜,企业可以通过哪些关键指标来做判断是未来应用的关键,还有就是需要持续性关注的大模型的幻觉问题,推动AI向更可靠、更安全的方向发展。
《数字化转型方略》2023年第12期:http://www.zhiding.cn/dxinsight/2312
好文章,需要你的鼓励
Canva宣布收购生成式AI内容创作初创公司Leonardo.ai,交易条款未披露,但采用现金加股票的混合方式。Leonardo.ai的120名员工将全部加入Canva。Leonardo.ai成立于2022年,拥有1900万注册用户,其工具已创建超过10亿张图像。该公司将继续独立运营,专注于快速创新和研发。此次收购旨在帮助Canva扩展其Magic Studio生成式AI套件功能。
希伯来大学研究团队开发的Story2Board系统实现了从文字故事到专业故事板的自动转换突破。该系统采用潜在面板锚定和相互注意力数值混合两项核心技术,在保持角色一致性的同时实现丰富的视觉表现力。系统无需训练即可运行,能够生成电影级构图效果的连续画面,为内容创作、教育和娱乐产业提供了强大的AI辅助工具,代表了人机协作创作的新模式。
亚马逊推出Quick Suite软件平台,旨在简化AI智能体和企业聊天机器人的创建过程。该平台支持50个企业级应用集成,包括Office 365、Slack等,提供无代码环境连接内部文档和数据源。平台包含Quick Flows自动化工具、Quick Research研究功能等组件。尽管降低了技术门槛,但AI智能体的准确性仍存疑虑,研究显示其办公任务错误率达70%。
北京邮电大学联合腾讯团队开发的We-Math 2.0系统,通过构建491个知识点的数学知识体系、创新的三维难度建模和渐进式强化学习框架,让AI模型获得了真正的数学推理能力。该系统仅用9800个高质量样本就达到了与大规模数据训练相当的性能,在多个基准测试中表现优异,为AI数学教育应用开辟了新道路。