当前,许多企业机构都在全力推进生成式人工智能(GenAI)解决方案的设计和实施,希望提升解决方案的通用性和创造性,进而推动业务价值。2023年Gartner企业人工智能(AI)调研揭示了GenAI用例的三种最主要的实现方法,74%的受访者通过对现有GenAI模型进行定制化调整来满足自身用例的需求,65%的受访者尝试自行训练定制GenAI模型。
然而,实施GenAI绝非易事。对于创造性和通用性的追求,往往会增加GenAI解决方案的复杂性、不确定性和生成非预期结果的可能性,而这也成为了GenAI企业采用面临的主要问题。GenAI解决方案的创造性和通用性越强,出现非预期行为和输出(如幻觉、有害内容超出应用范围的内容等)的可能性越高(见图1)。
图1:在创造性与通用性之间取得平衡
选择基于GenAI模型自行构建GenAI解决方案的企业机构,其负责AI工作的数据和分析(D&A)领导者应利用开源护栏、商业护栏和自建护栏这三种护栏工具来控制GenAI模型的输入和输出,验证并矫正GenAI模型的输入和输出,提高模型的可靠性。
评估并优化GenAI解决方案的创造性和通用性
GenAI模型可兼具创造性和通用性。企业机构通常需要在广泛的场景中使用GenAI解决方案,而这些场景对于解决方案创造性和通用性的需求各不相同。因此,必须根据部署目的和具体场景下的功能需求,确定GenAI解决方案的定位,并根据在创造性和通用性两个方面的具体需求,利用护栏工具建立控制策略和机制。
负责AI工作的D&A领导者应基于GenAI解决方案的使用场景和方式,确定相应的业务风险容忍度,具体取决于:
而后,应根据业务风险容忍度,利用护栏工具管理模型输入和输出,建立严格或宽松的控制机制,并最终在创造性和通用性之间取得最佳平衡。
利用模型护栏验证和矫正模型的输入和输出
使用护栏工具,是管理GenAI模型创造性和通用性的一个切实可行的方法。护栏(在GenAI模型和应用与最终用户之间建立防护层)可以监控和管理模型的全部流量,包括用户输入和模型/应用输出(见图2)。
图2:护栏部署在用户与GenAI模型之间
以下是两种典型护栏:
需要注意的是,护栏并非“灵丹妙药”,不能完全解决GenAI解决方案的行为和准确性问题。GenAI解决方案必须在准确性与企业机构的风险承受能力之间取得平衡。
此外,伴随GenAI的快速发展,护栏技术也在不断变化和改进。鉴于神经网络的不可预测性,护栏技术目前是验证和矫正GenAI模型输出的一种切实可行的方法。长期来看,在基础GenAI模型变得足够可靠和可信之前,护栏提供了一种过渡解决方案,可以帮助企业机构推动GenAI采用。
好文章,需要你的鼓励
韩国科学技术院研究团队提出"分叉-合并解码"方法,无需额外训练即可改善音视频大语言模型的多模态理解能力。通过先独立处理音频和视频(分叉阶段),再融合结果(合并阶段),该方法有效缓解了模型过度依赖单一模态的问题,在AVQA、MUSIC-AVQA和AVHBench三个基准测试中均取得显著性能提升,特别是在需要平衡音视频理解的任务上表现突出。
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。