这是一个“读图时代”,消费者在发布和转发图像信息时,并不总是直接提及品牌和产品的名字。醒目的Logo和产品造型更易于识别,且助于消除纯文本易产生的歧义。同时,图像中还经常对消费场景进行了有意无意的展现,如包含了消费场所、消费情景、与其他产品关联消费等信息,且与本文相比,制造图像“水军”的成本无疑更高。因此,图像已经成为了企业信息传播、品牌曝光、情感表达等互联网营销最重要的形式。
尽管图像在互联网传播中更具优势,但由于机器的逻辑特性与技术局限,既有互联网信息的监测和分析更多停留在文本层面,而包含图片和视频在内的海量图像数据则未被较好挖掘与应用。随着计算机视觉的发展,图像分类(Image Classification)与物体定位(Object Localization)等技术不断成熟,由两种技术结合的物体检测功能(Object Detection)势必将逐渐应用于互联网图像监测与分析的众多领域。
(通过图像检测识别出图片和视频中赞助品牌的产品和Logo图像)
国双深度视觉监测系统GDVD(Gridsum Deep Vision Dissector)因此孕育而生。GDVD基于目前最主流的、效果最好的Faster R-CNN物体检测算法,利用深层Resnet对图像进行更好的特征提取,同时修改网络结构使得对于小目标检测也有很高的准确率 。而国双基于大数据的人工智能引擎国双先知(Gridsum Prophet)则为GDVD的实现提供了图像识别、物体监测、深度学习等全面的AI能力。不仅如此,单纯拼技术和算法早已不能满足现实需求,将视觉监测系统应用于数字营销领域,为企业带来效益才是GDVD作用于商业领域的价值。简单来说,国双深度视觉监测系统首先采集全网图片,然后通过对图像进行标注,经过深度神经网络学习得到识别模型,让机器进行自动判别,找到互联网中所有提及某一品牌、产品和企业的相关数据,并与国双多年来积累的技术、产品与服务优势相结合,实现图像监测与后续数据分析功能,从而帮助企业提升营销效果。
(国双深度视觉监测系统GDVD原理简图)
让全网舆情监测更全面
作为AI的子领域,自然语言处理的发展进一步优化了文本分析,针对文本的舆情监测和数据挖掘水平不断提升。而AI的另一子领域,图像识别技术将帮助舆情监测补齐图像传播这一板块。通过监测视觉元素露出的时长、频率、位置、渠道等指标,在传播的广度和深度上进行趋势把握,并追踪由此带来的衍生话题。更为重要的是,图像监测可结合文本监测进行进一步挖掘与分析,“两手抓,两手都要硬”,真正做到全网舆情监测。
让广告效果评估更精准
近几年,选择赞助节目和品牌植入的企业越来越多,传统的人力监播将是明日黄花,不仅监测效率低下、成本较高,而且维度也非常单一,数据价值也得不到深挖。但视觉监测系统则可以实时监测直播视频中品牌Logo及产品的露出,识别素材露出形式的差异,弥补既有品牌植入效果评估的不足。
系统同样可以作用于展示类广告,对广告素材的大小、位置等多种创意元素进行自动识别后,再结合监测到的广告曝光和点击数据,从而更精准地对广告效果进行评估。
让品牌传播推广更安全
广告营销效果的基础是对品牌价值的正确传播,但随着各种新型的广告形式层出不穷,媒体环境也愈发不可预料。最近一段时间,各种媒体上频繁出现的一些页面、视频内容与广告品牌价值不一致,甚至与大众取向相悖的事件,给广告主带来了很恶劣的影响,也让品牌安全成为广告界十分关注的话题。
而国双在自主开发的全场景营销监测系统AD中,即有专门针对品牌安全监测分析的功能基于爬虫及自然语言分析技术,并搭载深度视觉监测系统提供的图像监测能力,对广告投放的环境进行全方位监控。基于系统,可以将广告所在页面的文本,图片进行还原分析,从内容语义、图像主体、相关性及协调性方面进行综合评估,为品牌传播的安全保驾护航。
让市场营销决策更智能
互联网的去中心化模糊了传统中心和节点的边界,让KOL和粉丝的连接方式更加开放、扁平、平等,因而催生了众多KOL和粉丝经济。企业的营销策略则要进行相应地调整,将KOL、粉丝、品牌/产品这三者更紧密地连接起来。
一方面,视觉监测系统可以通过图像识别找到包括明星或大V在内的众多KOL发布的包含品牌的图片,让企业快速准确地找到线索,通过转发、评论、蹭热点、合作等多种形式抓住更多消费者。另一方面,系统通过监测消费者分享的品牌和产品的视觉内容,锁定忠实粉丝,进行人群画像以及lookalike处理,进行精准投放。而分析消费者的购买场景,则能帮助企业挖掘隐藏在图像里的潜在商业机会和消费意愿,加深对消费者的理解,做出更智能的决策。
国双早在成立之初就看到分布式运算的潜势,公司其名(Gridsum)就是分布式计算(Grid)与分析(Sum)的结合。近年人工智能技术不断演化,对于产业所产生的变革,不断颠覆你我想象。作为中国领先的云计算企业级大数据分析和人工智能解决方案提供商,我们已经并将继续致力于帮助企业和政府客户以新颖有效的方式使用数据,提高生产力。
好文章,需要你的鼓励
这项由加州大学圣地亚哥分校和微软研究院合作开发的REAL框架,通过程序分析反馈训练大型语言模型生成高质量代码。与传统方法不同,REAL采用强化学习将代码安全性和可维护性作为奖励信号,不依赖人工标注或特定规则。研究在多个数据集上的实验表明,REAL在保证功能正确性的同时显著提高了代码质量,有效解决了"即兴编程"中的安全漏洞和维护性问题,为AI辅助编程提供了新的范式。
加州大学伯克利分校与Meta FAIR研究团队开发了"Self-Challenging"框架,让大语言模型通过自己创建和解决任务来提升能力。该方法引入创新的"Code-as-Task"格式,包含指令、验证函数、示例解决方案和失败案例,确保生成的任务既可行又有挑战性。在工具计算、网页浏览、零售服务和航班预订四种环境测试中,仅使用自生成训练数据,Llama-3.1-8B模型性能提升了两倍多,证明AI可以通过自我挑战实现有效学习,减少对人类标注的依赖。
南洋理工大学与SenseTime Research合作提出了PoseFuse3D-KI,一种创新的人体中心关键帧插值框架。该方法将3D人体模型信息融入扩散过程,解决了现有技术在处理复杂人体动作时产生扭曲结果的问题。研究团队开发了专门的SMPL-X编码器直接从3D空间提取几何信息,并设计了融合网络将3D线索与2D姿态无缝整合。他们还构建了CHKI-Video数据集,包含2,614个视频片段及完整的人体标注。实验结果显示,PoseFuse3D-KI在PSNR上提升9%,LPIPS减少38%,显著超越现有方法。
这项研究提出了LongGuide算法,解决了大型语言模型在长文本生成任务中的局限性。研究团队发现,仅依靠上下文学习无法使模型充分掌握文本的语言和格式特性。LongGuide通过自动生成两种指导原则:度量指导原则和输出约束指导原则,显著提升了模型性能。在七种长文本生成任务中,该方法使开源和闭源模型的ROUGE-L评分平均提高约6%。LongGuide具有通用性强、易于学习、成本效益高等优点,为提升AI长文本生成能力提供了新方向。