百度发了一张2024年AI成绩单,涵盖百度在大模型、智能体、AI应用等领域的多项AI奖项。透过这份AI成绩单,我们或许能通过百度做AI的思路总结出一些布局AI的重点方向,找找明年做AI的机会。
DeepSeek-V3 采用了 671B 参数 MoE 架构,配备约 37B 激活单元,训练使用14.8T Token数据。
当你来到这个世界睁开眼睛的第一刻,没有学会语言的时候,靠的就是你的眼睛。 我们先看到光影、颜色,才逐渐分辨出父母的面孔,屋子的空间,那时没有词汇、没有句子,只有模糊的光影与轮廓。
偏好微调特别适合那些对回答格式、语气或者抽象特质(如友好度、创造力)有较高要求的应用场合。例如,在构建金融咨询聊天机器人时,开发团队不仅希望模型能够提供专业且准确的财务建议,还期望它能保持友好和易于理解的沟通方式。
Azure OpenAI 的提示缓存功能为处理长提示和重复请求提供了一个非常有价值的优化方案。它通过减少计算延迟和成本,显著提高了模型的效率。
由中科软科技股份有限公司举办的年度技术盛会—“2024软件技术大会”于12月13-14日在北京朗丽兹西山花园酒店成功召开。本届大会以“数智软件 提升新质”为题,来自行业企业,软件公司的几百名软件技术爱好者参加了本次盛会。
新发布的Amazon Nova基础模型共包括四大模型:可用于简单任务的超高性价比文字处理Micro模型;三种多模态模型——低成本的Lite模型;兼具准确性、速度和成本的Pro模型;用于复杂的推理任务同时也可进行蒸馏定制的Premier模型。
今年6月上任成为亚马逊云科技首席执行官的Matt Garman,今天首次站上re:Invent的讲台,讲述了计算、存储、数据库、推理、Amazon Q等个多个重要模块中的创新。
AWS正在通过Amazon Bedrock服务向AI应用开发人员提供更多的大型语言模型,同时增强该平台的优化推理工作负载和为他们提供所需数据的能力。
智能体不仅可以像聊天机器人那样回答问题,还能接受人类甚至是其他智能体委托给它们的任务。而且与AI领域的其他成果一样,智能体同样保持着迅猛的发展速度。
智谱AI率先推出了 AutoGLM,试图打造一款能够理解、规划、执行,并最终实现“无人驾驶”操作系统的 AI Agent。
这个模型的最大特色便是深度思维链推理,尤其是在数学、代码以及各种复杂推理任务上,可以生成数万字的推理流程,让用户深度了解模型生成内容的全过程。
本质上,他是不是大模型按照自己的知识库回答,然后先通过一些工程化手段,比如联网搜索,比如文档搜索等等,先把相关信息给找出来,让大模型根据这些信息来进行回答。
大模型的应用落地仍面临诸多挑战。许多企业对大模型充满期待,却对如何将其融入自身业务感到困惑。如何选择合适的模型?如何进行模型训练和部署,最大限度地发挥大模型的价值、实现降本增效?这些问题如同层层迷雾,阻碍着企业拥抱AI的步伐。
OpenAI首席执行官Sam Altman公开确认购买了该域名,没有说收购价格。但肯定比之前1100万美元收购的AI.com(也是跳转到ChatGPT)贵很多。
当前,AI技术已成为媒体新质生产力的核心引擎。从新闻热点聚合、内容策划到创作和分发,再到传播力分析,AIGC赋能媒体业务全流程,显著提升了生产效率。然而,在向AI转型的过程中,媒体也面临着诸多挑战,例如算力需求的满足、专属大模型的打造、相关技能的学习、内容安全机制的制定,等等。
IBM在企业AI领域做出了一系列颇为独特的探索。蓝色巨人目前正在推动全栈技术布局,以自2020年来兴起的AI和混合云作为企业战略领域的两大基础性支柱,同时借鉴了自身在其产品组合中积累下的优势。