AI一方面在媒体领域持续取得关注,另一方面ChatGPT和谷歌Bard大模型等特定AI及机器学习技术,也开始在政府应用场景下展露出潜在价值。
美国能源部邦纳维尔电力管理局CIO Benjamin Berry:
分享了技术如何帮助该部门推进工作见解。邦纳维尔电力管理局负责在太平洋西北部提供电力基础设施,是美国电力体系中的重要组成部分。因此,他们的一大核心关注重点,就是帮助系统保持有效性和运行效率,同时更好地应对新近出现、针对发电和输电基础设施的网络安全及物理威胁。Berry解释称,该机构的大部分工作都集中在业务现代化领域,包括从原有遗留系统转向云、内部部署及混合系统。
美国劳工部首席信息官办公室CIO兼运营副助理部长Gundeep Awhluwalia:
分享了对该机构无序扩张问题的管理经验,以及该机构内各类职能角色的分析见解。他解释说,劳工部在全美拥有650多处分支机构,资源分配各不相同。各机构间的连接点在技术实施和应用方面,也因此面临着重大挑战。
因此,Awhluwalia正在数字化和现代化方面做出重大尝试。他还解释说,劳工部已经部署了更先进的技术,包括在各类系统中使用AI和机器学习成果。Awhluwalia在会上分享了一项具体举措,即利用AI技术对职业安全与健康管理局(OSHA)进行自动编码。目前,超过97%的上报数据已经可由AI系统进行自动编码,将更多员工从这项低价值工作中解放出来、专注处理其他高价值任务。他还进一步提到,他们正努力在各个层面提高数据质量,投入时间与其他组织一道开发最佳实践。
美国人事管理办公室(OPM)首席信息官办公室CIO Guy Cavallo:
就OPM的先进技术应用方式和位置分享了更多见解。OPM制定了新的战略数据规划和IT战略计划,取代了2014年发布但未能真正实施的上一轮计划。OPM还公布了智能体策略、数据策略,并将很快发布以云为中心的IT策略。Cavallo介绍称,该部门开设了24/7全天候服务台,不仅能帮助远程办公人员,也可支持华盛顿特区之外的人群。OPM还利用AI和自然语言处理(NLP)协助他们处理相关任务,包括在某些层面使用由AI生成的内容。今年4月在华盛顿召开的GovFuture论坛中,使用AI生成内容支持政务成为热点议题。Cavallo表示,美国退伍军人事务部(VA)的AI聊天机器人将呼叫中心的工作量减少了4%,并希望能在OPM达成同样的效果。目前,OPM在招聘AI人才方面苦于给不出确切的岗位描述,而这部分内容似乎可以交给AI负责整理和生成。
美国国家运输安全委员会(NTSB)常务委员办公室CIO Michael Anthony:
谈到该机构的需求与技术应用。在推动NTSB脱离交通部、形成独立机构的过程中,他们在遵循交通部指导意见的同时也建立了自己的策略。NTSB专注于零信任和身份管理,且刚刚开始推动上云。在本届GITEC大会上,Anthony表示无法过多讨论NTSB目前的AI使用情况,只是列举了一些潜在用例。NTSB正努力解决人力资本的问题,专注于使用数据以改进“客户体验”。
美国商务部美国人口普查局副CIO Gregg 'Skip' Bailey博士:
与听众分享了他对技术应用的看法,包括AI和自然语言处理的高级用例。Bailey博士谈到,除了十年一次的全国人口普查,他们还管理着其他130项大规模调查。因此,人口普查局将考虑使用数据湖、云和AI技术来提供更强大的自然语言处理和分析能力。Bailey博士指出,他们目前正在构建企业级数据湖,希望解决组织内数据间相互孤立的问题。目前,该局还在使用自然语言处理进行数据分析,希望利用聊天系统保证数据的权威性和真实性。他希望确保数据爬虫所获取的人口普查数据“原始且真实”。Bailey博士同时强调,记录管理这个问题是另外一个重要的长期关注点。
IT现代化、AI、大数据分析、网络与零信任、云迁移,这些仍然是美国联邦政府高度关注的热门议题。通过持续对话,美国政府得以向其他机构学习、采纳最佳实践,在高效完成任务的同时节约纳税人上缴的财政预算。
好文章,需要你的鼓励
来自香港科技大学和MiniMax的研究团队开发了SynLogic,一个可合成35种逻辑推理任务的框架与数据集,填补了AI逻辑训练资源缺口。研究表明,在SynLogic上进行强化学习训练显著提升了模型逻辑推理能力,32B模型在BBEH测试中超越了DeepSeek-R1-Distill模型6个百分点。更值得注意的是,将SynLogic与数学和编程数据混合训练不仅提高了这些领域的学习效率,还增强了模型的泛化能力,表明逻辑推理是构建通用AI推理能力的重要基础。
这项研究揭示了大型语言模型的惊人能力:只需两个特殊训练的向量,冻结的语言模型就能在一次计算中生成数百个准确词汇,而非传统的逐词生成。研究者发现,这种能力要求特定的输入排列方式,且生成速度比自回归方法快约279倍。这一发现不仅展示了语言模型未被充分探索的并行生成潜力,还为快速文本重建开辟了新方向。
腾讯混元团队提出的"ConciseR"是一种通过两阶段强化学习实现大模型简洁推理的新方法。研究遵循"先走后跑"原则,先确保模型具备准确推理能力,再优化输出简洁性。第一阶段通过改进的群体相对策略优化(GRPO++)提升推理能力,第二阶段通过长度感知的群体相对策略优化(L-GRPO)减少输出长度。实验结果显示,该方法在AIME、MATH-500等多个基准测试中既减少了输出长度(平均20%以上),又保持或提高了准确率,展现出高效率-高准确率的理想平衡。
这项由香港科技大学团队开展的研究首次全面评估了压缩对大语言模型Agent能力的影响。研究发现,虽然4位量化能较好地保留工作流生成和工具使用能力(仅下降1%-3%),但在实际应用中性能下降达10%-15%。团队提出的ACBench基准测试横跨工具使用、工作流生成、长文本理解和实际应用四大能力,评估了不同压缩方法对15种模型的影响。结果显示,AWQ量化效果最佳,蒸馏模型在Agent任务上表现不佳,大型模型对压缩更具韧性。研究还提出ERank等创新分析方法,为实际部署提供了切实指导。