科学研究 关键字列表
复旦大学团队推出SciAgentGym:AI科学助手的"超级训练场",让机器学会像科学家一样使用复杂工具

复旦大学团队推出SciAgentGym:AI科学助手的"超级训练场",让机器学会像科学家一样使用复杂工具

复旦大学团队开发了SciAgentGym,这是首个专门训练科学AI助手的综合环境,包含1780个科学工具和完整的评估体系。研究发现当前最先进的AI模型在复杂科学任务中存在明显短板,长期任务成功率仅30.9%。团队提出的SciForge训练方法让80亿参数的模型超越了2350亿参数的大模型,证明了专门训练比模型规模更重要,为AI参与科学研究开辟了新道路。

Meta联手牛津,AI研究助手真的可以独立做科学研究了吗?

Meta联手牛津,AI研究助手真的可以独立做科学研究了吗?

Meta联合牛津大学等机构开发了AIRS-Bench,这是首个全面评估AI独立科研能力的基准测试系统。该系统包含20个真实科研任务,测试AI能否像人类科学家一样完成从问题理解到实验设计再到结果分析的完整研究流程。结果显示,顶尖AI在4个任务上超越了人类专家,但大多数任务仍未达到人类水平,揭示了AI科研助手的巨大潜力与现实挑战。

清华大学团队让AI学会"自己想点子":首个能发现新算法的智能研究助手诞生

清华大学团队让AI学会"自己想点子":首个能发现新算法的智能研究助手诞生

清华大学团队开发的AlphaResearch是首个能够自主发现新算法的AI研究助手。它结合了学术论文评审数据训练的想法评估器和程序执行验证机制,在八个数学难题中的两个问题上超越了人类专家保持多年的最佳记录,特别是在圆形装箱问题上达到了目前已知最优水平。这标志着AI从问题解决者向问题发现者的转变,可能彻底改变科学研究方式。

耶鲁大学团队开发AI科学助手:能否替代人类专家设计实验?

耶鲁大学团队开发AI科学助手:能否替代人类专家设计实验?

耶鲁大学团队开发了全球首个AI科学实验设计评估系统ABGEN,测试了18个先进AI模型设计消融实验的能力。研究发现最好的AI系统得分4.11分,仍低于人类专家的4.80分,但在人机协作模式下表现显著改善。研究还发现现有自动评估系统可靠性不足,建立了元评估基准ABGEN-EVAL。这项研究为AI在科学研究中的应用提供了重要评估框架。