德州农工大学等机构研究团队发现,大型语言模型在接受低质量网络数据训练后会出现类似人类"脑残症"的认知衰退现象。实验显示,垃圾数据训练会导致AI推理能力下降、长文本理解变差、安全性降低,甚至出现"黑暗人格"特征。这种认知损害具有剂量依赖性且难以逆转,为AI数据管理和安全发展提供重要警示。
斯坦福大学研究团队开发了CLAIRE系统,首次系统性检测维基百科内部知识冲突。研究发现至少3.3%的维基百科事实存在矛盾,历史类文章矛盾率高达17.7%。用户测试显示,使用CLAIRE的编辑发现矛盾的效率提升64.7%。该研究创建了首个真实世界矛盾数据集WIKICOLLIDE,为提升知识库质量和AI训练数据可靠性提供了重要工具。
这项研究提出了JQL(发音为"Jackal"),一种通过多语言方法提升大型语言模型预训练数据质量的创新系统。研究团队从拉马尔研究所等机构通过四阶段方法解决了多语言数据筛选的难题:先由人类评估内容教育价值创建基准数据,然后评估大型语言模型作为"评判者"的能力,接着将这些能力提炼到轻量级评估器中,最后应用于大规模数据筛选。实验表明,JQL在35种语言上显著优于现有方法,甚至能泛化到未见过的语言如阿拉伯语和中文,为多语言AI发展提供了高效可靠的数据筛选方案。
在大模型领域英语一直是训练数据最重要的语言,但由于中英文的结构和文化差异,直接将英文数据集翻译成中文并不理想。所以,为了填补高质量中文数据集的空白,研究人员开发出了COIG-CQIA数据集。
全球20强生物制药企业中,去年新药开发的平均成本上涨了15%(增长数字为2.98亿美元),总额来到约23亿美元。这23亿美元,涵盖了从候选药物发现、临床试验再到产品上市的全流程平均成本。