数据质量文章列表第1页-至顶网频道

数据质量关键字列表

德州农工大学发现：大模型也会得"脑残症"？训练数据太垃圾竟然让AI变"笨"！

德州农工大学等机构研究团队发现，大型语言模型在接受低质量网络数据训练后会出现类似人类"脑残症"的认知衰退现象。实验显示，垃圾数据训练会导致AI推理能力下降、长文本理解变差、安全性降低，甚至出现"黑暗人格"特征。这种认知损害具有剂量依赖性且难以逆转，为AI数据管理和安全发展提供重要警示。

斯坦福团队发现：AI大模型竟能揪出维基百科3.3%的自相矛盾错误

斯坦福大学研究团队开发了CLAIRE系统，首次系统性检测维基百科内部知识冲突。研究发现至少3.3%的维基百科事实存在矛盾，历史类文章矛盾率高达17.7%。用户测试显示，使用CLAIRE的编辑发现矛盾的效率提升64.7%。该研究创建了首个真实世界矛盾数据集WIKICOLLIDE，为提升知识库质量和AI训练数据可靠性提供了重要工具。

这项研究提出了JQL（发音为"Jackal"），一种通过多语言方法提升大型语言模型预训练数据质量的创新系统。研究团队从拉马尔研究所等机构通过四阶段方法解决了多语言数据筛选的难题：先由人类评估内容教育价值创建基准数据，然后评估大型语言模型作为"评判者"的能力，接着将这些能力提炼到轻量级评估器中，最后应用于大规模数据筛选。实验表明，JQL在35种语言上显著优于现有方法，甚至能泛化到未见过的语言如阿拉伯语和中文，为多语言AI发展提供了高效可靠的数据筛选方案。