大数据以其巨大的力量进行量化和分析,如今其应用风靡一时。但是,作家和企业家马丁·林德斯特罗姆说,人们可能高估大数据的作用。“大数据是关于过去的分析。”他说,对于我们的社会上在原来的基础上预测未来发展趋势,这是“安全和公认的”。但是这可能不会产生最准确的信息。
与之相反,林德斯特罗姆表示,他是“小数据”的信徒。他在新书中指出小数据对于那些具有“创造性和保存的本能”的企业家是一个方法,这是他们最宝贵的资产。而采用这种方法,他引用了媒体大亨罗伯特·默多克作为一个例子。
林德斯特罗姆说,“默多克曾经一天读了50份或100份报纸,直到他可以真正地了解读者的意图,并打电话给他的编辑说,‘我不喜欢这样的标题,因为我认为读者一定会不喜欢它。’默多克基本上是正确的,正是其运用了自己所有的本能,这使得他的公司独一无二的,因为如果你通过一个俗套的格式,在同一台机器输入相同的数据到,并让相同的人加以分析,你会得到相同的结果。而小数据就是本能,扭曲你的观念,并帮助你从不同的角度看世界。”
林德斯特罗姆姆的方法是一种实践的人类学研究,他到受访者的家中访问,收集他们的态度、信息行为和欲望,以有他们可能没有意识到或没有表达的信息。在多次采访之后,他说,“你就会开始看到一个模式,哪些适合这种模式,哪些不适合这种模式。这是非常明显的。”
他每次家访,在经过主人的许可后,拍摄多达300张照片,并一丝不苟地审查他们装饰的选择,布局和更多的线索。几年来,他访问了无数的家庭,这使他建立了他所描述的一种直觉,“随着时间的推移,你可能不会在那一瞬间看到。
比如,他会通过人们房间摆放的物体来“感知”,也就是说,他们招待客人的房间。“如果某人在房间里有一个巨大的书架,那么他在小时候可能没有受到很好的教育,他通过感觉想弥补这种缺憾。”他说。“我们的生活就是一种平衡,如果感觉失衡就会重新找回平衡。如果你有很多古老的的东西,你可能想表明你是丰富复杂的;如果你有一个大串的钥匙挂在你的裤子,很可能在你孩提时候,从来没有真正的控制权,你想弥补这一切。这并不完全准确,但往往是它是一种直觉,这是你随着时间的推移清楚的表达。为什么我觉得那个人是这样的?这有什么共同点?“
林德斯特罗姆的小数据的方法可能看起来并没有像大数据那么“科学”。但他表示,在这个过程中,客户为其提供了一种有效的感觉。他说,“我不能指望通过对这些企业的首席执行官采访,使其改变他们对企业和市场的整个看法。”
但他并没有要求客户简单地接受他对信仰的分析。相反,他说,思想混合是动手开发的一个假设,通过实践,基于研究的小数据的方法,然后用大数据定量验证它。例如,他发现,冰箱贴的数量与主人的情感有着密切的关系,这几乎是一个隐喻的愿望,希望在以往照片上“冻结时间”。
林德斯特罗姆说,“我现在能做什么,而不是问别人这样的问题,你是如何独立成长的?你有多少朋友?我可以说,‘你怎么将冰箱贴放在冰箱上?’,你你怎么看待你的鞋子?你可以把那些看似不重要的观察细节与大数据结合起来”,就会产生客户想要和需要的不同寻常的见解。
例如,林德斯特罗通过向岳母学习整理衣柜的习惯到如何设计一个早餐麦片的包装。通过汽车为中心的文化来了解北卡罗莱纳州农村和城市郊区文化相互隔离的的情况。
任何企业家可以从小数据中受益,林德斯特罗姆表示开始注意这一切。而越来越多的人低着头,眼睛紧盯着他们的智能手机,我们错过了我们周围的世界的关键信息。“随着时间的推移,这让我更加细心,更加善于观察,因为别人已经变得不那么敏锐,”他说。“我喜欢走相反的路。”
好文章,需要你的鼓励
谷歌发布新的AI学术搜索工具Scholar Labs,旨在回答详细研究问题。该工具使用AI识别查询中的主要话题和关系,目前仅对部分登录用户开放。与传统学术搜索不同,Scholar Labs不依赖引用次数或期刊影响因子等传统指标来筛选研究质量,而是通过分析文档全文、发表位置、作者信息及引用频次来排序。科学界对这种忽略传统质量评估方式的新方法持谨慎态度,认为研究者仍需保持对文献质量的最终判断权。
Meta公司FAIR实验室与UCLA合作开发了名为HoneyBee的超大规模视觉推理数据集,包含250万训练样本。研究揭示了构建高质量AI视觉推理训练数据的系统方法,发现数据质量比数量更重要,最佳数据源比最差数据源性能提升11.4%。关键创新包括"图片说明书"技术和文字-图片混合训练法,分别提升3.3%和7.5%准确率。HoneyBee训练的AI在多项测试中显著超越同规模模型,同时降低73%推理成本。
Meta发布第三代SAM(分割一切模型)系列AI模型,专注于视觉智能而非语言处理。该模型擅长物体检测,能够精确识别图像和视频中的特定对象。SAM 3在海量图像视频数据集上训练,可通过点击或文本描述准确标识目标物体。Meta将其应用于Instagram编辑工具和Facebook市场功能改进。在野生动物保护方面,SAM 3与保护组织合作分析超万台摄像头捕获的动物视频,成功识别百余种物种,为生态研究提供重要技术支持。
上海AI实验室团队提出ViCO训练策略,让多模态大语言模型能够根据图像语义复杂度智能分配计算资源。通过两阶段训练和视觉路由器,该方法在压缩50%视觉词汇的同时保持99.6%性能,推理速度提升近一倍,为AI效率优化提供了新思路。