随着大数据时代到来,数据这一金矿正以无可限量的价值驱动人们对它的探索。但数据能发挥价值的前提是必须将各种数据进行标准化。很多CIO在整理公司数据时发现各种数据简直是一团乱麻,想标准化但不知道如何去做?
中国重汽cio邢红波认为:“数据标准化是企业信息化建设最根本、最基础的基石性工作,数据的标准化工作要着眼于企业信息系统的整体规划和应用方向和需求,必须做到标准、统一、一致。数据标准化工作做的好,会为后续的BI,大数据分析建模打下良好的基础。但数据标准化工作是个出力不讨好,特别不容易开展的工作,最极端的情况是在数据标准化的过程中会发现企业管理上的诸多黑洞,触及利益关系。”
数据标准化问题有共性也有个性,但必须掌握一个原则。企业数据的标准化,需要像制定企业管理制度一样制定企业数据标准文件,以规范和指导企业开展相关工作,如果没有这个制度上的保障,这项工作非常难开展。另外需要参与此项目的项目人员不但懂IT,还需要有较为丰富的业务经验。”
邢红波以制造型企业为例:制造企业最重要的数据是产品数据(产品明细表),因为企业一切活动都是围绕这个数据主线开展的,其它数据(如设备、HR、财务)都是从这里派生。制造业企业的经营过程从大的流程上来说就是消耗一定的资源,完成从原材料到产成品的制造交付客户,并从中赚取利润。涉及的数据范围:人、财、物和产、供、销。所有的数据核心是编码规则的制定基础。比如汽车行业,作为核心的数据编码,汽车行业除了企业自己制定的标准外,今年还颁布了GB/T 32007-2015《汽车零部件的统一编码与标识》国家标准,另外还有行业标准都可以参考并结合自己企业展开项目实践。
由此可见,任何工具只能起到辅助作用,是外因,企业自己的管理思路才是决定性因素,是内因。
石家庄以岭药业股份有限公司Cio牛小虎的经验是:“以主数据为主线,一点点的进行梳理,但这个工作量比较大。同时,标准和制度必须跟上,单靠工具是不能做好标准化的,工具最后来固化和标准化执行,但梳理工作主要靠企业自身。”
首信企业集团cio兰波的实践经验是:“应科学的做好业务流程固化,保证数据流向的合理性,数据标准化工作就象城市的综合地下管建设一样,效果和收益是永久的,长期的,业务则是融入性的。”
苏州未来电器cio陈桂平指出:“很多企业往往在数据建设中求快,但是很多企业都做不好。现在没有技术瓶颈,主要是管理和流程,系统就是个工具。必须建立数据标准,梳理流程,如果流程上想清楚了,技术不是问题。因此,数据标准化问题归结到底还是管理问题。”
数据标准化需要对企业管理流程梳理吗?
邢红波说:“流程梳理是做好数据标准的基础和保障,没有业务需求和目的的编码是没有任何价值的。其实制造业数据标准化可参考的文件和规范有很多,涵盖企业制定、行业制定、国家标准(GB)和国际标准(ISO),这些标准都有很好的指导意义和参考价值,如果CIO能吃透企业和业务流程和业务内容,结合这些通用的标准来制定自己企业的数据标准会事半功倍。”
但梳理业务流向过程中也会产生数据,标准化的流程数据可以确定标准,但是流程不标准或者管理随意,这样数据标准化很难开展,且没有意义。那么,数据标准化就是要做管理标准化吗?
邢红波说:“一流的企业做标准,二流的企业做品牌,三流的企业做产品,其实质是标准其实就是最佳企业实践的范式。数据标准化的过程本身就是企业管理标准化的子集。”
如果数据标准化的过程就是企业管理标准化的子集,那么,其边界在哪里?
邢红波认为:“这是一个实施方法和路径的问题,企业管理标准化-〉数据标准化,是UP-DOWN模式,数据标准化-〉企业管理标准化,是DOWN-UP模式,应根据企业具体情况进行实施,无论是哪一种,只要符合企业要求,都可以。也就是上述两种模式一个是从实例到范式的实践过程,一个是从范式到实例的实践过程,只要有效果,方法不重要。”
因此,数据标准化如果以信息资源规划的角度去做,应该是从上到下,和从下至上结合实施。如果有边界的困惑,应该还是业务梳理不到位造成的。
邢红波重点指出:“但业务梳理过程碰到的管理流程问题,可能会涉及到一些人的利益,从而阻碍标准本身,这才是CIO面临的最大难点。”
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。