扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
来源:IT专家网 2009年1月21日
关键字: SOA
2004年秋,公司的首席信息官Kevin Vasconi与另外几位高层主管在位于美国汽车行业中心的底特律总部开董事会。
这是一次讨论公司现状的会议,旨在探讨Polk的战略方向,达成的共识是:信
息系统无法支持公司到下一个十年。
系统陈旧 跟不上新态势
这家总部设在密歇根州南菲尔德的公司的核心业务是数据聚合。Polk从260处来源汇总车辆登记和销售数据,包括美国和加拿大的机动车辆部门、保险公司、汽车生产商及贷款机构。然后公司对数据重新包装,销售给经销商、生产商和营销公司——比如哪款SUV在某个地区最畅销。
多年来,Polk的数据合并流程在IBM大型机上运行。Vasconi在2003年加盟公司时,有些软件已用了20年之久。“这些代码比有些员工在公司呆的时间还要长。”他说。
大型机系统本身没有出问题。但整个流程围绕大型机的批处理操作而设计:多个计算任务先排序后处理,以便尽量充分利用大型机的资源。Vasconi希望新技术能加快为客户提供数据的速度——一收到数据就进行处理,而不是每天或者每周集中批处理;还可以使手工处理的任务实现自动化,从而降低公司成本。
他还担心,旧系统跟不上数据迅猛增加的态势。因为公司数据库里面的数据已经超过1.5拍字节(1拍字节=1015字节);而历史趋势表明,将来增长速度会更快。“我们知道遇到了容量问题。发挥数据的价值将是公司面临的挑战。”他说。
同时,客户一直在急于摆脱限制,希望更快地获得销售数据。全国汽车经销商协会(NADA)是代表19700家汽车和卡车经销商的一家组织,首席经济学家Paul C. Taylor表示,通常在汽车生产商发布全国销售数据30天后,客户才能获得Polk的各州车辆登记数据。这样一来,新泽西州的经销商就无法立即比较本地区和全国的购车趋势,以便相应调查库存量。
Taylor说:“理想情况下,你一旦有了全国销售数字,就可以分析各州销售情况。Polk如果将周期缩短哪怕一周,那也是巨大的改进。”
实际上,Polk之前曾两次试图从大型机迁离出去,但这些项目最后还是回到了起点。公司主管们后来采用了不同的方法,启动了代号为ReFuel的项目。2004年底,Polk设立了新公司RLPTechnologies,构建下一个数据聚合系统。
Polk预计ReFuel项目能节省费用。实际上Polk旗下向公司客户销售数据的部门——Polk Global Automotive部门的部门总裁Joe Walker和Vasconi后来证实:该项目帮助公司把数据操作管理成本削减了近一半。
从零做起
Vasconi为新建的分公司组建了10人核心小组(这些人多半是Polk的信息技术员工)后,他的第一项任务是弄清楚新系统将是什么样子。
公司有三大目标,简称“50/50/100”,意思是:新系统把效率提高50%(换句话说,把运营成本削减一半)、数据提供速度加快50%;数据准确性力求达到100%。
新系统名为“数据工厂”(Data Factory),执行与IBM大型机同样的三项任务:先是获取数据,从260处来源汇总数据;然后把数据转换成标准格式,并使用统一的结构和命名,以便存储下来的得克萨斯州报告上去的车辆识别号码能够被Polk的其他应用所读取。最后,系统需要通过与其他数据库进行相互参照来提高数据准确性——比方说,核实消费者的姓名和地址,或者把某辆车与贷款历史联系起来。
Vasconi明白系统要有面向服务的架构(SOA),以便不同系统里面的软件组件能够以一种标准方式进行联系。因为新系统需要这种灵活性,可以自由地添加或者更新组件,又不干扰整个系统。SOA的扩展性也有望胜过整体式架构(这意味着它能够处理负载逐步加大的任务),因为较大的任务更容易细分成多个子任务。另外,他希望使用网格计算,从而利用多台机器来处理同一项任务,而不是使用功能强大的独立服务器。
他说:“我们需要构建能用30年的系统。”
RLPTechnologies的小组勾划了新系统的功能部分,然后确定哪些部分是市场上可以买到的商业软件产品、哪些部分需要自己内部开发。Vasconi说:“如果我们能找到可以买来的技术,就希望买现成的,以便加快我们开发的东西进入市场。”
Polk的“数据工厂”的硬件模块包括:采用英特尔处理器的戴尔服务器,运行Linux操作系统使用两路及四路处理器的服务器配置成不同网格来处理不同应用;一个网格运行Oracle10g数据库;第二个网格运行JBoss的应用服务器,负责托管自定义的Java代码;第三个网格运行Tibco Software公司的BusinessWorks消息总线软件,充当系统其他部分之间的通信代理;Tibco软件提供了该系统的SOA骨干部分。
“数据工厂”采用了其他现成软件包。来自Informatica公司的软件把进来的数据变成了可扩展标记语言(XML)文档,从而把数据处理成通用格式。使用DataFlux(隶属商业智能厂商SAS)的软件分析数据质量,以便能够发现可能的错误,进而调查分析。
2008-04-15 20:25:21
RLPTechnologies自行开发了其他所需软件。Vasconi估计系统大约50%的部分运行在自定义的Java代码上——这个比例低于他原先预计的数字。他说:“SOA
架构让我们能够上市场找到推崇SOA方法及支持性行业标准的公司。”
小组需要自行编写的主要功能与“服务编制”有关。服务编制软件分析进来的XML文档后,确定需要采取什么措施;比方说,地址中的ZIP代码是否需要在后面加上额外的ZIP+4数字?然后,编制软件把来自文档的数据相关部分提交给相应系统,通过Tibco消息总线来处理这项任务。RLPTechnologies还自行开发了数据访问层,汇总所有的更新信息后,插入到Oracle数据库的存储库里面。
公司在2005年12月开始分阶段部署“数据工厂”,5月初完成了部署项目。其正式名称是“企业信息工厂”(Enterprise Information Factory);Vasconi期望它能成为利润中心:RLPTechnologies打算最终把数据处理服务出售给其他公司。
如今这个系统共由约50台服务器组成,每周处理600万个XML文档。项目从启动到部署大约花了18个月时间。
不过在公司迁离大型机之前,Vasconi及其小组进行了一系列最后测试,确保新系统得到的结果与旧系统的一模一样。他说:“我们必须花大量时间来核实数据,确保直到数据库里面每一行数据的各方面都一样。”
实地试验
据Vasconi声称,新系统达到了公司的预定目标——降低维护成本。
首先,软硬件的初始购置成本比购买相当的IBM大型机处理功能低了40%。另外,公司支付给戴尔、Tibco、Oracle、Informatica和DataFlux等厂商的日常维护费用将低于之前付给IBM的费用。
对Polk来说节省幅度更大的一方面是:“数据工厂”让公司得以把数据操作部门的人员减少了42%,从56人减少至32人。人员的减少主要得益于流程的许多手动步骤实现了自动化。Walker说:“我们消除了大量的手工操作。”
Vasconi把新系统比作使用机器人来装配部件的生产装配线。现在工人坐在玻璃监控室,只有出了问题,才需要过去干预。而以前在大型机系统上,工厂车间需要工人去摁动控制杆和按钮;有些业务流程“更是支离破碎”,比方说,管理员不得不先检查从各个州汇总而来的车辆登记数据,之后才发送到系统中。
另外,有了新系统,公司就能在流程的早期阶段及早发现数据处理错误,减少了重新运行整个数据处理任务的几率。比如某个州的汽车销售额低得异常,这可能表明出了错误。而在批处理大型机环境下,“你无法在流程当中停止批处理去检查质量,”Vasconi解释,“要是出了问题,只好从头运行一遍,找出在涉及50个步骤的流程当中哪个环节出现了数据异常。”
这种高效率还使公司把将原始数据处理成给客户使用的产品所需的时间缩短了50%以上。虽然他还不知道这次改进总体上平均提高了多少效率,但以前,数据有时候要搁好几天,以便能归入到批处理任务中。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。