扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
纽约时报于今年详细检查了其重要的数字档案,并使用亚马逊Web服务创建、存储,而且为对于过期刊物感兴趣的订阅者提供数十亿小图标,时间跨度从1851年到1980年。
该公司在2008年使用AWS存储第一次发布档案,称之为TimesMachine(时光机),但是新的时光机已经于上月发布,纽约时报搜索、档案以及语义总监Evan Sandhaus指出,这是一项更为复杂的业务。
最初的时光机使用预览图像链接到更大的图像页面,读者可以看到文章标题,但是没有正文。这些放大的图像链接到PDF文件,包含了文章的可阅读版本。
“通过新的时光机,我们也面临了新的挑战,我们如何才能够制造一种单一的体验,然读者可以有一种阅读报纸的感觉,但是也允许你阅读单独的文章,”Sandhaus说道。
为了下载完整的星期日版本的报纸,要求客户端有很大的带宽,类似于300MB,这一点对于大多数用户的机器而言负载过重。
Sandhaus说:“很多个iTunes的专辑的数据显示读者对于其感兴趣的具体文章都有这个问题。”
相反,Sandhaus和其团队从地理信息系统(GIS)绘图行业得到了启示,这个行业也面临着类似的问题,即提供大型地图的详细视图。
GIS社区通过影像分块解决了这个问题。新的时光机将9000 x 7000像素的图像分解成256 x 256像素的块,通过多种不同的缩放层级进行计算。前段,使用一种名为Leaflet的开源GIS软件抓取图像块,也正好满足了抱着读者感兴趣的部分。
“我们一开始250万图像进行,这也就是新的时光机中有多少个页面,”Sandhaus说,“在旧版本的时光机中,每一个页面,我们要计算两个图像,一个缩小版本和一个放大版本,但是在新的时光机中,我们为每一个页面计算上千个图像。”
这意味着纽约时报的AWS存储需要从五百万的对象转到接近25亿的对象,通过亚马逊弹性MapReduce服务计算,存储在其简单存储服务(S3)对象存储中。
旧版本的时光机中,报纸的团队必须设立Hadoop环境来自己执行MapReduce工作,那时候弹性MapReduce还不存在。
现在,“因为大量的基础架构开箱即用,所以简化了很多,”Sandhaus说道,“你只需要提供指针,具体之上你的工作,就能自动化降低你必须在配置正确的服务器上所花费的时间。”
尽管计算数量级更多的图像文件,MapReduce采用了四百个c1.xlarge弹性计算云机器,这些都与以往截然不同,但是仅仅用了三天就完成了。
这个项目自重完成了46592份纽约时报的数字档案,涉及了报纸的全部图像扫描页面,而且可以不离开Web页面进行阅读。
报纸使用这个档案来环绕其目前的新闻故事内容,比如1964年的世界博览会50周年庆典,福特野马的五十周年庆典介绍。1964年的福特野马的全版面的广告现在都可以清晰阅读。
总的来说,AWS最新的服务明显改善了这个团队创建新时光机的体验,但是Sandhaus还有一个期望:能够将大量文件作为单一文件上传,比如压缩文件。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者