大数据项目产品选型的五个建议

作者：Elastic工程师与布道师曾勇（Medcl）

数据如今对企业来说可谓是头等大事。使用欺诈检测来降低财务风险或是建设推荐系统来改善用户体验，都需要数据来为企业解决这些日益复杂的问题提供支撑。

ZD至顶网CIO与应用频道 02月14日北京消息：数据如今对企业来说可谓是头等大事。使用欺诈检测来降低财务风险或是建设推荐系统来改善用户体验，都需要数据来为企业解决这些日益复杂的问题提供支撑。

既然数据已成为企业的重要元素，那我们这几年在数据这个领域都学到了什么？市面上有多种不同的软件模式，包括私有专属软件、云端SAAS软件和开源软件，因此，现在开展大数据分析项目时，开发者、架构师及数据科学家要在众多软件中进行选型，某些软件可能需要昂贵的前期投资或需要投入庞大资源，当然也有一些工具恰到好处，既容易部署又为构建原型(prototype)提供了广泛的支持。

寻找合适的工具对提高项目成功率及避免落入常见陷阱至关重要。以下为在大数据分析项目中进行产品选型的五个建议：

从简单的小规模起步

企业构建数据分析项目常见的最大错误往往是贪大求全。特别是如果项目是从上往下推，执行团队很有可能会被要求构建一套既没有明确成效却又十分复杂的解决方案，造成项目成本高昂且工期很长。

企业不如从规模较小的项目起步，让决策者很快可以看到成效，提升他们对同类项目的信心。利用现代化开源技术，企业不但不用作大量的前期投资，更可以让开发者迅速投入工作，在几天或几周内就能构建出所需的应用程序或是原型。

及早考虑可扩展性

即使只是构建一个框架，也应尽早测试其可扩展性。很多项目之所以失败，全因应用程序在构建时并没有测试其扩展性，也可能是因为其所选技术并不是为处理大数据而设计的。

确保性能测试不是事后的事。先预计在这段时间内将会产生多少数据，并进行测试和评估，构建合适的架构，同时确保当数据量增加并需要横向扩展时，也不会影响业务。

数据的实时性很重要

我们都经历过应用程序或网站没反应或是缓慢的那种痛苦，时至今日，任何不能实时响应的事情我们都不能接受。如果有一个请求没有被及时处理，用户可能很快就会因缺乏耐性而离开该网站或程序，从而导致客户流失及营收下降。

企业要确保所用的软件不但能处理大量数据，还要有能力实时响应这些请求。建议使用具备聚和与地理位置分析功能且能与实时搜索相结合的数据分析软件。

采用灵活的数据模式

现今的系统主要包括结构化和非结构化数据。但不要被那些为结构化图表及数据而设计的关系型数据库所限制。这类数据库很难被加上索引，解析、搜索及分析这些日积月累的大量数据往往很难。

企业应采用具备通用数据结构的软件。很多用于数据分析的软件包括NoSQL数据库及Elasticsearch等均采用JSON作为数据格式，支持文字、数字、字符串、布尔值、数组和哈希等结构化和非结构化数据类型。

挑选开发者易于使用的工具

现今数据流量之多让企业或开发者在应对大数据分析项目时，很难去使用不包含开放API接口的软件。 API接口被用作数据录入、索引及数据分析，这些数据一般来自不同的数据源或是业务系统本身的数据。

企业应提供给开发者一套拥有丰富、开放及资料完整的应用程序API接口，让他们更快速有效地解决问题。久而久之，当项目壮大时，开发者亦能不断创新及改进这套应用程序。

总结

基于以上五点为大数据分析项目挑选最适合的工具，将有助改善项目的价值时间，并确保企业已为长远的成功作好准备。很多如华为、联想、BBC、高盛集团、英国卫报等大企业均已采用这方式，挑选如Elastic Stack这样的开源软件来解决其关键项目。只要方法正确，企业所需的数据分析其实可以很迅速、简单及划算。

来源：业界供稿

0赞

好文章，需要你的鼓励

大数据项目产品选型的五个建议

来源：业界供稿

2017

02/14

10:26

分享

点赞

CarPlay 新增两款音频应用，让你的旅途更精彩

Insta360 GO 3S复古套装：怀旧美学与4K影像的融合

谷歌免费存储空间调整：未绑定手机号仅享5GB

美国三大运营商携手卫星技术，向信号盲区宣战

Flytrex无人机携手达美乐，可一次性送达两个大号披萨

欧洲最大3D打印公寓楼提前数月竣工

彼亚乔携手迪士尼推出Grogu主题自主跟随货运机器人

Okta将AI智能体安全管理扩展至Amazon Bedrock并向第三方身份提供商开放

苹果13英寸iPad Pro Magic键盘键盘亚马逊历史低价，直降25%

WhatsApp iOS版Liquid Glass界面设计正式向更多用户推送

OpenAI为ChatGPT Pro推出个人财务管理新功能

赛格威全新Xaber 300电动越野摩托车正式开售，最高时速达96公里

Spark创始人Matei Zaharia凭借大数据开源贡献荣获ACM计算奖

Databricks 开源声明式 ETL 框架，实现流程构建加速90%

NASA 摒弃 Neo4j 数据库 转而采用 Memgraph 节省成本

Acceldata 现已具备跨维度检测数据异常的能力

Ocient 募资 4210 万美元 开启高效能运营数据与 AI 工作负载解决方案

SAP业绩超预期：关税未扰业务进程

CIO们必须关注自身数据信任缺口

跨联科技完成大规模数据迁移项目，推出全新分析和安全服务

混合能源系统能否解决数据中心的供电难题？

文化与云计算相结合：Regeneron 的数据驱动之路

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

调查问卷

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

NASA 摒弃 Neo4j 数据库转而采用 Memgraph 节省成本

Ocient 募资 4210 万美元开启高效能运营数据与 AI 工作负载解决方案