大数据项目产品选型的五个建议

作者：Elastic工程师与布道师曾勇（Medcl）

数据如今对企业来说可谓是头等大事。使用欺诈检测来降低财务风险或是建设推荐系统来改善用户体验，都需要数据来为企业解决这些日益复杂的问题提供支撑。

ZD至顶网CIO与应用频道 02月14日北京消息：数据如今对企业来说可谓是头等大事。使用欺诈检测来降低财务风险或是建设推荐系统来改善用户体验，都需要数据来为企业解决这些日益复杂的问题提供支撑。

既然数据已成为企业的重要元素，那我们这几年在数据这个领域都学到了什么？市面上有多种不同的软件模式，包括私有专属软件、云端SAAS软件和开源软件，因此，现在开展大数据分析项目时，开发者、架构师及数据科学家要在众多软件中进行选型，某些软件可能需要昂贵的前期投资或需要投入庞大资源，当然也有一些工具恰到好处，既容易部署又为构建原型(prototype)提供了广泛的支持。

寻找合适的工具对提高项目成功率及避免落入常见陷阱至关重要。以下为在大数据分析项目中进行产品选型的五个建议：

从简单的小规模起步

企业构建数据分析项目常见的最大错误往往是贪大求全。特别是如果项目是从上往下推，执行团队很有可能会被要求构建一套既没有明确成效却又十分复杂的解决方案，造成项目成本高昂且工期很长。

企业不如从规模较小的项目起步，让决策者很快可以看到成效，提升他们对同类项目的信心。利用现代化开源技术，企业不但不用作大量的前期投资，更可以让开发者迅速投入工作，在几天或几周内就能构建出所需的应用程序或是原型。

及早考虑可扩展性

即使只是构建一个框架，也应尽早测试其可扩展性。很多项目之所以失败，全因应用程序在构建时并没有测试其扩展性，也可能是因为其所选技术并不是为处理大数据而设计的。

确保性能测试不是事后的事。先预计在这段时间内将会产生多少数据，并进行测试和评估，构建合适的架构，同时确保当数据量增加并需要横向扩展时，也不会影响业务。

数据的实时性很重要

我们都经历过应用程序或网站没反应或是缓慢的那种痛苦，时至今日，任何不能实时响应的事情我们都不能接受。如果有一个请求没有被及时处理，用户可能很快就会因缺乏耐性而离开该网站或程序，从而导致客户流失及营收下降。

企业要确保所用的软件不但能处理大量数据，还要有能力实时响应这些请求。建议使用具备聚和与地理位置分析功能且能与实时搜索相结合的数据分析软件。

采用灵活的数据模式

现今的系统主要包括结构化和非结构化数据。但不要被那些为结构化图表及数据而设计的关系型数据库所限制。这类数据库很难被加上索引，解析、搜索及分析这些日积月累的大量数据往往很难。

企业应采用具备通用数据结构的软件。很多用于数据分析的软件包括NoSQL数据库及Elasticsearch等均采用JSON作为数据格式，支持文字、数字、字符串、布尔值、数组和哈希等结构化和非结构化数据类型。

挑选开发者易于使用的工具

现今数据流量之多让企业或开发者在应对大数据分析项目时，很难去使用不包含开放API接口的软件。 API接口被用作数据录入、索引及数据分析，这些数据一般来自不同的数据源或是业务系统本身的数据。

企业应提供给开发者一套拥有丰富、开放及资料完整的应用程序API接口，让他们更快速有效地解决问题。久而久之，当项目壮大时，开发者亦能不断创新及改进这套应用程序。

总结

基于以上五点为大数据分析项目挑选最适合的工具，将有助改善项目的价值时间，并确保企业已为长远的成功作好准备。很多如华为、联想、BBC、高盛集团、英国卫报等大企业均已采用这方式，挑选如Elastic Stack这样的开源软件来解决其关键项目。只要方法正确，企业所需的数据分析其实可以很迅速、简单及划算。

来源：业界供稿

0赞

好文章，需要你的鼓励

大数据项目产品选型的五个建议

来源：业界供稿

2017

02/14

10:26

分享

点赞

未来预测：从AI到AGI路径上的大规模智能爆发

木制数据中心会成为科技基础设施的下一个重大创新吗？

企业须采用技能导向策略融合人机协作团队

Songscription推出AI驱动"乐谱版Shazam"

凌云创想的AI创新加速计划

甲骨文签约神秘客户 2028年云收入将翻倍

Meta CFO 苏珊·李：从19岁华尔街分析师到Fortune 100最年轻CFO，17年见证扎克伯格的领导力变化与AI转型

模型训练越来越不需要人类了！清华等提出RLPR，让AI通过语言直觉训练

瞄准AGI等四大前沿领域，蚂蚁集团2025“蚂蚁InTech奖”提名启动

红帽OpenShift Lightspeed正式发布，生成式AI助力混合云生产力提升

让创新创造被更多看见，2025Inclusion·外滩大会创新者舞台全球征集正式启动！

安富利：30载深耕中国市场，长期主义构筑可持续发展护城河

Databricks 开源声明式 ETL 框架，实现流程构建加速90%

NASA 摒弃 Neo4j 数据库 转而采用 Memgraph 节省成本

Acceldata 现已具备跨维度检测数据异常的能力

Ocient 募资 4210 万美元 开启高效能运营数据与 AI 工作负载解决方案

SAP业绩超预期：关税未扰业务进程

CIO们必须关注自身数据信任缺口

跨联科技完成大规模数据迁移项目，推出全新分析和安全服务

混合能源系统能否解决数据中心的供电难题？

文化与云计算相结合：Regeneron 的数据驱动之路

Confluent 云业务增长强劲，股价飙升

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

生成式AI催生新物种，SaaS CRM掀起下半场变革战

调查问卷

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

NASA 摒弃 Neo4j 数据库转而采用 Memgraph 节省成本

Ocient 募资 4210 万美元开启高效能运营数据与 AI 工作负载解决方案