《企业大数据系统构建实战:技术、架构、实施与应用》一3.2 如何选择解决方案

简介:

本节书摘来自华章出版社《企业大数据系统构建实战:技术、架构、实施与应用》一书中的第3章,第3.2节,作者吕兆星 郑传峰 宋天龙 杨晓鹏,更多章节内容可以访问云栖社区“华章计算机”公众号查看

3.2 如何选择解决方案

企业选择大数据解决方案时,需要综合企业外部环境、企业内部环境、需求规划、解决方案特性和解决方案费用评估分析五个方面。

3.2.1 外部环境分析

1.行业情况
企业对于行业情况的分析,侧重于全面掌握未来几年或十几年的发展预期,大数据解决方案对企业决策会产生重要的影响,其对行业情况的分析主要包括:
业务增长规模。不同的业务规模对大数据解决方案的要求也有差异。比如,每日200万销售额跟每日2亿销售额完全是两个级别,后者则对大数据解决方案的整体架构、实时计算、批量查询、在线联机分析等能力要求较高。
预期业务布局。业务布局导致的行业特性变化会影响大数据方案的组建,尤其对应到顶端应用层会增加对特定垂直行业的经验要求。对大数据解决方案提供商而言,专注于特定行业意味着具有聚焦的技术和业务能力,也更利于为特定业务做出辅助决策或形成驱动效应。
市场角色地位。企业自身的市场地位不同,对应到大数据层面的市场战略分析、竞品分析的需求和关注点也不一样,这就对大数据解决方案提出了更高的战略性支持需求。
客户分析。企业的目标客户由自身的经营方向决定,目标客户可能包括B端(B2B,企业对企业)、C端(B2C,企业对个人消费者)、G端(B2G,企业对政府)及其他模式组合。不同的客户群体有各自特殊的分析方法和建模应用方案,这对大数据挖掘、计算和应用层面提出了更有侧重性的要求。
业务模式分析。不同的业务模式会产生不同的数据,并对数据的生产、加工、计算和分析产生不同的影响。比如,同样是To C的业务模式,淘宝、百度、腾讯完全是三种不同类型的业务,淘宝侧重于围绕交易形成个人生态圈,百度侧重于建立个人信息的重组,而腾讯则连接了个人的社交以及围绕社交的生活。这些模式要求解决方案具备特定的采集、分析、挖掘、计算和应用支持。
2.竞争对手
在企业选择大数据解决方案时,往往存在一种选择“惯性”——看看竞争对手在用什么,尤其是对行业领头羊以及跟自身相近的竞争对手这两类对象的选择更具参考价值。为什么企业会非常重视竞争对手的解决方案选型?有以下四个方面的原因:
规避风险的需要。很多大企业在做方案选型时的一个重要出发点是最大限度地降低项目失败的风险,而竞争对手的选择会说明其他企业也有类似的案例,尤其是案例企业具有代表性,那么则意味着大家都比较认可该解决方案。
经验不足的参照。虽然在大数据实践方面有各自的差异点,但同一行业中的不同公司在业务上是相似的。企业对于自身大数据的差异点与大数据解决方案的匹配可能无法做出正确判断,但基于业务的相似性,企业可以借助于竞品选择来帮助自身做出快速且相对正确的判断。
增加方案的说服力。很多第三方服务商在做销售推介时,一定都会有一部分是关于销售和应用案例的。这些信息在企业进行内部提案时,是一个非常有效的增加方案说服力并推进落地进程的要素。
可供学习的模式。在某些情况下,如果行业内很多企业都选择同一个服务商,那么该服务商的产品或服务模式会基于该行业形成垂直型解决方案,这些解决方案其实是对行业经验的总结和共享。这有利于企业迅速了解该行业有关数据和业务的通用经验,提高自身大数据项目的实践能力和价值产出。

3.2.2 内部环境分析

1.业务现状
企业内部进行业务现状分析的主要目的是了解现有业务对数据工作的认知、保障和约束,然后作为数据选型的基本出发点。
数据工作文化
数据工作文化是企业文化的一种,不同工作文化下,企业员工对于数据的价值认知、分析水平、数据结果理解和数据应用会产生不同影响。数据工作文化良好的企业由于在大数据工作方面已然形成工作机制,并且具备较高的数据工作技能,因此能借助成熟的解决方案提高大数据价值产出,即使是面对复杂的大数据解决方案也能有效加以使用;反之,大数据价值很难通过企业的工作文化融合到业务运营中,数据价值很难显现。数据解决方案的应用流程、应用场景、规范性要求、多部门配合机制、界面友好性、功能使用习惯、工具和文档语言限制等需要与当前工作文化相匹配。
团队组织架构
我们在第2章中已经介绍了企业大数据工作的相关组织架构和职能体系。大数据工作的不同环节需要具备特定技能的人才来实现。如果企业缺少特定的角色和组织保障,那么在选型中就需要注意这种缺失与方案落地实施的要求是否冲突。
数据工作能力
大数据工作不仅仅是技术部门和数据部门的事情,而且需要企业所有部门公同参与。不同部门的数据工作能力(例如数据理解、数据提取、数据应用、数据分析等)会影响大数据解决方案的选择。通常,功能强大的大数据产品会提供较多的预置功能,另外也会提供灵活的自定义配置和部署能力,这些对于没有太多数据工作能力的人员来讲是一个非常大的挑战。因此,工具能否被有效利用,需要综合考虑现阶段人员的基本数据技能,以及掌握预选方案需要技能的上手时间和难易程度,同时还要考虑服务提供商是否有完善的培训、指导、应用和售后体系。
2.数据现状
数据现状是对企业环境内可接触到数据基本情况的调查分析,包括数据源环境、数据结构类型、数据量级、数据质量、数据成长。
数据源环境
对现有数据源环境的正确认知是大数据整合应用的基础。数据环境的分析包括数据源的业务基础分为几个模块、各个业务模块和数据模块间的相互关系、数据存放的位置以及数据库(或数据文件)基本约束、不同数据库表和数据流转的元数据规范以及数据字典等。其中对选型影响最大的是源数据系统、异构复杂程度、同步更新信息、数据关联项等,这会影响方案对数据源抽取、集成及后面所有的应用流程。
数据结构类型
大多数企业的数据都是以结构化的形式进行存储,而在很多业务环境中也可能存在大量的非结构化和半结构化数据,例如机器日志、报批文件、办公文件等。而某些情况下,业务数据既可能存储在结构化数据库中,也可能以半结构化甚至结构化的文件存储。对于这些信息的了解利于在选型时有针对性地考察大数据解决方案在特定方面的处理和计算能力,例如如果企业有语音数据,那么后期可能需要大数据解决方案能够实现语音文件抽取、存储、解析,以及针对解析后内容的语义分析和挖掘等。
数据量级
不同的数量级下,对应到解决方案工具本身的抽取、存储、处理和计算的能力要求也是不同的。同时,由于数据实时性的要求,在海量数据(例如PB、ZB、EB等)下,对大数据平台实时计算的要求更高。因此,在选择解决方案时,需要重点考虑工具对于海量数据在单位时间内的抽取、计算、建模、输出的能力以及实时性,并且考察当数据规模上来之后对系统压力、冗余性、安全性、并发性、响应性等的影响。
在企业数据量级的评估过程中,要综合所有可用的数据源。企业内部数据包括三类:常见的数据源都是业务类数据,包含业务运营的各个方面,例如采购、生产、库存、调配、物流、分销、营销、促销、客服等;除了业务数据外,企业的职能数据是企业内部运转的记载,包括人事、行政、检查、管理、计划、评审等职能线的数据;最后一类是来自于IT本身的日志记录,这是对IT机房环境、宽带网络、设备软硬件等机器运行数据(例如性能、应用、事件、错误等)的综合记载。综合这三类数据才能构成企业内部的完整数据。但是,企业不只有内部数据,还会通过多种途径与上下游产业链、渠道商、合作商等进行数据交换、整合和交易等,这些也是需要进入到企业数据量级的考虑范畴内。
数据质量
数据质量本身影响的不仅是在选择数据解决方案后的工作,更在选择方案之前就会对方案提出一定要求。在不同的数据质量下,对数据的加工、转换和处理要求是不同的。比如,对数据关联项明确、完整性高、同步及时、准确率高等的数据,由于数据质量高对大数据工具的数据质量校验和处理要求会降低;但如果数据质量较低,那么会针对数据质量的各个方面形成较高的要求,比如,对数据完整性、一致性、及时性、准确性等方面的数据校验规则、数据质量度检查、数据异常处理、数据血缘分析、数据异动影响、数据关联分析等具有较高要求。
数据成长
随着企业的发展壮大,数据也在不断成长。在评估解决方案时需要有针对性地评估数据伴随业务增长带来的预期因素,尤其是数据量、数据种类、增长速度、数据计算需求、数据整合等方面。这些对解决方案的要求主要体现在产品的性能和功能扩展时的软硬件低成本、简易部署和运维、功能可定制开发、系统和组件的解耦、数据迁移成本等。
3.制度要求
制度要求指的是企业对于所有运营工作的统一制度和规范。很多大型企业、国有企业、上市公司、外资公司等在这方面的表现明显,甚至能成为大数据方案选型的决定性因素。制度要求在数据方面的约束包括数据安全、主导权问题、数据所有权问题等。
数据安全
数据安全是企业开展大数据工作的基本前提。企业对于数据安全的要求会在数据存储环境、整合方法、关键字段加密、数据流通、人员工作环境等环节形成一定约束。比如,对很多传统银行来讲,关键数据不能流出数据中心是制度性要求,这在客观上要求数据方案要支持本地化或混合云的部署。再如,很多企业对关键字段的保密性要求非常高,并且即使在企业内部也会根据数据的安全性进行分区存储、处理和接入,这就要求整体解决方案中必须具备定制加密、分区隔离、流转控制等方面的能力。
主导权问题
企业大数据项目的牵头部门不同,那么在协调全部资源进行需求调研、项目规划、开发实施到最终交付的整个过程中都会有所偏重。比如,如果是业务部门(或偏业务类的部门)主导和推进,那么会更重视上层建模、分析、应用和落地的场景、模型等应用输出价值点;而如果是IT部门(或偏技术类部门)负责主导和推进,则对架构完整性、扩展灵活性、运维低成本、技术先进性、组件解耦性、系统兼容性等方面更重视。两种不同类型的业务体系在推进过程中的重视会影响最终方案的选择倾向。因此,如果是企业级的大数据项目,在负责总体调控的核心小组中,应该通过对核心领导小组成员的组织结构、利益构成、知识组织、技能要求、经验模式、行业配比等有效控制来降低这种偏向性选择风险。
数据所有权
与数据所有权问题相关的解决方案模式是云服务方案模式。在第三方云服务模式下,数据采集、跟踪和存储都是在云端进行的。此时,云端的所有数据是否可以完全被企业所有,并且保存到企业内部是很多重视数据所有权的企业关心的问题。这一问题不仅关系到数据安全,更关系到企业未来数据资产。因此,如果企业对数据所有权非常重视,那么必须要选择本地化或可以将云端数据完全同步到本地的解决方案。
云端数据同步到本地,常用的方法包括API、文件下载等,这些方式可能存在请求或下载次数的限制,且不太适用于海量数据尤其是大文件类传输,海量原始数据更多地会采用FTP的方式将数据文件传送到指定服务器上。但对于海量数据而言,这种方式受制于发送端服务器、接收端服务器、网络宽带等的稳定性、传输效率的影响,经常会由于传输中断、网络不稳定、服务器权限、发送服务问题等出现数据残缺、损坏、不完全等问题。除了这些问题,海量原始数据以及处理后数据的传输实时性也是企业的关注点,很多云服务提供商可以通过一定的方式对原始数据进行实时同步,但对于处理后的数据同步则会存在一定的延迟,这种延迟根据处理的复杂度和数据量级可能延迟到以“天”为单位的时间。

3.2.3 需求规划分析

评价一个整体解决方案是否合适,在成本规模的制约下往往更侧重于与需求的匹配度,而非功能的全面性。根据企业发展阶段以及数据工作文化的不同,企业的数据需求和规划会存在很大差异,但总体上包括企业转型需求、业务应用需求和技术工作需求三类。
1.企业转型需求
在企业发展的不同阶段,尤其是增长面临困境时,企业可能面临着转型的需求,转型过程中可能涉及数字化运营、个性化服务、流程模式重构、组织结构重组等内容,此时需要大数据在各个方面发挥辅助决策甚至应用驱动作用,是否具备针对这些内容的聚焦点和解决方法,是考察大数据解决方案的侧重点。
2.业务应用需求
在数据应用端,应用大数据的对象包括企业自身、企业的目标客户、企业的合作伙伴甚至整个行业。企业需要根据自身情况通过调研总结得出具体需求,并考察解决方案的满足或偏差程度。如下是一些常见的业务性应用需求:
方案支持多少标签以及打标签的方法;
如何将已有的其他工具的数据计算或挖掘直接或迁移应用到现有平台;
方案具有哪些客户生命周期模型并如何对客户流失进行分析;
如何通过社会化媒体提取客户声量、口碑和满意度;
如何通过灵活的自定义配置新增或减少特定数据的跟踪采集,而减少对技术的依赖;
方案提供多少种数据挖掘模型;
方案支持哪些数据挖掘或机器学习库,是否支持第三方开源工具如R、Python等的算法库;
是否允许对特定维度定义灵活的预警规则并监控触发,是否可以将该过程自动化;
是否支持非代码类的数据工作流?例如拖拽式工作方法;
方案中有哪些可应用到营销领域的分析和挖掘模型,都能得到哪些结论;
如何通过方案和工具来规范数据工作流程,并逐步建立数据工作文化;
方案是否可以基于文本字符串进行查询检索,例如在搜索框中输入“昨日有哪些业务线销售额异常变化”能直接得到对应的业务线名称、销售额以及变化量等。
3.技术工作需求
在技术端,企业关心的问题既包括整体方案和架构等宏观的部分,又包括具体技术和开发细节的微观部分。如下是一些常见的大数据解决方案的技术型需求:
如何对多个数据源进行统一标记和采集,形成具备可整合和分析价值的高质量数据;
如何实现多异构、复杂数据源的数据拉通和整合;
如何实现全景数据的共享及分发;
如何对多地、不同公司主体间的元数据进行统一管理;
如何基于现有系统进行改造和升级,尤其是低成本、低风险、快速、安全的改造策略和方法;
如何通过统一的平台针对不同业务部门提供个性化、可定制的数据分析、应用功能,并减少产品冗余和降低二次开发成本;
如何兼顾技术平台的效率、性能、安全、成本、易用性;
针对常见的大数据工作,例如实时处理、交互性分析、数据挖掘、机器学习、离线批处理、海量数据SQL查询、数据可视化、商业智能、推荐引擎等,方案中的数据分析需求通过什么技术来实现,各自的优化点和增强点有哪些;
如何通过云服务实现针对企业在不同国家、地域、体系来提供多租户、高可用、虚拟化、模块化、通用流程的灵活服务;
通过何种服务可对外提供数据管道、海量数据集成服务和数据输出服务等。

3.2.4 解决方案特性分析

1.产品特性
对于大数据解决方案中的产品特征,重点考察产品层面的能力和特性,包括弹性付费、弹性配置、方便扩展、方便管理、简单易用、灵活控制、功能丰富、海量数据支持、简易实施、数据安全、可迁移性、运维成本等。
弹性付费。弹性付费是针对具有弹性IT需求的一种灵活的付费方式,弹性付费不仅可以提高大数据投入成本的利用效率,更能减少对财务支出成本的压力。
弹性配置。弹性配置是与弹性付费相关的特性,更多的是云服务的配置方式,支持弹性配置的工具更能满足企业不断变更的需求。
方便扩展。产品扩展包括整体服务器和集群扩展、服务器的硬件配置扩展、软件环境功能升级以及组件和服务、应用场景的扩展等。
方便管理。大数据平台需要能将数据系统、业务系统关联起来,形成对数据、功能、流程、应用的全面管理;同时通过监控报表对数据主体以及应用数据的对象的行为进行监控。
简单易用。由于企业内会有具备不同技能层次的用户参与产品应用,产品如果具备较好的易用性特征,则能更容易被所有人使用,也更利于数据价值的产出。
灵活控制。面对复杂的数据需求,产品需要能根据不同场景提供定制化应用能力,包括资源配置、数据管控、界面组织、功能配置、环境限制等。
功能丰富。对于一款工具而言,其功能越丰富代表可通过工具获得的业务洞察越多。
海量数据支持。大数据的特征之一就是数据量大,工具对海量数据(数据规模)的支持程度,尤其是处理效率、结果、性能等是重要关注点。
简易实施。在所有技术相关的解决方案中,IT部署实施是一项非常耗费人力的事情。如果解决方案中的技术产品能具备一键部署、管理、转移等功能,将大幅度降低实施成本。
数据安全。本书已经多次强调了数据安全的重要性,工具对于数据安全的支持是企业考虑方案采购的重要维度。
可迁移性。很多优秀的大数据解决方案在提供强大功能特性的同时,也使得企业一旦使用了这些功能后便会被其绑架而不得不继续使用,后期在迁移时会导致数据无法导出、结构无法识别、格式不兼容等问题,因此可迁移性涉及后期系统升级换代和替换需求。
运维成本。对于完全本地化的大数据工具,其本身的软硬件更新、扩展,服务授权,功能变更,危机故障处理等方面的成本也需要考虑。
2.功能特性
功能特性是指大数据解决方案在技术方面的功能特征,包括基本部署、数据导入、数据存储、数据计算、机器学习、可视化、应用支撑、云服务、数据安全、运维管理等。
基本部署。支持基于X86的集群方式,支持通过私有云、混合云等方式提供大数据服务。
数据导入。支持SQOOP、Goldengate、Canal、Java-API等技术实现抽取过程,支持文件、结构化数据、JSON、流式数据等数据类型的抽取。
数据存储。支持结构化数据、非结构化数据的存储,支持HBase、Hlve、MongoDB、Redis、关系型数据库和图形数据库等,并可提供PB级以上应用服务的数据仓库。
数据计算。支持离线计算,例如MapReduce、HiveSQL、ImpalaSQL、SparkSQL、RHadoop、RSpark、UDF(Hive UDF、Impala UDF)以及实时计算Spark或Storm等。
机器学习。支持监督式学习、非监督式学习、增强学习的各种算法,在实现组件或算法库上支持Mahout、R、Python、MLlib等开源机器学习工具及其中核心算法库的集成。
可视化。提供丰富的可视化图表,除了常规图表外还包括玫瑰图、桑基图、热力图、树图、网络图、平行坐标图等;支持对开源组件的集成,如Echart、Hchart、D3等;另外,可提供针对商用可视化工具例如Tableau的支持,同时可将报表嵌入到其他报表系统中。
应用支撑。支持通过IDE、SDK、Web等方式进行应用开发,支持无需编程的文件检索、数据查询、交互式分析、临时分析、拖拽式应用等;提供针对应用系统的接口或集成,例如个性化推荐、精准营销、智能客服、机器翻译等。
云服务。提供多租户的软硬件资源和数据隔离应用,提供计量计费功能,提供JDBC、ODBC driver等多种驱动,以SQL的方式访问大数据平台的数据。
数据安全。支持数据传输通道和数据加密等保密机制,企业级安全认证机制(例如LDAP等),以及SSO验证;支持数据表单元格级别细粒度分析验证;支持对关键数据透明加密,无需修改上层应用,同时加解密过程不会对性能造成影响;支持集中的秘钥管理功能。
运维管理。提供基于策略的数据备份和恢复功能;提供图形化、免维护的安装工具及配置和部署工具;提供统一的集群监控分析功能,支持基于事务和事件的报警等运维管理工作;提供集群配置参数的多版本管理能力,查看具体的修改内容,并支持版本回退;提供REST编程接口,能够通过调用编程接口实现集群部署、角色分配、服务启动和停止等功能;能够实现业务在无中断的情况下进行软件版本的升级及打补丁。
3.性能特性
针对不同的技术组件会有不同的评估指标,例如硬件类、存储类、计算类、Web事务类、网络类、查询类等,评估指标主要集中在伸缩性、容错性、单位时间处理能力、响应时间、吞吐量、并发性、稳定性、资源占用率等方面。
伸缩性:伸缩性是一种对系统平台弹性计算处理能力的设计指标,它是考察平台对硬件的增减或不同规模下处理数据的自适应能力的重要指标。
容错性:容错性是指在故障存在的情况下计算机系统不失效,仍然能够正常工作的特性。它是系统在异常情况下能良好运行的重要保障。
单位时间处理能力:处理能力几乎是所有组件都需要考察的指标,针对不同的组件其处理能力需要综合平台的配置情况,处理任务包括读、写、扫描、排序、连接、聚合、复杂计算等。
响应时间:响应时间是从发出请求到得到响应的时间。响应时间越短,对终端计算、应用的实时性和体验越好。
吞吐量:吞吐量指在一次性能测试过程中网络上传输的数据量的总和,它能说明系统级别的负载能力。
并发数:并发数指系统对同一事务同时处理的请求数。并发数越高说明系统对事务在同一时间下的并发支持度和宽容性越高。
稳定性:稳定性是系统在不同场景下运行的稳定效果,稳定性越好,其可适用的场景越广泛。
可靠性:可靠性是在一定时间内、一定条件下无故障地执行指定功能的能力或可能性,大多数平台都会保证至少99.9%的可靠性,或者每年少于几个小时的故障时间。
资源占用率:不同的服务都是基于底层软硬件资源的支持,在总体资源有限制的情况下,资源占用越少且又能保证平台的技术组件或服务越有优势。
如表3-1所示是某大数据产品中存储和计算部分的性能评估规格。


8188deaa02ef29c31efd38ced1a165860922f0e9

4.服务特性
大数据服务是当前大多数企业付费意愿较低的内容,原因是服务很难有明显且特别有价值感的落地交付物,它不像一个产品、一个报表那样可以直接以产品化的方式展示。但服务对于企业,尤其是刚进入大数据阶段的企业至关重要。大数据服务包括以下几方面:
实施部署。服务商通常需要完成大数据系统的搭建、调试、优化、测试,使之能支持企业客户基于大数据平台进行应用开发。
质保服务。在大数据工具交付之后,服务商需要提供一定时间(例如一年免费升级、三年免费故障解决等)的质保服务。
技术咨询。调试完成后,对安装、配置、调试的所有信息、验收文档、交付手册等向用户进行全面交接,并提供技术咨询。
驻场开发。在大数据工具实施和开发阶段,客户可能需要服务商驻场开发。
工具培训。服务商需要根据企业需求和大数据解决方案本身,就实施部署、后期运维、工具开发、产品应用等方面提供培训教材并作系统性的推广培训工作。
日常沟通。日常沟通的问题会涉及大数据解决方案的各个方面,支持的方式需灵活且多样(邮件、电话、进驻企业),对于沟通的效率同时也应该有所要求(2小时答复、7×24小时服务)等。
应急故障。对于由于服务商提供的大数据工具本身的问题导致的故障问题,服务商也需要提供针对性的响应机制,包括解决时间、解决策略、实施步骤、质量验收等。
除了上述4个特征需要针对性的分析外,针对大数据整体解决方案的整体架构、技术细节、产品增强点、产品创新点等也是需要评估的关键内容。

3.2.5 解决方案费用评估

大数据解决方案的费用,主要指的是方案采购本身,而不包括外部其他机房、硬件、人员、设备等的投入。大数据解决方案分为云服务和本地化两种。
1.云服务费用
目前大数据解决方案中出现了多种云端服务模式,例如IaaS、OaaS、PaaS、SaaS、DaaS等。不同的模式对应到大数据平台收费方式也有所差异,对云端“解决方案即服务”类的费用而言,主要费用集中在云端服务本身。不同的云服务内容对于收费内容的定义主要侧重于两方面:
(1)按服务配置项目或需求收费
对于不同云服务的模式,根据用户选择的不同配置情况以及使用的服务进行收费,适用于弹性用量以及需求变更较大的场景。如图3-16所示为阿里云存储服务计费的方法。


43b737ced101176d41951cb1114eb61163a86df7

图3-16 阿里云某云存储服务计费
(2)固定/包断收费
这是一种相对固定的收费方式,根据用户选择的套餐或服务按照一定周期固定计费。在该方式下服务的内容是有一定限量或限额的,适用于需求和发展规划相对稳定且明确的场景。如图3-17所示为阿里云针对电商的云端整体解决方案收费方法。
2.本地化费用
本地化大数据解决方案的费用通常由多种内容组成,主要包括三大类:硬件费用、产品费用和服务费用。


6f128865ecb12254e4f4f1693933623f8c5a67ce

图3-17 阿里云针对电商的云端整体解决方案收费
硬件费用:部分大数据厂商会将其解决方案与特定硬件做绑定销售,客观上这会增加企业前期购买和后期运维的额外成本;同时,这种“依赖式”的绑定也可能导致软硬件的一体化封装,对于后期的功能扩展、性能提升、安全防护等方面造成严重阻碍。
产品费用:不同的大数据解决方案中对于产品费用的定义方式是不同的,例如按license收费、按数据量和计算量收费、按节点数收费、按功能收费、按功能组件收费等,不同的收费模式对应的费用结构也不同;同时,对于按照功能类的收费意味着后期在需要应用某些功能模块时可能面临需要支付额外费用的问题。
服务费用:服务费用主要是人力资源类的费用,可能包括技术开发人力外包、特定人员驻场、后期使用培训、关键技术故障解决、应用场景和模型等方案,这些相对“不标准化”的费用组成与企业需求、实施难易程度、自身技术实力、后期运维实际、发展规划等有关。
大数据解决方案的选择,一定要结合企业现有状态、需求规划(包括短期、中期和长期)、预算、项目目标等,并综合考虑服务商的客观环境、产品、服务、预期产出价值等因素进行综合评估。强大的工具不一定适合所有企业,而且同一个工具也不一定适合于同一个企业的不同发展阶段。
综合上述所有内容,选择解决方案时各个因素重要性汇总如表3-2所示。
表3-2 解决方案选择要素重要性汇总
类 别 子类别 细分内容 重要性评级
外部环境分析 行业情况
竞争对手        

内部环境分析 业务现状 数据工作文化

    团队组织架构    
    数据工作能力    
数据现状    数据源环境    
    数据结构类型    
    数据量级    
    数据质量    
    数据成长    
制度要求    数据安全    
    主导权问题    
    数据所有权    

需求规划分析 企业转型需求

业务应用需求        
技术工作需求        

解决方案特性分析 产品特性 弹性付费

    弹性配置    
    方便扩展    
    方便管理    
    简单易用    
    灵活控制    
    功能丰富    
    海量数据支持    
    简易实施    
    数据安全    
    可迁移性    
    运维成本    
功能特性    基本部署    
    数据导入    
    数据存储    
    数据计算    
    机器学习    
    可视化    
    应用支撑    
    云服务    
    数据安全    
    运维管理    
性能特性    伸缩性    

类 别 子类别 细分内容 重要性评级
解决方案特性分析 性能特性 容错性

    单位时间处理能力    
    响应时间    
    吞吐量    
    并发数    
    稳定性    
    可靠性    
    资源占用率    
服务特性    实施部署    
    质保服务    
    技术咨询    
    驻场开发    
    工具培训    
    日常沟通    
    应急故障    
        

解决方案费用评估 云服务费用

本地化费用        
相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
4天前
|
存储 分布式计算 Hadoop
大数据处理架构Hadoop
【4月更文挑战第10天】Hadoop是开源的分布式计算框架,核心包括MapReduce和HDFS,用于海量数据的存储和计算。具备高可靠性、高扩展性、高效率和低成本优势,但存在低延迟访问、小文件存储和多用户写入等问题。运行模式有单机、伪分布式和分布式。NameNode管理文件系统,DataNode存储数据并处理请求。Hadoop为大数据处理提供高效可靠的解决方案。
22 2
|
8天前
|
API 数据库 开发者
构建高效可靠的微服务架构:后端开发的新范式
【4月更文挑战第8天】 随着现代软件开发的复杂性日益增加,传统的单体应用架构面临着可扩展性、维护性和敏捷性的挑战。为了解决这些问题,微服务架构应运而生,并迅速成为后端开发领域的一股清流。本文将深入探讨微服务架构的设计原则、实施策略及其带来的优势与挑战,为后端开发者提供一种全新视角,以实现更加灵活、高效和稳定的系统构建。
14 0
|
22天前
|
负载均衡 测试技术 持续交付
高效后端开发实践:构建可扩展的微服务架构
在当今快速发展的互联网时代,后端开发扮演着至关重要的角色。本文将重点探讨如何构建可扩展的微服务架构,以及在后端开发中提高效率的一些实践方法。通过合理的架构设计和技术选型,我们可以更好地应对日益复杂的业务需求,实现高效可靠的后端系统。
|
17天前
|
设计模式 安全 Java
【分布式技术专题】「Tomcat技术专题」 探索Tomcat技术架构设计模式的奥秘(Server和Service组件原理分析)
【分布式技术专题】「Tomcat技术专题」 探索Tomcat技术架构设计模式的奥秘(Server和Service组件原理分析)
21 0
|
21天前
|
运维 Cloud Native 持续交付
云原生架构的未来演进:打造灵活、高效的企业IT基础
随着数字化转型的不断深入,企业的IT基础设施正经历着从传统架构向云原生架构的根本转变。本文将探讨云原生技术的最新发展趋势,分析其在提高业务敏捷性、降低运维成本以及促进技术创新方面的关键作用。我们将重点讨论如何借助容器化、微服务、DevOps和持续交付等核心技术,构建一个能够适应快速变化市场需求的云原生生态系统。通过实际案例分析,揭示企业在迁移到云原生架构过程中面临的挑战与解决策略,为读者呈现一幅云原生技术赋能企业未来的蓝图。
|
6天前
|
Kubernetes 安全 Java
构建高效微服务架构:从理论到实践
【4月更文挑战第9天】 在当今快速迭代与竞争激烈的软件市场中,微服务架构以其灵活性、可扩展性及容错性,成为众多企业转型的首选。本文将深入探讨如何从零开始构建一个高效的微服务系统,覆盖从概念理解、设计原则、技术选型到部署维护的各个阶段。通过实际案例分析与最佳实践分享,旨在为后端工程师提供一套全面的微服务构建指南,帮助读者在面对复杂系统设计时能够做出明智的决策,并提升系统的可靠性与维护效率。
|
15天前
|
存储 缓存 监控
构建高效可扩展的后端服务架构
在当今互联网时代,构建高效可扩展的后端服务架构对于企业的业务发展至关重要。本文将探讨如何通过合理设计和优化后端服务架构,实现系统的高性能、高可用性和易扩展性,从而满足不断增长的业务需求和用户规模。
15 0
|
17天前
|
监控 Java 开发者
构建高效微服务架构:后端开发的新范式
在数字化转型的浪潮中,微服务架构以其灵活性、可扩展性和容错性成为企业技术战略的关键组成部分。本文深入探讨了微服务的核心概念,包括其设计原则、技术栈选择以及与容器化和编排技术的融合。通过实际案例分析,展示了如何利用微服务架构提升系统性能,实现快速迭代部署,并通过服务的解耦来提高整体系统的可靠性。
|
17天前
|
NoSQL Java Redis
【分布式技术专题】「分布式技术架构」手把手教你如何开发一个属于自己的分布式锁的功能组件(二)
【分布式技术专题】「分布式技术架构」手把手教你如何开发一个属于自己的分布式锁的功能组件
13 0
|
1天前
|
监控 负载均衡 API
构建高性能微服务架构:后端开发的最佳实践
【4月更文挑战第14天】 在当今快速发展的软件开发领域,微服务架构已成为构建可扩展、灵活且容错的系统的首选方法。本文深入探讨了后端开发人员在设计和维护高性能微服务时需要遵循的一系列最佳实践。我们将从服务划分原则、容器化部署、API网关使用、负载均衡、服务监控与故障恢复等方面展开讨论,并结合实际案例分析如何优化微服务性能及可靠性。通过本文的阅读,读者将获得实施高效微服务架构的实用知识与策略。