云场景实践研究第56期:佰腾科技

简介: 作为国内知名的知识产权服务公司,佰腾在专利信息应用上研究多年,一直致力于解决一个问题:让专利信息应用变得大众化。佰腾专利通过大数据平台的演化,利用MaxCompute平台,每纬度数据处理速度由之前的2-3天,缩短到3-6个小时。
更多云场景实践研究案例,点击这里: 【云场景实践研究合集】联合不是简单的加法,而是无限的生态,谁会是下一个独角兽
2014年起,公司积极推进互联网转型,实施“互联网+专利”计划,开发了国内首家专利电商平台—专利巴巴,通过专利巴巴项目的实施,使公司转型为知识产权领域内的互联网公司。
佰腾在专利信息应用上研究多年,一直致力于解决一个问题:让专利信息应用变得大众化。佰腾科技在专利技术创新方面经历了3个阶段,分别是萌芽阶段,应用阶段和大数据阶段。从最初的提供的简单功能如字段检索,分类检索,文本检索,统计分析等慢慢演变到能够提供给相应人员进行检索,形成侵权风险检查、预警分析、分析报告等功能。近几年,由于中国创造及技术创新方面的蓬勃发展,单纯把专利信息的内容简单地拆解出来所能提供的信息已不能满足需求。而是需要帮企业发现技术的热点和空白点,需要通过大数据挖掘、大数据应用进行分析。这个阶段,佰腾科技可以给企业提供专利地图、价值评估、技术体系创新辅助、功效矩阵等功能。

采用的阿里云产品
阿里云大数据平台 
阿里云MaxCompute

为什么使用阿里云
目前,专利大数据的业务已经非常复杂,如何利用大数据平台让专利信息应用变得大众化?
借助阿里云大数据平台技术,实现高数据维度的高效存储和高效处理,并实现自动编排,支撑各种需求的应用。

关于 佰腾科技
江苏佰腾科技有限公司是一家从事专利信息应用、专利咨询服务的企业,是国内知名的知识产权服务公司,以佰腾网和专利巴巴为网络平台,面向国内外用户提供知识产权、科技创新整体解决方案。2014年起,公司积极推进互联网转型,实施“互联网+专利”计划,开发了国内首家专利电商平台—专利巴巴,通过专利巴巴项目的实施,使公司转型为知识产权领域内的互联网公司,并采用B2B、O2O线上线下相结合的模式为客户提供全方位的、全流程的知识产权一体化服务。

佰腾所面临的挑战
目前,专利大数据的业务已经非常复杂,数据业务场景从个位数增长到十位数。由于业务场景不断增加,佰腾科技数据平台上云之前的结构存在基础架构不稳定,数据更新不及时,平台维护复杂,平台不支持弹性扩展,自荐和维护费用极高等弊端。
fa705f7315f173eba1213859811baf218cddf333
另外,数据平台上云前的业务处理流程,按照分布式模型进行抓取,维护成本较高,资源利用率不高。而且早期是单点数据存储结构,无法满足大量的读写并发,降低了数据检查和处理的速度。另外,索引信息和文本信息混合存储,导致数据应用的性能也比较差。

为什么选择阿里云?
佰腾上云的核心问题主要是以下两个方面,
一是大数据的处理能力。这里又包括:(1)上百项数据维度如何高效存储和高效处理?如果这个问题得不到解决,那就没法加快专利信息应用的步伐,没办法满足客户更多的需求;(2)现在的数据维度比较多,处理环节非常多,那么如何实现数据处理流程的自动化编排?
二是数据平台的可扩展问题,架构中的几十个组件都要维护,每有一个客户需求都需要做组件,那么如何快速支撑各种需求的应用?
7ad2f289667101d79d9c9b09cd4f82e7496fd9b4
第一个问题,对应的解决方案一方面是使用MaxCompute平台代替数据库。图中的上方是佰腾科技之前的情况,原始数据处理和数据维度分析都使用了数据库集群,现在将这两部分放入了MaxCompute,这样可以大幅提升整个数据存储和处理的效率。另一个方面,通过使用MaxCompute的任务平台,来编排处理任务。其优势在于(1)MaxCompute任务能访问所有MaxCompute数据资源,与专利数据存储方式完美结合。(2)MaxCompute提供了多种任务类型,以及任务编排方法和工具。(3)把基于MaxCompute表的数据处理写到UDF,UDTF和UDAF中。
然而,使用MaxCompute平台也会遇到一些问题。因为用户自定义函数在沙箱里运行,有一些安全限制,函数若由自己编写,需要尽量避免这些问题。但难免会引用第三方组件包,就可能会触及沙箱限制。佰腾目前尝试的方案有:(1)首先可以修改使用的第三方组件包代码,避免限制。(2)对MaxCompute任务机制进行包装,把会触及到沙箱的代码放到Java的任务里运行,然后通过建立MaxCompute任务,使用MaxCompute提供的SDK,启动MaxCompute的任务实例,等待实例结束后再运行后面的任务。
第二点,如何满足不断增长和变化的数据应用需求?数据处理能力方面的提升需要满足不断增长和变化的数据应用需求,主要从三个方面入手:1)平台架构分层化设计;2)数据维度规范化处理,在大数据平台,数据维度是所有问题的核心,也是解决问题的关键;3)数据维度规范化应用。
df2948a93c08f5fb1bbd33806a039d604f4cd317
在架构方面,上图是佰腾基于阿里云的大数据平台技术架构图,最左边的图像引擎,和文本处理有些不同,但处理方式差不多,中间有RDS,将用于展示的数据单独拿出来,和索引分开,可以提高大数据应用的效率。

专利大数据的云上裂变之路
10年前的数据系统,非常简单。萌芽时期佰腾整体目标是拿下文本信息,做规整处理,以Lucene为核心,提供相应的Search API,完成相应程序。这是非常简单的提供文本检索的应用,1台服务器就能支撑整个系统。目前,专利大数据的业务已经非常复杂,数据业务场景从个位数增长到十位数,可用数据维度从30多项增加到200多项。佰腾不仅仅提供给用户文本检索功能,还有图像检索、特征检索、关联检索,将它们串起来,产生相应的报告;数据应用的深度也已经加大,数据维度的增加使数据处理量翻了数十倍,数据处理的能力已不再满足周期性的数据更新。一开始能做到每个维度都更新,后来随着数据维度的增加,处理不过来,有一些数据维度则会把更新的周期拉长;除了会遇到数据处理和数据应用瓶颈,还要提防各种“数据流氓”。
上云后,佰腾在数据处理能力和平台扩展问题在都得到了根本性的提高。数据的测算之前基于RDS的数据存储,一个维度的数据处理需要2-3天,现在利用MaxCompute平台处理时间缩短到3-6个小时,整个性能提升非常之大;而且,在大量数据处理时,很多时候是处理到80%的时候才会发现数据处理有问题,若处理时间过长,当发现问题时会一切重新开始,浪费的时间非常长。所以在这个场景下,MaxCompute的性能非常可靠。
e3d5cff70ffab9dca182d5d4e5a0346f357445ab
上图是佰腾上云之后的大数据处理流程,比之前的数据处理流程简单很多。目前图上的流程都实现了自动化编排,一键式处理就可以完全编排,非常高效。
此外, 佰腾基于阿里云大数据平台技术的构建了成熟稳定架构,可以流程化的处理数据,平台维护简洁高效,且能够自动的弹性化伸缩。

关于 佰腾科技的更多实践详情: 佰腾科技的专利大数据的云上裂变之路
原文发布日期:2017-03-15
云栖社区场景研究小组成员:董黎明,仲浩。
相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
6月前
|
机器学习/深度学习 人工智能 算法
亚马逊云科技 云技能孵化营 初识机器学习
亚马逊云科技 云技能孵化营 初识机器学习
|
11月前
|
人工智能 运维 自然语言处理
案例酷|“云”加持下,北大英华加速法律人工智能
案例酷|“云”加持下,北大英华加速法律人工智能
144 0
|
量子技术
是时候向量子计算泼一盆冷水了!丨科技云·视角
尽管量子计算是当前最重要的科技问题之一,但真正实用的量子计算机还比较遥远。量子计算面临的不只是工程挑战,还有许多基本的科学问题,很有可能属于“世纪难题”。 伴随着大众对量子计算的万分期待,流言也在飞速产生:量子计算机一旦做成,将直接秒杀经典计算机。
2111 0
|
新零售 大数据
云场景实践研究第77期:云徙科技
作为阿里生态战略合作伙伴,云徙科技在阿里云的大数据和新技术的帮助下,使企业成功实现数字化转型,并且创造了新的价值。本文将带领大家一同了解云徙科技在新技术、大数据赋能下的转型创新之路。
2996 0
|
运维 关系型数据库 数据库
云场景实践研究第70期:秦苍科技
本文主要为大家分享了秦苍信息科技HTPA型数据库产品在现实中的落地应用,企业级数据库架构设计中遇到的问题以及基于云数据库运维的思考。
1770 0
|
数据采集 算法 物联网
云场景实践研究第78期:微茗智能科技
借助阿里云的大数据平台,微茗装备了物联网云平台,创建了线上线下融合体系,实现了智能化生产,最终使产线的运行效率可以达到以往的2倍。本文将带领大家一同了解微茗的企业生产线智能化之路。
2074 0
|
弹性计算 大数据 关系型数据库
云场景实践研究第34期:加和科技
ReachMax成立之初,主创推出的PDB可退还模式在业内还是一个很新的服务模式。为了精简团队,快速验证市场需求,企业选择了云作为基础设施服务的供应平台。企业的服务特点是对并发、响应延迟、网络和服务的稳定性、冗余性都有较高要求,也希望服务可以横向和地域上动态扩展和调整,综合考虑之后选择了阿里云平台。
1710 0
|
存储 弹性计算 安全
云场景实践研究第80期:华大基因
作为全球最大的基因组学研究中心,华大基因在阿里云的帮助下,实现了海量数据的及时获取、快速分析、安全储存。本文将带领大家一同了解华大基因的基于大数据分析的云计算实践之路。
4350 1