阿里巴巴举办首届产业数据库研发论坛:链结产学研 构建创新生态圈

本文涉及的产品
云原生数据库 PolarDB MySQL 版,Serverless 5000PCU 100GB
云原生数据库 PolarDB 分布式版,标准版 2核8GB
简介:

10月12日-14日,一年一度的中国数据库学术会议(NDBC 2018)如期在大连举行。NDBC是由中国计算机学会(CCF)主办、数据库专业委员会承办的中国数据库领域最高学术会议。在这场代表了国内数据库最强实力的学术盛宴上,阿里巴巴集结了强大的参会阵容,由阿里巴巴集团副总裁、达摩院科学家、数据库与存储技术负责人李飞飞博士(花名:飞刀)亲自带队。此外,达摩院数据库与存储实验室还联合CCF数据库专业委员会,举办了首届产业数据库研发论坛,力邀知名企业技术负责人及学界专家,共同探讨国内数据库的产学研生态,为数据库的长期发展作出原创性贡献。

9344f8c59baef5d916c2c6d67967ea2760f022f6

依托NDBC平台,产业数据库研发论坛是一次学术界和工业界的双向数据库技术沙龙,皆在拉近数据库学术研究和新兴互联网业务需求之间的距离,以实际场景与数据库顶级学者交流,寻求系统层级的前沿技术突破,搭建企业与高校之间学术合作的桥梁。

a90fce4b9002e42a18aada16d5eb55fe546fea4f

论坛现场座无虚席

论坛受到了学术界和产业界人士的极大欢迎,诸多业界大咖与行业精英共聚一堂,现场座无虚席。李飞飞博士在会上阐述了阿里对于产学研共建的思考,以开放的态度,带动全行业以更紧密的连结健康发展,展现了阿里作为行业领头公司的胸怀和气魄。

8564d2278fd1359368b0709f972b8d38134dabc1

阿里巴巴集团副总裁、达摩院科学家、数据库与存储技术负责人李飞飞博士

李飞飞表示:“数据库系统是核心的基础软件设施,经过多年的发展,形成了一个成熟完善的商业市场和生态圈,全球市场达到400亿美金规模。近年来云计算和大数据市场的蓬勃发展为数据库系统这个相对传统的领域带来了前所未有的新机遇,数据库系统需要适应云原生带来的挑战,以及大规模全球化分布式部署的挑战。除此之外,各类型新硬件和机器学习/人工智能技术的快速发展,也要求数据库系统深入推进软硬件一体化设计和智能化运维与内核优化等新兴技术的应用。最后,数据库安全是另外一个重要的课题,如何实现高效的加密数据库系统以及对数据隐私的保护是偶待解决的问题。解决这些挑战和问题需要学术界和产业界深度合作,从实际应用和系统需求出发来发现并攻克核心难题,帮助大规模工程化实现和商业化部署。

这次研讨会借助NDBC这个平台,带来一个难得机遇让国内产业界和学术界的核心代表共聚一堂,深入探讨如何更好的合作和交流。大家也就当前数据库系统所面临的热点问题进行了深入的探索和碰撞,成果显著。产业论坛会在以后每年的NDBC会议上坚持举办下去,大家相信这个论坛一定会对中国数据库产业和科研事业的发展产生长久而深远的影响。”

来自阿里巴巴、华为、东软集团和华东师范大学的资深技术负责人带来精彩演讲,分享了各自面临的业务挑战、应对的技术和解决方案,共话数据库前沿技术与发展趋势,探讨产学研合作如何推进应用落地。

云原生数据库POLARDB:自研黑科技 释放卓越性能

e89ebf370f5bd8bb2a43e6aeff642019a6cf4775

阿里巴巴高级技术专家张友东

阿里巴巴高级技术专家张友东(花名:林青)介绍,POLARDB 是阿里云自研的关系型数据库,采用计算与存储分离的架构,计算节点轻量易扩展,能在秒级完成备节点扩展;存储平台化,支持最大100TB的存储。POLARDB采用多项黑科技来保证高性能,包括用户态网络协议栈,用户态存储协议栈,高速RDMA网络,NVMe SSD,Optane新存储硬件等,POLARDB满足了云上用户对大容量、高性能、可弹性伸缩数据库服务的需求。
阿里云数据库团队为 POLARDB 定制了低延时、高可靠的分布式文件系统 PolarFS,PolarFS的研究成果已发表在数据库顶级会议 VLDB 2018 《PolarFS: An Ultra-low Latency and Failure Resilient Distributed FileSystem for Shared Storage Cloud Database》;基于 PolarFS 共享存储平台,POLARDB 重新设计了存储引擎,基于共享存储做物理复制,极大的降低了 POLARDBIO开销,读写性能相比MySQL有数倍的性能提升;最后,POLARDB100% 兼容MySQL生态,同时融入到现有的云产品生态,使得用户接入无需做业务改造,使用成本极低,目前POLARDB已经开始在阿里云上服务了数百家企业。
未来 POLARDB 还会做更多的数据库技术创新,覆盖更多的云上数据库应用场景,为用户创造更大的价值。

POLARDB X (Powered By X-DB):全局全域 追求极致

11e5ed600b2a99531c4c067db930e7614f9a21ce

阿里巴巴数据库事业部资深技术专家何登成

阿里作为全球最大的在线交易平台,当下的业务体量非常庞大,需要进行在线事务处理的数据规模在PB量级,在双十一当天,需要处理的SQL请求甚至达到每秒一亿次。阿里巴巴数据库事业部资深技术专家何登成(花名:圭多)表示:“为了处理如此庞大的数据量和事务处理能力,我们研发了分布式关系型数据库POLARDB X (Powered By X-DB),采用shared-nothing架构,对用户透明的数据sharding机制。使用优化实现的paxos协议保证数据副本间的一致性,在跨地域部署下也能保证高性能。为了避免单点失效,使用去中心化的HLC机制实现分布式事务。”

据悉,POLARDB X还分析了电商业务的访问特点,为此专门设计了基于访问频度的冷热数据分层的存储架构,更好地利用存储硬件本身的层次。此外,还利用一系列软硬结合的技术,比如异构计算硬件FPGA来处理计算密集型的后台任务。POLARDB X力求在性能和成本上同时达到极致,不远的将来会推动上云,为云上用户提供更好的数据库服务。

SolarDB:学术界与工业界智慧碰撞的结晶

50c35e68f3083a659573ab6bd8761e3a1aec72e1

华东师范大学数据科学与工程学院教授、副院长周烜老师

SolarDB是一个由华东师范大学、西北工业大学、上海交通银行联合开发的,并且在工业界得到实际应用的数据库系统。SolarDB从开源的OB 0.4版本作为基础,历经多年发展,已经在交通银行落地,并在很多场景下替换了原有的DB2数据库。它采用shared-everything架构,由存储节点(s-node),事务节点(t-node)和计算节点(p-node)组成,其中s-node和p-node可以横向扩展,而t-node是单节点用于事务处理,这个架构设计在扩展性和复杂性之间找到了很好的平衡。华东师范大学数据科学与工程学院,教授、副院长周烜老师表示:“在高校里做一个能够实际应用的数据库系统非常不易,但是我们一直在坚持做。未来的挑战也很多,比如:分布式系统的质量保障,如何兼容商业数据库等等。都是值得我们去思考的问题。”

SolarDB是学术界和工业界合作研发的数据库系统,凝聚了华师大师生在数据库技术发展的思考,并且经过实际业务场景的不断磨练,已经日渐成熟稳定,并且将发展地越来越好。

纵观上述三款OLTP数据库,在架构、应用场景和技术思考方面各不相同:

 ●   架构不同——POLARDB(shared-disk),POLARDBX(shared-nothing),SolarDB(shared-everything)。
 ●   应用场景不同——POLARDB(云计算),POLARDBX(大规模互联网应用),SolarDB(金融业务)。
 ●   技术思考不同——POLARDB(云原生、弹性伸缩,100%兼容开源生态,性价比,新硬件),POLARDB X(高性能、低成本,全球部署),SolarDB(扩展性和复杂性的平衡)。

虽然OLTP数据库是数据库技术领域最成熟、最传统的一部分,我们看到学术界和产业界在OLTP领域依然有非常多的思考和进展,令人欣喜。

1bad7a4b1dd2ea2bb1473068538624a8ce2e969c

华为高斯数据库团队首席产品规划师李思昊

来自华为高斯数据库团队的首席产品规划师李思昊系统介绍了华为公司多年来在数据库领域的投入及产业布局。华为在2005年开始投入内存数据库系统的研发,主要用来支持电信计费业务,其可以实现百万QPS毫秒内响应,近年来不断扩展其内存数据库产品架构,支持分布式以及数据持久化能力,向通用型产品发展,具备更高扩展能力。华为同时在2012年开始构建分布式分析型数据库产品,采用MPP架构,引入 codegen 等新的编译技术,实现业界领先的分析型能,同时构筑在线扩容,升级等关键技术,实现系统高可用。其实现国内主要银行的数据仓库系统从传统厂商Teradata数据库向其产品的全面迁移,同时在国内外也具备一定市场规模。

1e9edcf7b179a9438454afd73edbb40c66bbccf7

东软集团系统架构师于明光

来自东软集团的系统架构师于明光分享了机器数据的实时洞察与模式识别。系统对不

同客户环境提出规范,实现了可自控的数据采集,同时用聚类方法使数据可用。于明光指出低频事件间的关联和高频事件在数据挖掘上有很大区别。在即席查询的场景下,于明光提出半结构化数据查询上,SQL这样的结构化查询语言不是最优的选择,并提出领域专用语言DSL。于明光强调,上述技术未来可以扩展到更多更广泛的领域,将大有可为。

OLAP数据库的技术变革、演进和挑战

26190aa943630c61c4d809ebc1baed549d2f517a

阿里巴巴集团数据库事业部研究员占超群

企业数据的爆炸式增长为扩大分析策略在企业应用软件领域的拓展提供了数据基础,然而由此所带来的挑战也是前所未有的,那么应该如何针对海量数据提供实时在线的灵活处理以及开放的数据分析?阿里巴巴集团数据库事业部研究员占超群(花名:离哲)就此介绍了阿里巴巴在大规模实时在线分析系统方面构建的经验和未来的技术趋势展望,重点聚焦在阿里巴巴集团下一代分析数据库产品AnalyticDB,AnalyticDB是阿里巴巴最早的自研商业级数据库产品之一,也是最早商业化的自研数据库产品,其支撑阿里集团的电商、广告、蚂蚁、菜鸟、文娱等众多在线数据分析业务;以及为阿里云上传统的大中型企业,政府机构,众多的互联网创新公司的提供核心的实时分析能力。

AnalyticDB单DB支持2千台以上的物理节点, 10PB以上的数据存储管理, 以及高并发低延时分析,帮助业务进入下一代分析和极速探索。其采用分层解耦架构,引进了智能SQL优化器,超大规模的分布式MPP+DAG融合分析计算引擎,支持行列混合存储,智能构建多维度索引以及GPU硬件加速等技术,同时融入了文本、图片、人脸等非结构化数据分析支持,大幅扩展技术边界和业务边界。伴随着这些年在线分析业务的发展,AnalyticDB在时效性、在线化、复杂度、智能化、可用性和成本上不断创新发展,做了大量的技术难点突破和创新。通过将数据分析在线化、实时化,帮助用户发挥数据价值,AnalyticDB已经成长为能够改变用户数据使用方式、行业内领先的商业级数据库产品。

288618a30567753d9d54e5531c087bd4cef873cd

圆桌讨论:共话产学研结合现状和发展趋势

左起:张友东、占超群、何登成、于明光、周烜、李思昊

在最后的圆桌会议上,参加论坛的老师、同学与分享嘉宾热烈交流,共同探讨阿里巴巴POLARDB X (Powered By X-DB)、POLARDB、分析型数据库AnalyticDB以及华为高斯数据库的建设经验与技术难点。嘉宾们对云计算多租户解决方案、数据库高可用方案、数据行列分层存储、多模数据库的优势等技术问题做了详细的分享。论坛同时探讨了高校如何能够将研发的系统应用到企业的核心系统,在学生正常流动下保证持续发展,周烜老师详细分享了华师大研发SolarDB数据库并在交通银行的成功建设经验。

c515ad042b238ca9f73d3144bf35d24e0b73cd92

NDBC2018——阿里巴巴参会阵容合影

本届产业数据库研发论坛不仅是展现企业自身科研实力与分享成果的重要舞台,体现了中国数据库产业在研发和应用方面的最高水平,同时面向未来,为企业与学术界搭建了合作的桥梁,积极推动产学研合作共同体的构建,共建数据库产业合作生态。一直以来,阿里巴巴都非常注重与学术界的合作,用户的需求推动了技术的一次次更新迭代,让工业界和学术界的关系更进一步。学术界和工业界在数据库领域各有所长,阿里巴巴未来将持续深耕科研领域,将学术研究和应用实践有机结合,积极拓展与学术界的合作,推动产学研一体化,用技术驱动我国数据库事业的发展。

同时在本届NDBC会议上,来自阿里巴巴的张瑞、占超群和李朝三位资深数据库技术人成功当选了新一届中国计算机学会的数据库专业委员会委员,未来将代表阿里巴巴为数据库技术的发展贡献更多力量。至此,阿里巴巴已经有七名专委。

随着NDBC产业数据库研发论坛的举办以及更多工业界技术人加入CCF中国数据库专委会,必将更进一步推动产学研一体化和中国数据库技术产业的发展,带领数据库人砥砺前行。


原文发布时间为:2018-10-16

本文作者:NDBC 2018

本文来自云栖社区合作伙伴“阿里技术”,了解相关信息可以关注“阿里技术”。

相关实践学习
数据库实验室挑战任务-初级任务
本场景介绍如何开通属于你的免费云数据库,在RDS-MySQL中完成对学生成绩的详情查询,执行指定类型SQL。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
2月前
|
关系型数据库 物联网 分布式数据库
带团队做数据库研发中印象深刻的故事
本文以游戏行业介绍PolarDB的发展。
109 0
|
4月前
|
存储 自然语言处理 搜索推荐
ChatGPT 文本Embedding融合Qdrant向量数据库:构建智能问答系统的技术探索
向量数据库结合ChatGPT带来了什么 1. **语义搜索:** 使用向量数据库进行语义搜索,可以更准确地找到与查询相关的信息。ChatGPT可以理解用户的自然语言查询,而向量数据库可以根据语义相似性返回匹配的向量数据。 2. **智能推荐:** 结合ChatGPT的智能理解和向量数据库的相似性搜索,可以实现更智能的推荐系统。系统可以根据用户的历史行为和语境,向用户推荐相似的向量数据,如文章、产品或其他内容。 3. **自然语言处理与向量表示结合:** ChatGPT可以将自然语言转换为向量表示,这样就可以在向量数据库中进行更高效的查询。这种集成使得自然语言处理和向量数据库可以相互补充等
349 0
|
3月前
|
关系型数据库 MySQL 分布式数据库
开发者关注的数据库技术与创新
【1月更文挑战第4天】开发者关注的数据库技术与创新
|
1月前
|
存储 数据处理 数据库
构建高性能的数据库查询引擎
本文将介绍如何构建一个高性能的数据库查询引擎,以提升数据库查询的效率和响应速度。通过优化查询计划、索引设计和数据存储等方面,可以实现更快速和可扩展的数据库查询,为应用程序提供更好的用户体验和数据处理能力。
|
3月前
|
分布式数据库 数据库 数据安全/隐私保护
开发者关注的数据库技术与创新,未来数据库的演进及理想数据库的构想
作为开发者,想必大家都知道在技术圈中数据库相关领域是技术开发中的重中之重,数据库技术与创新不断推动着数字化时代的发展,数据库技术正在经历着一次创新的浪潮,还有就是数据库技术的不断创新为开发者们在日常实际开发中提供了更多的可能性和好的机遇。那么本文就来简单聊聊最值得开发者关注的数据库技术与创新,包括分布式数据库、图数据库、时序数据库、区块链数据库以及AI与数据库的结合等方面,以及探讨未来数据库的演进趋势,并讨论一下在开发者心目中最理想的数据库的特征与构想。
53 3
|
1月前
|
存储 SQL 分布式计算
TiDB整体架构概览:构建高效分布式数据库的关键设计
【2月更文挑战第26天】本文旨在全面概述TiDB的整体架构,深入剖析其关键组件和功能,从而帮助读者理解TiDB如何构建高效、稳定的分布式数据库。我们将探讨TiDB的计算层、存储层以及其他核心组件,并解释这些组件是如何协同工作以实现卓越的性能和扩展性的。通过本文,读者将能够深入了解TiDB的整体架构,为后续的学习和实践奠定坚实基础。
|
1月前
|
人工智能 自然语言处理 NoSQL
悦数图数据库推出 AI 知识图谱构建器及图语言生成助手
随着人工智能应用在全球范围的普及和风靡,大语言模型技术(Large Language Model,简称 LLM)受到了广泛的关注和应用。而图数据库作为一种处理复杂数据结构的工具,能够为企业构建行业大语言模型提供强大的支持,包括丰富亿万级别的上下文信息,提升模型的应答精度,从而实现企业级的应用效果。同时,Graph+LLM 可以助力快速构建知识图谱,帮助企业更深入地理解和挖掘数据价值。
|
6月前
|
数据库
云效构建需要链接数据库 数据库有ip白名单 在哪里看构建集群的ip?
云效构建需要链接数据库 数据库有ip白名单 在哪里看构建集群的ip?
43 1
|
2月前
|
缓存 监控 关系型数据库
构建高效的数据库应用:Python 实践
在当今数据驱动的世界中,构建高效的数据库应用程序对于企业和个人来说至关重要。Python 作为一种强大的编程语言,提供了丰富的数据库工具和库,使得开发人员能够轻松地构建高效、可靠的数据库应用程序。在本文中,我们将探讨一些关键的技术和最佳实践,以帮助你构建高效的数据库应用程序。
|
3月前
|
缓存 数据库 开发者
构建高性能的数据库查询语句优化策略
数据库查询是开发过程中常见的性能瓶颈之一。本文将介绍构建高性能数据库查询语句的优化策略,包括索引的设计与使用、查询语句的编写技巧、连接的优化等方面,帮助开发者提升数据库查询的效率和响应速度。