比世界纪录快3倍 阿里云377秒完成100TB数据排序

简介: 本文讲的是 比世界纪录快3倍 阿里云377秒完成100TB数据排序,10月28日,Sort Benchmark在官方网站公布了2015年排序竞赛的最终成绩。

本文讲的是 比世界纪录快3倍 阿里云377秒完成100TB数据排序,10月28日,Sort Benchmark在官方网站公布了2015年排序竞赛的最终成绩。阿里云用不到7分钟(377秒)就完成了100TB的数据排序,打破了Apache Spark的纪录23.4分钟。Sort Benchmark是全球科技公司的计算奥运会,更早之前Hadoop的记录是72分钟。

image

Sort Benchmark的排序竞赛包含4项比赛,其中GraySort和MinuteSort主要评测计算系统的规模和效率,是4项比赛中含金量最高的两项。每一项比赛又分通用目的排序(Daytona)和专用目的排序(Indy)两个类别。阿里云飞天分布式计算系统,在这两项重量级比赛中打破了全部4项世界纪录。

image

GraySort评测的是超大规模数据量排序的速度。飞天用了377秒对100TB数据完成排序,也就是说1分钟能够完成15.9TB的数据排序。去年Apache Spark成绩为4.35TB/分钟。MinuteSort评测的是系统在1分钟内能够完成排序的数据量。飞天用1分钟完成了对7.7TB数据的排序,去年冠军三星为3.7TB。

阿里云首席架构师唐洪表示,排序是最基础的计算问题。100TB排序,是把1万亿条无规律的100字节纪录,严格按照从小到大的顺序排序,考验分布式系统中存储、调度、通信等各个子系统的性能,能够反映出一个平台的整体计算能力。GraySort和MinuteSort这两项比赛,充分证明了阿里云在计算方面的核心能力。“未来视频、音频数据、生物数据等非结构化数据将爆发式增长,我们需要在最短的时间、用最小的资源计算准确。面对大数据,如何算得快、算得准、算得起?这是未来云计算的核心能力。”

Sort Benchmark是一个专门从事排序基准评估的非盈利机构,该机构每年都会举办一次国际顶级排序基准评估比赛,被认为是计算界的奥运会。全球顶尖公司和学术机构都会带着他们最新的研究成果来参加,以评估他们的研究成果。

image

原文发布时间为:十月 28, 2015
本文作者:aqniu
本文来自云栖社区合作伙伴安全牛,了解相关信息可以关注安全牛。
原文链接:http://www.aqniu.com/industry/11226.html

相关文章
|
1月前
|
关系型数据库 MySQL 数据挖掘
阿里云 SelectDB 携手 DTS ,一键实现 TP 数据实时入仓
DTS 作为阿里云核心的数据交互引擎,以其高效的实时数据流处理能力和广泛的数据源兼容性,为用户构建了一个安全可靠、可扩展、高可用的数据架构桥梁。阿里云数据库 SelectDB 通过与 DTS 联合,为用户提供了简单、实时、极速且低成本的事务数据分析方案。用户可以通过 DTS 数据传输服务,一键将自建 MySQL / RDS MySQL / PolarDB for MySQL 数据库,迁移或同步至阿里云数据库 SelectDB 的实例中,帮助企业在短时间内完成数据迁移或同步,并即时获得深度洞察。
阿里云 SelectDB 携手 DTS ,一键实现 TP 数据实时入仓
|
1月前
|
SQL 人工智能 数据挖掘
阿里云DMS,身边的智能化数据分析助手
生成式AI颠覆了人机交互的传统范式,赋予每个人利用AI进行低门槛数据分析的能力。Data Fabric与生成式AI的强强联合,不仅能够实现敏捷数据交付,还有效降低了数据分析门槛,让人人都能数据分析成为可能!阿里云DMS作为阿里云统一的用数平台,在2021年初就开始探索使用Data Fabric理念构建逻辑数仓来加速企业数据价值的交付,2023年推出基于大模型构建的Data Copilot,降低用数门槛,近期我们将Notebook(分析窗口)、逻辑数仓(Data Fabric)、Data Copilot(生成式AI)进行有机组合,端到端的解决用数难题,给用户带来全新的分析体验。
110091 118
阿里云DMS,身边的智能化数据分析助手
|
2月前
|
存储 数据可视化 数据管理
基于阿里云服务的数据平台架构实践
本文主要介绍基于阿里云大数据组件服务,对企业进行大数据平台建设的架构实践。
701 0
|
1月前
|
消息中间件 编解码 运维
阿里云 Serverless 异步任务处理系统在数据分析领域的应用
本文主要介绍异步任务处理系统中的数据分析,函数计算异步任务最佳实践-Kafka ETL,函数计算异步任务最佳实践-音视频处理等。
175296 348
|
1月前
|
存储 数据采集 Apache
众安保险 CDP 平台:借助阿里云数据库 SelectDB 版内核 Apache Doris 打破数据孤岛,人群圈选提速4倍
随着业务在金融、保险和商城领域的不断扩展,众安保险建设 CDP 平台以提供自动化营销数据支持。早期 CDP 平台依赖于 Spark + Impala + Hbase + Nebula 复杂的技术组合,这不仅导致数据分析形成数据孤岛,还带来高昂的管理及维护成本。为解决该问题,众安保险引入 Apache Doris,替换了早期复杂的技术组合,不仅降低了系统的复杂性,打破了数据孤岛,更提升了数据处理的效率。
众安保险 CDP 平台:借助阿里云数据库 SelectDB 版内核 Apache Doris 打破数据孤岛,人群圈选提速4倍
|
3月前
|
大数据 数据管理 云计算
瓴羊联合阿里云、大数据技术标准推进委员会发布《基于数据资产全生命周期估值与实践报告》
瓴羊联合阿里云、大数据技术标准推进委员会发布《基于数据资产全生命周期估值与实践报告》
419 0
瓴羊联合阿里云、大数据技术标准推进委员会发布《基于数据资产全生命周期估值与实践报告》
|
3月前
|
JSON 机器人 数据格式
阿里云RPA支持将序列化的JSON数据作为输入参数传递给机器人应用程序
【1月更文挑战第7天】【1月更文挑战第33篇】阿里云RPA支持将序列化的JSON数据作为输入参数传递给机器人应用程序
206 1
|
4月前
|
大数据 流计算
掌阅科技基于阿里云实时计算Flink构建数据基建平台
掌阅科技专注于数字阅读,是全球领先的数字阅读平台之一。基于数字阅读平台的海量用户,掌阅通过阿里云实时计算Flink等大数据计算和分析服务,搭建商业化、用户增长、推荐服务等数据基建平台,实现商业化增值与用户阅读体验的结合。
395 0
|
4月前
|
存储 人工智能 文件存储
阿里云吴结生:面向大规模数据智能的阿里云存储创新
近年来,越来越多人意识到,我们正处在一个数据爆炸式增长的时代。IDC 预测 2027 年全球产生的数据量将达到 291 ZB,与 2022 年相比,增长了近 2 倍。其中 75% 的数据来自企业,每一个现代化的企业都是一家数据公司。
424 8
阿里云吴结生:面向大规模数据智能的阿里云存储创新
|
4月前
|
人工智能 文字识别
阿里云的 口算判题 AI能力(文字识别OCR)接口 返回数据的时候 没有正确答案只有 对错吗?
阿里云的 口算判题 AI能力(文字识别OCR)接口 返回数据的时候 没有正确答案只有 对错吗?
172 0

热门文章

最新文章