发布时间:2020-02-22 23:00:57 浏览:972 回帖 :0
本文通过 jupyter notebook 工具演示了 Delta Lake 的官方教程
发布时间:2019-08-15 18:08:11 浏览:1132 回帖 :0
本文演示了在Spark Shell中通过spark-redis组件读写Redis数据的场景。所有场景在阿里云E-MapReduce集群内完成,Redis使用阿里云数据库Redis
发布时间:2019-04-02 16:07:11 浏览:1741 回帖 :0
YARN Node Label功能最早是在Hadoop 2.6版本中引入,在后续版本中有更多的功能完善。到了Hadoop 2.8.x版本之后,该功能已经比较完整,可以满足日常使用。在本文中,我们需要将...
发布时间:2019-03-07 00:48:59 浏览:4878 回帖 :0
你可能已经不知不觉中在数据科学项中用上了贝叶斯相关技术!如果你还没用上,这个技术可以增强你的数据分析能力。本文会展示这项技术在现实世界中的应用案例:通过传感器收集的流式数据预测硬件故障率。
发布时间:2018-01-23 14:22:13 浏览:4364 回帖 :0
阿里云的分析型数据库(AnalyticDB)和E-MapReduce(简称EMR)在大数据场景下非常有用,本文将介绍如何尝试打通两个产品,将通过EMR中自带的开源工具Sqoop来完成这个任务。
发布时间:2017-08-01 19:36:06 浏览:4167 回帖 :1
在大数据应用场景下经常有数据文件的迁移工作,如果保障迁移之后数据的完整性是一个很常见的问题。本文就给大家介绍一下在大数据场景下,如何用工具快速对比文件。
发布时间:2017-07-24 15:33:17 浏览:2605 回帖 :0
Spark GraphX是一个比较流行的图计算框架,如果你使用了阿里云的E-MapReduce服务,可以很方便的运行图计算的作业。 下面以PageRank为例,看看如何运行GraphX作业
发布时间:2017-05-05 08:06:30 浏览:5556 回帖 :0
当前业界有很多公司是以Hadoop技术构建数据中心,所以本文将探讨如何快速的将Hadoop文件系统(HDFS)上的数据迁移到云上。
发布时间:2017-04-05 18:05:59 浏览:7681 回帖 :0
近些年来机器学习中的子领域深度学习成为一个热门的话题。本文要介绍Intel开源的深度学习框架BigDL,它也是在Spark上的一个算法库,提供了全面的深度学习算法支持,包括数值计算(Tensor)和高...
您好,请问什么时候e-mapreduce提供impala?测试时impala性能明显好于hive,而且公司现有人员也是对impala熟悉
发布时间:2016-12-12 11:09:59 浏览:3965 回帖 :0
给大家介绍一个使用场景,可以将E-MapReduce的Hadoop作业和文件存储(NAS)结合在一起,发挥分布式存储和分布式计算在一起的威力
发布时间:2016-12-05 19:14:11 浏览:6881 回帖 :1
kafka是一个开源社区常用的消息队列,虽然kafka官方(Confluent公司)提供插件从Kafka直接导入数据到HDFS的connector,但对阿里云对文件存储系统OSS却没有官方的支持。本文...
发布时间:2016-09-22 13:32:42 浏览:4354 回帖 :2
阿里云E-MapReduce从EMR-2.1.0版本镜像开始,将在VPC集群中提供MetaService服务。
发布时间:2016-10-09 12:20:45 参与人数:60
Hadoop经过10年的发展,目前已经成为大数据技术的标准;云计算也发展了将近10年,已经被越来越多的企业接受; 在企业自己采购自己的年代,很多企业都会经历过业务部署物理机,再虚拟化,再跟大数据混合部...
发布时间:2016-08-24 20:07:24 浏览:11238 回帖 :2
日志处理是一个很大范畴,其中包括实时计算、数据仓库、离线计算等众多的点。这篇文章主要目的为了讨论如何在实时计算场景中,如何能做到日志处理保序、不丢失、不重复,并且在上下游业务系统不可靠(存在故障),业...
发布时间:2016-04-18 20:33:51 浏览:4441 回帖 :3
即日起,E-Mapreduce提供包年包月服务(比按需便宜约60%),用户可通过引导操作自定义安装软件、自定义配置,同时还能创建使用Hbase集群,通过open-API进行创建集群、提交作业等各种操作...