1. 阿里云>
  2. 云栖社区>
  3. 主题地图>
  4. S>
  5. 数据分析 r

当前主题:数据分析 r

【译】使用Spark SQL 运行大规模基因组工作流

编译: 诚历,阿里巴巴计算平台事业部 EMR 技术专家,Apache Sentry PMC,Apache Commons Committer,目前从事开源大数据存储和优化方面的工作。 使用Spark SQL 运行大规模基因组工作流 在过去十年中,随着基因组测

阅读全文

数据可视化概览

科学可视化(Scientific Visualization)、 信息可视化(Information Visualization)和可视分析学(Visual Analytics)三个学科方向通常被看成可视化的三个主要分支。而将这三个分支整合在一起形成的新学科

阅读全文

阿里巴巴高级技术专家章剑锋:大数据发展的 8 个要点

笔者从 2008 年开始工作到现在也有 11 个年头了,一路走来都在和数据打交道,做过大数据底层框架内核的开发(Hadoop,Pig,Tez,Spark,Livy),也做过上层大数据应用开发(写 MapReduce Job 做 ETL ,用 Hive 做 A

阅读全文

阿里巴巴高级技术专家章剑锋:大数据发展的 8 个要点

笔者从 2008 年开始工作到现在也有 11 个年头了,一路走来都在和数据打交道,做过大数据底层框架内核的开发(Hadoop,Pig,Tez,Spark,Livy),也做过上层大数据应用开发(写 MapReduce Job 做 ETL ,用 Hive 做 A

阅读全文

Apache Spark Delta Lake 事务日志实现源码分析

Apache Spark Delta Lake 事务日志实现源码分析 我们已经在这篇文章详细介绍了 Apache Spark Delta Lake 的事务日志是什么、主要用途以及如何工作的。那篇文章已经可以很好地给大家介绍 Delta Lake 的内部工作原

阅读全文

MyCat数据库的基础配置及使用

一、为什么需要分布式数据据库 随着计算机和信息技术的迅猛发展,行业应用系统的规模迅速扩大,行业应用所产生的数据量呈爆炸式增长,动辄达到数百TB甚至数百PB的规模,已远远超出传统计算技术和信息系统的处理能力,集中式数据库面对大规模数据处理逐渐表现出其局限性。因

阅读全文

结构化数据存储,如何设计才能满足需求?

![1](https://yqfile.alicdn.com/9bfc4cb69cad1607e7a072f658fc7d13782a7051.png) 阿里妹导读:任何应用系统都离不开对数据的处理,数据也是驱动业务创新以及向智能化发展最核心的东西。数据处理

阅读全文

阿里云第六代云服务器特性、实例类型、及可选区域相关介绍

最新有细心的小伙伴应该发现了,不久前,阿里云推出了全新第六代弹性云服务器,在性能,使用场景,负载能力上有了更进一步的提升,但是如果购买的时候需要注意了,目前并不是所有的实例类型都采用的是第六代云服务器,目前可以使用第六代云服务器的实例主要通用型g6、计算型c

阅读全文

数据分析 r相关问答

查看更多 提问题

greenplum扩容计算节点时出的一个问题

首先我执行扩容命令gpexpand seg_hosts -D test,然后报出如下错误: ![QQ_20190412141529](https://yqfile.alicdn.com/09b3f95726a34b050c70ce0980e3d2cc4da6

阅读全文

2018python技术问答集锦,希望能给喜欢python的同学一些帮助

小编发现问答专区中有很多人在问关于python的问题,小编把这些问题汇总一下,希望能给喜欢python的大家一些启示和帮助 本帖不定期更新,喜欢的可以收藏哦 **python可能替代Java吗?感觉现在很多Java程序员都跑去学python。*

阅读全文

spark streaming job运行卡住

# 问题 虚拟机中运行sparkStreaming job一段时间后,偶尔会卡住, 过一段时间就恢复, 需要定位原因解决 # 背景 1.sparkStreaming消费kafka数据, 开启反压机制, 将接收每一条kafka消息(json串)

阅读全文

数据库百问,教你快速上手数据库

在信息化社会,充分有效地管理和利用各类信息资源,是进行科学研究和决策管理的前提条件。数据库技术是管理信息系统、办公自动化系统、决策支持系统等各类信息系统的核心部分,是进行科学研究和决策管理的重要技术手段。本文为大家整理了云栖问答中有关数据库类型、数据库的选购及

阅读全文

御膳房:探索大数据开放处理平台之路【精品问答集锦】

社区为大家准备了多场技术直播,广大网友踊跃提问,小编将其中优质的问答整理成汇总贴,供大家相互交流学习 专家介绍:朱震杰(花名:澄苍) 阿里巴巴商家事业部高级技术专家,大数据处理专家,经历了官方数据产品店铺经和对外数据处理平台御膳房的构建,积累了丰富的大

阅读全文

用odps client跑mapreduce任务失败,报错如下,多进程后台同时起几个任务,resource文件用的是同一个,有些任务成功,有些任务失败

用odps client跑mapreduce任务失败,报错如下,多进程后台同时起几个任务,resource文件用的是同一个,有些任务成功,有些任务失败, FAILED: Copy file to shared cache failed: PanguOpen4

阅读全文

请问如何解析数据库里的json格式数据

``` mysql数据库里存了5000多个json格式的数据,格式如下(由于篇幅有限,只截取了一部分) {"tbproblem":[{"id":777,"path":"gradetwo/5/hngel05036/b/2d_xz_1_4p.jpg","an

阅读全文

tornado的mongo驱动是什么

背景 我用apache的ab test在公司的两台虚拟机上面测试,发现用pymongo的速度最快,asyncmongo其次,最后才是motor库. 硬件配置; •server端 ◦ubuntu 12.04 ◦Intel(R) Core(TM)2 Du

阅读全文