1. 阿里云>
  2. 云栖社区>
  3. 主题地图>
  4. S>
  5. 数据清洗

当前主题:数据清洗

利用丁香园数据生成疫情分布地图(R语言)

云栖号:https://yqh.aliyun.com 第一手的上云资讯,不同行业精选的上云企业案例库,基于众多成功案例萃取而成的最佳实践,助力您上云决策! ![image](https://yqfile.alicdn.com/085d8de393983c9b

阅读全文

疫情之下,医疗AI企业的复工之路走得好吗?

云栖号:https://yqh.aliyun.com 第一手的上云资讯,不同行业精选的上云企业案例库,基于众多成功案例萃取而成的最佳实践,助力您上云决策! ”现在全乱套了,年前根本没有制定准备计划。年后计划上线的医院,当地销售已经通知推迟上线。比较严重的的是

阅读全文

Quick BI审计日志持久化联合解决方案

作者:潘炎峰 更多内容详见数据中台官网 https://dp.alibaba.com 引言 随着网络信息化的成熟发展、“国家网络安全法规”的深入落实要求,企业组织也越来越重视操作日志的保存与分析,其中云计算中的资源的操作记录是一类非常重要的日志。阿里云构建了

阅读全文

当达摩院大牛们用视觉AI能力来抠图,这一切都不受控制了……

从达摩院宣布成立起,这个阿里的“神秘机构”就备受外界关注。造福人类,世界第一,高端,神秘……这些标签也让我们对达摩院的技术专家产生了好奇。 在外界人眼中,达摩院人才济济,大多是奇人异士,做着神秘且高端的研究。不曾想,这群有如扫地僧一般的神秘专家们竟然做了一个

阅读全文

阿里云数据分析最佳实践:二维数据可视化 + 设备数据下发

概述 物联网数据分析,又称Link Analytics,是阿里云为物联网开发者提供的设备智能分析服务,全链路覆盖了设备数据生成、管理(存储)、清洗、分析及可视化等环节。有效降低数据分析门槛,助力物联网开发工作。这里分别演示通过二维数据可视化功能展示设备位置

阅读全文

阿里云伴我成长——记那些年我考过的阿里云认证

前言 特殊的春节使自己在家里能够有足够时间来回顾下自己几年来参加的阿里云认证考试,目前总共有云计算和大数据两项ACP认证,全部领域ACA认证和数项APSARA CLOUDER专项认证,系统的梳理了下这些认证的特点和作用以作为一个过来人为大家自己设计学习路径作

阅读全文

实时计算在贝壳的实践

摘要:Apache Flink 是一个分布式大数据处理引擎,可对有限数据流和无限数据流进行有状态计算。本文由贝壳找房的资深工程师刘力云将带来Apache Flink技术在贝壳找房业务中的应用,通过企业开发的实时计算平台案例的分享帮助用户了解Apache Fl

阅读全文

云栖号2019云计算盘点 -【新零售上云篇】

2019,是新零售继续遍地开花的一年,也是新零售充满变数的一年。 新零售在2019留下太多痕迹,此次通过“云栖号2019云计算领域盘点--新零售篇”,让我们一起来了解2019新零售行业的那些事。 盒马推出新业态:盒马里 11月30日,在深圳莲塘正式开业的盒马

阅读全文

数据清洗相关问答

查看更多 提问题

对于数据清洗频度非常高的应用,用redis合适不?

对于数据清洗频度非常高的应用,用redis合适不?

阅读全文

在使用大数据开发套件中odps_sql,怎么实现一个任务,比如从原始表抽取12月份的数据,插入到新的表分区12月

才使用odps,之前一直用pyspark做数据清洗,之前的做法,就是利用一层循环,依次读取数据,在依次写入分区表,但是这里,只能写sql进行操作,只能一个分区一个分区的执行,有没有类似于循环结构体的这种写法,求教

阅读全文

请教大家一个问题: spark on yarn 内存溢出 除了增加driver内存以外还有什么好的解决方案吗?

我现在一个清洗程序 从kafka读取消息 然后处理 然后写入kafka sink。 driver 给了它4G 还报内存溢出,我查了下内存溢出那时段的数据是比较少的。 一分钟最多100条。

阅读全文

1. 我们是一家金融公司,之前人少钱少,现在随着人多了,碰到了数据管理上的难点,希望有解决方案 2. 多个数据源的ETL + 多种数据类似(时间序列,复杂对象,基本面数据等)的存储(规模上T) 3. 希望在数据获取,清洗,存储,获取一整套系统上,都有所提高。

1. 我们是一家金融公司,之前人少钱少,现在随着人多了,碰到了数据管理上的难点,希望有解决方案 2. 多个数据源的ETL + 多种数据类似(时间序列,复杂对象,基本面数据等)的存储(规模上T) 3. 希望在数据获取,清洗,存储,获取一整套系统上,都有所提高

阅读全文

greenplum的应用场景

前辈您好! 我先简单介绍一下背景:我搭建了一个PostgreSQL数据库用来存储单独一台机床在加工过程中产生的各种数据,我想借助神经网络等手段来分析这些数据,在此之前,需要对数据进行清洗、去噪和特征提取等操作,并将处理后的数据保存,以备将来训练和测试神经网络

阅读全文

你好,目前我们往maxcompute上传的数据都是结构的表数据,是我们在本地服务器对用户的行为日志分析后提取到的所需信息,在将这些结构化的数据上传到maxcompute。

你好,目前我们往maxcompute上传的数据都是结构的表数据,是我们在本地服务器对用户的行为日志分析后提取到的所需信息,在将这些结构化的数据上传到maxcompute。我想问一下,我们能不能直接把收集到的用户行为日志长传到maxcompute,然后在你们的服

阅读全文

阿里云ACA第二章考试有些问题不懂

疑惑一:如果要呈现产品类型、区域、销量,用哪种图? (4选1:气泡图、 柱状图、瀑布图、饼图) 疑惑二:数据分析平台包括哪些部分?5选3(事务处理、数据同步、数据清洗、数据处理、数据展现) 疑惑三:一个大型企业每天产生10T数据,直接放在业务系统进行数据分

阅读全文

MaxCompute百问集锦(持续更新20171011)

![fd7e5655f16e03d1198dc492cead625bbfb9af58_jpeg](https://yqfile.alicdn.com/ee78085f2e6a147c3fffcc95038b11a73c609bf1.jpeg) 大数据计算服务

阅读全文