1. 阿里云>
  2. 云栖社区>
  3. 主题地图>
  4. S>
  5. 数据清洗

当前主题:数据清洗

选型宝访谈:怎样构建统一、共享的主数据平台,打造真正干净的数据治理能力?

今天,商业环境瞬息万变,竞争日益加剧。 无论你是什么行业,你都无法回避的一个关键词是“数字化转型”。通过数字化转型,让企业变得敏捷,成为一种时代精神,也是我们这代IT人的使命。 然而,无论是业务层面的创新需求,还是决策层面的数据分析需求,都要干净、准确的业务

阅读全文

webgl(three.js)实现室内定位,楼宇bim、实时定位三维可视化解决方案

(写在前面,谈谈物联网展会)上次深圳会展中心举行物联网展会,到了展会一看,80%以上的物联网应用都是在搞RFID,室内定位,我一度怀疑物联网落地方案的方向局限性与市场导向,后来多方面了解才明白,展会上看到的不能体现目前物联网最前沿最广泛的应用,很多大的企业与

阅读全文

为电商而生的知识图谱,如何感应用户需求?

小叽导读:本文从需求分析和体系化构建的角度出发,阐述在电商这一特殊领域的知识图谱构建过程中,形成的一整套概念体系,还有在此过程中,通过算法、工程、产品、运营和外包团队投入大量精力,通过不断磨合逐渐完善的平台架构和审核流程。 作者:玉昆、喜阕、远尚、弘朗、子尹

阅读全文

SpringCloud----->springboot项目读取mysql的binlog日志

springboot项目读取mysql的binlog日志,在去年的时候,我就遇到一个需求,需要把mysql数据库中的数据的增、删、改的数据准实时做数据清洗,也就是ETL工作,同步到公司的数据仓库greenplum中(数据库数据变化的监听从而同步缓存(如Red

阅读全文

日志服务(SLS)数据加工功能发布

** 日志服务用户,您好!** 针对日志生命周期内存在的各种数据规整、分发、富化、清洗场景需求,阿里云日志服务(SLS)新推出了“数据加工”功能。 推荐在日志服务上进行数据规整、加工或联合其它数据源做分析的数据工程师使用。 区域支持 公共云(已上线,成都、青

阅读全文

「数据治理那点事」系列之三:不忘初心方得始终,数据质量管理要稳住!

作者 | 蒋珍波 本文是数据治理系列文章的第三篇,主要讲数据治理中的重要工作:数据质量管理。 我将从数据质量管理的目标,质量问题产生的根源,讲到如何评估数据质量,如何贯彻数据质量管理流程,最后从取与舍两个角度谈谈我对质量问题的一些个人观点。 一、数据质量管理

阅读全文

如何打造千万级Feed流系统?阿里数据库技术解读

2017年的双十一又一次刷新了记录,交易创建峰值32.5万笔/秒、支付峰值25.6万笔/秒。而这样的交易和支付等记录,都会形成实时订单Feed数据流,汇入数据运营平台的主动服务系统中去。数据运营平台的主动服务,根据这些合并后的数据,实时的进行分析,进行实时的

阅读全文

云服务器 ECS 安全:如何提高ECS实例的安全性

如何提高ECS实例的安全性 云服务器 ECS 实例是一个虚拟的计算环境,包含了 CPU、内存、操作系统、磁盘、带宽等最基础的服务器组件,是 ECS 提供给每个用户的操作实体。8月最新优惠云服务器地址2折 点击了解 我们基本可以理解为一个实例就等同于一台虚拟机

阅读全文

数据清洗相关问答

查看更多 提问题

在使用大数据开发套件中odps_sql,怎么实现一个任务,比如从原始表抽取12月份的数据,插入到新的表分区12月

才使用odps,之前一直用pyspark做数据清洗,之前的做法,就是利用一层循环,依次读取数据,在依次写入分区表,但是这里,只能写sql进行操作,只能一个分区一个分区的执行,有没有类似于循环结构体的这种写法,求教

阅读全文

请教大家一个问题: spark on yarn 内存溢出 除了增加driver内存以外还有什么好的解决方案吗?

我现在一个清洗程序 从kafka读取消息 然后处理 然后写入kafka sink。 driver 给了它4G 还报内存溢出,我查了下内存溢出那时段的数据是比较少的。 一分钟最多100条。

阅读全文

对于数据清洗频度非常高的应用,用redis合适不?

对于数据清洗频度非常高的应用,用redis合适不?

阅读全文

greenplum的应用场景

前辈您好! 我先简单介绍一下背景:我搭建了一个PostgreSQL数据库用来存储单独一台机床在加工过程中产生的各种数据,我想借助神经网络等手段来分析这些数据,在此之前,需要对数据进行清洗、去噪和特征提取等操作,并将处理后的数据保存,以备将来训练和测试神经网络

阅读全文

1. 我们是一家金融公司,之前人少钱少,现在随着人多了,碰到了数据管理上的难点,希望有解决方案 2. 多个数据源的ETL + 多种数据类似(时间序列,复杂对象,基本面数据等)的存储(规模上T) 3. 希望在数据获取,清洗,存储,获取一整套系统上,都有所提高。

1. 我们是一家金融公司,之前人少钱少,现在随着人多了,碰到了数据管理上的难点,希望有解决方案 2. 多个数据源的ETL + 多种数据类似(时间序列,复杂对象,基本面数据等)的存储(规模上T) 3. 希望在数据获取,清洗,存储,获取一整套系统上,都有所提高

阅读全文

你好,目前我们往maxcompute上传的数据都是结构的表数据,是我们在本地服务器对用户的行为日志分析后提取到的所需信息,在将这些结构化的数据上传到maxcompute。

你好,目前我们往maxcompute上传的数据都是结构的表数据,是我们在本地服务器对用户的行为日志分析后提取到的所需信息,在将这些结构化的数据上传到maxcompute。我想问一下,我们能不能直接把收集到的用户行为日志长传到maxcompute,然后在你们的服

阅读全文

阿里云ACA第二章考试有些问题不懂

疑惑一:如果要呈现产品类型、区域、销量,用哪种图? (4选1:气泡图、 柱状图、瀑布图、饼图) 疑惑二:数据分析平台包括哪些部分?5选3(事务处理、数据同步、数据清洗、数据处理、数据展现) 疑惑三:一个大型企业每天产生10T数据,直接放在业务系统进行数据分

阅读全文

MaxCompute百问集锦(持续更新20171011)

![fd7e5655f16e03d1198dc492cead625bbfb9af58_jpeg](https://yqfile.alicdn.com/ee78085f2e6a147c3fffcc95038b11a73c609bf1.jpeg) 大数据计算服务

阅读全文