1. 阿里云>
  2. 云栖社区>
  3. 主题地图>
  4. S>
  5. 数据清洗

当前主题:数据清洗

菜鸟供应链实时数仓的架构演进及应用场景

摘要:在 Flink Forward Asia 大会实时数仓专场中,菜鸟数据&规划部高级数据技术专家贾元乔从数据模型、数据计算、数据服务等几个方面介绍了菜鸟供应链数据团队在实时数据技术架构上的演进,以及在供应链场景中典型的实时应用场景和 Flink 的实现方

阅读全文

疫情防控的“奇兵”

新冠肺炎,一次突发的公共卫生事件,是一场与时间赛跑的战役。“早发现,早报告,早隔离,早治疗”一句看似平常的宣传语,成为了疫情防控行动力的最贴切阐释。 面对各地政府、医院、社区和企业疫情防控的应急需求,以云计算、大数据、人工智能等为代表的新一代数字化技术,成为

阅读全文

覆盖电商、推荐、ETL、风控等多场景,网易的实时计算平台做了啥?

作者:吴良波 摘要:本文由网易 Java 技术专家吴良波分享,主要内容为 Apache Flink 在网易的实践,文章提纲如下: 业务与规模演进 Flink 平台化 案例分析 未来发展与思考 重要:公众号后台回复关键字「0224网易」,即可获取作者现场分享的

阅读全文

SLS数据处理实践:加工延迟篇

在日志服务,数据加工功能(功能介绍)用于完成对Logstore数据的预处理,为后续的分析阶段准备数据。本文主要介绍数据加工实践中可能遇到的延迟问题,帮助大家理清延迟现象背后的原因,以及如何去监控、解决延迟问题。 什么是加工延迟 Logstore 数据加工作业

阅读全文

2019年上半年读完的一部分书籍记录及其推荐指数

2019年上半年读完的一部分书籍记录及其推荐指数 2019年还是读了一些书,不过当时只整理了一小部分,就分享如下吧! Title Author Start Time End Time Star Remarks 文明之光(第一册) 吴军 2019-03 201

阅读全文

MaxCompute SQL与Hive对比分析及使用注意事项

摘要:一个使用过Hadoop的Hive框架的大数据开发工程师,往往基本掌握了阿里云的大数据计算服务MaxCompute的90%。本次分享主要通过详细对比MaxCompute和Hive各个方面的异同及开发使用的注意事项,方便用户来开发使用MaxCompute,

阅读全文

【云栖号案例 | 物联网&人工智能】蔬菜加工也能搭上物联网,数字化蔬菜工厂上云故事

云栖号案例库:【点击查看更多上云案例】 不知道怎么上云?看云栖号案例库,了解不同行业不同发展阶段的上云方案,助力你上云决策! 公司介绍 我们公司是上海绿立方农业发展有限公司,成立于2012年,我们公司致力于农业数字化的解决方案打造,从水培叶菜自动化生产起步,

阅读全文

远程办公安全威胁升级,疫情下企业如何自保?

行业趋势 本次2019-nCoV病毒的爆发,加速了办公上云和移动的演变过程。无数企业今年的开工都转到了线上,几万人的直播,这种临时性的波峰需求能良好的适配非云莫属。这场突如其来的变故,也催熟了移动办公的需求。员工都在家里,通过自己的移动设备来参与工作。 ![

阅读全文

数据清洗相关问答

查看更多 提问题

对于数据清洗频度非常高的应用,用redis合适不?

对于数据清洗频度非常高的应用,用redis合适不?

阅读全文

在使用大数据开发套件中odps_sql,怎么实现一个任务,比如从原始表抽取12月份的数据,插入到新的表分区12月

才使用odps,之前一直用pyspark做数据清洗,之前的做法,就是利用一层循环,依次读取数据,在依次写入分区表,但是这里,只能写sql进行操作,只能一个分区一个分区的执行,有没有类似于循环结构体的这种写法,求教

阅读全文

请教大家一个问题: spark on yarn 内存溢出 除了增加driver内存以外还有什么好的解决方案吗?

我现在一个清洗程序 从kafka读取消息 然后处理 然后写入kafka sink。 driver 给了它4G 还报内存溢出,我查了下内存溢出那时段的数据是比较少的。 一分钟最多100条。

阅读全文

1. 我们是一家金融公司,之前人少钱少,现在随着人多了,碰到了数据管理上的难点,希望有解决方案 2. 多个数据源的ETL + 多种数据类似(时间序列,复杂对象,基本面数据等)的存储(规模上T) 3. 希望在数据获取,清洗,存储,获取一整套系统上,都有所提高。

1. 我们是一家金融公司,之前人少钱少,现在随着人多了,碰到了数据管理上的难点,希望有解决方案 2. 多个数据源的ETL + 多种数据类似(时间序列,复杂对象,基本面数据等)的存储(规模上T) 3. 希望在数据获取,清洗,存储,获取一整套系统上,都有所提高

阅读全文

greenplum的应用场景

前辈您好! 我先简单介绍一下背景:我搭建了一个PostgreSQL数据库用来存储单独一台机床在加工过程中产生的各种数据,我想借助神经网络等手段来分析这些数据,在此之前,需要对数据进行清洗、去噪和特征提取等操作,并将处理后的数据保存,以备将来训练和测试神经网络

阅读全文

你好,目前我们往maxcompute上传的数据都是结构的表数据,是我们在本地服务器对用户的行为日志分析后提取到的所需信息,在将这些结构化的数据上传到maxcompute。

你好,目前我们往maxcompute上传的数据都是结构的表数据,是我们在本地服务器对用户的行为日志分析后提取到的所需信息,在将这些结构化的数据上传到maxcompute。我想问一下,我们能不能直接把收集到的用户行为日志长传到maxcompute,然后在你们的服

阅读全文

阿里云ACA第二章考试有些问题不懂

疑惑一:如果要呈现产品类型、区域、销量,用哪种图? (4选1:气泡图、 柱状图、瀑布图、饼图) 疑惑二:数据分析平台包括哪些部分?5选3(事务处理、数据同步、数据清洗、数据处理、数据展现) 疑惑三:一个大型企业每天产生10T数据,直接放在业务系统进行数据分

阅读全文

MaxCompute百问集锦(持续更新20171011)

![fd7e5655f16e03d1198dc492cead625bbfb9af58_jpeg](https://yqfile.alicdn.com/ee78085f2e6a147c3fffcc95038b11a73c609bf1.jpeg) 大数据计算服务

阅读全文