1. 阿里云>
  2. 云栖社区>
  3. 主题地图>
  4. S>
  5. 数据清洗

当前主题:数据清洗

金融数据智能在蚂蚁金服的现状与发展

点击这里回顾9月27日上午开发者峰会精彩内容 蚂蚁金服在过去的十几年中用技术重塑金融服务,主要工作集中在金融级交易支付技术和金融级数据智能技术两个领域。 除了和传统大数据相同的需求之外,金融数据智能还有一些独特的需求: 实时性要求高:实时数据增长非常迅速,在

阅读全文

它是真实的“盗梦空间”?在这里,一切都可能是数据

阿里妹导读:位于杭州阿里巴巴西溪园区旁边的大型商场“亲橙里”2018年正式开业。和传统的线下综合型商场不同的是,亲橙里从规划之初就定位为数字化商场,通过植入自研的IBOS平台完成建筑内的所有子系统的接入,而让建筑和建筑内的设备、空间、人的“在线”是我们数字化

阅读全文

火爆专场 干货来袭 | 淘宝端智能演进和思考

作者|吕承飞(吕行)出品|阿里巴巴新零售淘系技术部 关注「淘系技术」微信公众号,回复“大会”即可获得云栖大会「移动技术专场」全部 PPT 下载链接,赶快下载吧~ 今天分享内容包括三部分,第一是端智能整体趋势和淘宝应用现状,第二是淘宝在应用端智能过程中面临的问

阅读全文

数据中台元年,破除数智化转型中的四大常见误区

2019年可谓是“数据中台元年”,过去几年企业市场对大数据的不断积累与沉淀,人们对数据中台、数智化转型的讨论也是非常火热。几乎每个企业都在关心如何构建自己的数据中台,如何利用数据中台构建企业自己的数据银行。 作为专注为企业数智化转型赋能的践行者,在2019云

阅读全文

数据可视化概览

科学可视化(Scientific Visualization)、 信息可视化(Information Visualization)和可视分析学(Visual Analytics)三个学科方向通常被看成可视化的三个主要分支。而将这三个分支整合在一起形成的新学科

阅读全文

高防云防护比传统高防服务器有哪些优势呢?

在如今的互联网环境中,DDoS攻击并不少见,攻击的原因有可能是黑客敲诈勒索,也有可能是对手恶意竞争。特别是金融、电子商务、游戏等行业受到DDoS攻击的几率是最大的。传统硬件高防成本相对较高,对于许多中小型互联网企业来说有点负担不起,而高防云防护解决了这个问题

阅读全文

日志服务在CDN流量指标中的异常检测实战(上)

本次专题主要包括四个方面内容,第一部分介绍AIOps平台,以及具备的能力和功能。第二部分讲解阿里云日志服务平台的作用,以及支撑AIOps的应用。第三部分为目前关注的异常检测算法的介绍。第四部分以一个实际的场景作为案例介绍流量场景中的实战,并加以分析。 本文为

阅读全文

地球如果流浪,大数据究竟能做什么?

每条大街小巷,每个人的嘴里,见面第一句话,就是:「道路千万条,安全第一条,行车不规范,亲人两行泪」。 过了个春节,一眨眼的功夫,当初不太被人看好的《流浪地球》就悄然脱颖而出,蜕变成了「流量地球」? 不得不说,这部电影从剧情、特效到配乐演员几乎都全部在线,口碑

阅读全文

数据清洗相关问答

查看更多 提问题

在使用大数据开发套件中odps_sql,怎么实现一个任务,比如从原始表抽取12月份的数据,插入到新的表分区12月

才使用odps,之前一直用pyspark做数据清洗,之前的做法,就是利用一层循环,依次读取数据,在依次写入分区表,但是这里,只能写sql进行操作,只能一个分区一个分区的执行,有没有类似于循环结构体的这种写法,求教

阅读全文

请教大家一个问题: spark on yarn 内存溢出 除了增加driver内存以外还有什么好的解决方案吗?

我现在一个清洗程序 从kafka读取消息 然后处理 然后写入kafka sink。 driver 给了它4G 还报内存溢出,我查了下内存溢出那时段的数据是比较少的。 一分钟最多100条。

阅读全文

对于数据清洗频度非常高的应用,用redis合适不?

对于数据清洗频度非常高的应用,用redis合适不?

阅读全文

1. 我们是一家金融公司,之前人少钱少,现在随着人多了,碰到了数据管理上的难点,希望有解决方案 2. 多个数据源的ETL + 多种数据类似(时间序列,复杂对象,基本面数据等)的存储(规模上T) 3. 希望在数据获取,清洗,存储,获取一整套系统上,都有所提高。

1. 我们是一家金融公司,之前人少钱少,现在随着人多了,碰到了数据管理上的难点,希望有解决方案 2. 多个数据源的ETL + 多种数据类似(时间序列,复杂对象,基本面数据等)的存储(规模上T) 3. 希望在数据获取,清洗,存储,获取一整套系统上,都有所提高

阅读全文

greenplum的应用场景

前辈您好! 我先简单介绍一下背景:我搭建了一个PostgreSQL数据库用来存储单独一台机床在加工过程中产生的各种数据,我想借助神经网络等手段来分析这些数据,在此之前,需要对数据进行清洗、去噪和特征提取等操作,并将处理后的数据保存,以备将来训练和测试神经网络

阅读全文

你好,目前我们往maxcompute上传的数据都是结构的表数据,是我们在本地服务器对用户的行为日志分析后提取到的所需信息,在将这些结构化的数据上传到maxcompute。

你好,目前我们往maxcompute上传的数据都是结构的表数据,是我们在本地服务器对用户的行为日志分析后提取到的所需信息,在将这些结构化的数据上传到maxcompute。我想问一下,我们能不能直接把收集到的用户行为日志长传到maxcompute,然后在你们的服

阅读全文

阿里云ACA第二章考试有些问题不懂

疑惑一:如果要呈现产品类型、区域、销量,用哪种图? (4选1:气泡图、 柱状图、瀑布图、饼图) 疑惑二:数据分析平台包括哪些部分?5选3(事务处理、数据同步、数据清洗、数据处理、数据展现) 疑惑三:一个大型企业每天产生10T数据,直接放在业务系统进行数据分

阅读全文

MaxCompute百问集锦(持续更新20171011)

![fd7e5655f16e03d1198dc492cead625bbfb9af58_jpeg](https://yqfile.alicdn.com/ee78085f2e6a147c3fffcc95038b11a73c609bf1.jpeg) 大数据计算服务

阅读全文