开发者社区大数据文章正文

【Spark Summit East 2017】使用开源大数据软件构建实时防欺诈引擎

2017-02-19 2015

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本讲义出自Kees Jan de Vries在Spark Summit East 2017上的演讲，骗子总试图使用盗取来的信用卡购买商品，预定机票和酒店等，这伤害了持卡人的信任和供应商在世界各地的业务，本讲义介绍了使用开源大数据软件：Spark, Spark ML, H2O, Hive, Esper等构建的实时防欺诈引擎，并介绍了面对的挑战。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data；此外，通过Maxcompute及其配套产品，低廉的大数据分析仅需几步，详情访问https://www.aliyun.com/product/odps。

本讲义出自Kees Jan de Vries在Spark Summit East 2017上的演讲，骗子总试图使用盗取来的信用卡购买商品，预定机票和酒店等，这伤害了持卡人的信任和供应商在世界各地的业务，本讲义介绍了使用开源大数据软件：Spark, Spark ML, H2O, Hive, Esper等构建的实时防欺诈引擎，并介绍了面对的挑战。

477800562f0bc86b35e3636f262da982ec2e02dc

2c54e1e73437c43e1e2f7a12b5bf56a0d6e98e04

392f64f778c0727fd7b572ec9b0775d31209b033

de98b84ef7cd3a36b0359af7a495d561436de6b5

53d85e8ea939a552034c3d017d34c57795eb594b

5d2d4d72fdf9f4fe12938433191c0eba52637d10

c1e631c3746bbabe0b6fb67853b2d347dca6616f

e1bfd21d851a8fce73bcd7cdb2a1ff8da6bcb1d4

82b697d6b49b015146a28698b4be4c9719e99bf0

4b6c804103f7adce768d1d5f3c74441f4c16b525

10ff08e0ad4168b38666bf07012bcdbfba7d06c0

a742efd5c7de774c2b5b1dfd6fa9dcb54ba32a9e

5d5e15a0534533dadfc9ea6c2a5e66f41da50bc0

daead6d0f5aec050eb33c2e644d141a12efde1aa

f94f77a79244cd01cd91484c4b9ad76c1913d616

a61dc958fd4066a3fcbd547ad108b30fc765903a

c6ec119a088c754637ce73ebf4cf61563d25353c

b359d9bb63a31f827af460f1b693fc61feab6dad

b459134f7b15bb9d5c2dc740096ee12def1e7bd2

ff01a7ad224e4610aa29fa76a84297b726528193

30d83dd7ff2dbdda476c261a55970821f0eaece1

9a25fa699b326279de435c56894f3e12a83b63c6

200be4594fc27de9d9c7279e5989322f7fbcdbd0

f660c7746d5809ed75c664184208bc4f02d25306

eb9a3eee8708ea493578e423724ea586986d60a0

447b102d845ce55cf9f3f1fbcd3114620eea4c9b

facb0a3b2d372030a2259d2d1b2edf4237723c93

17ab958e7745cee028f636f71320b5385d47d89e

0cfe4ffb53d04cd93624fcc0b714955c743153a3

7709c93745f209849761a0a40159d547868de64c

515d3eae2241adb2b8f58955d624eb47743dc85c

40791c27891001e8ea68dd902b4b703f934d2d14

64dd0587a6aa36063797602d6930b6d835af313d

953c38bb0c54e1442549db70dc5cdaedac9f766e

521966bb269ed1386b6bdbcbee864c55fa6d3472

eae3191ef06c649f5490927516d05535ec1b8194

d602ee7464879fa3e4c5995d9fc6c644c6b287a6

6d10135cdcaa15edc7f71b3ad63506cf4e6a36c8

842f687b52eb275ce8eafe5815a69e9610632ee7

文章标签：

云原生大数据计算服务 MaxCompute

大数据

分布式计算

Spark

SQL

HIVE

MaxCompute

关键词：

云原生大数据计算服务 MaxCompute spark

云原生大数据计算服务 MaxCompute构建

云原生大数据计算服务 MaxCompute开源

云原生大数据计算服务 MaxCompute引擎

spark云原生大数据计算服务 MaxCompute

相关实践学习

简单用户画像分析

本场景主要介绍基于海量日志数据进行简单用户画像分析为背景，如何通过使用DataWorks完成数据采集、加工数据、配置数据质量监控和数据可视化展现等任务。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

小猫吃鱼569

muxiaoxi

19天前

存储大数据数据处理

PHP 与大数据：构建高效数据处理系统

传统的数据处理系统往往难以应对大规模数据的处理需求，而PHP作为一种常用的服务器端脚本语言，在数据处理方面也有其独特的优势。本文将探讨如何利用PHP构建高效的大数据处理系统，结合实际案例分析其应用场景及优势所在。

muxiaoxi

15 2 2

疯狂的猿

3月前

机器学习/深度学习 SQL 分布式计算

Apache Spark 的基本概念和在大数据分析中的应用

介绍 Apache Spark 的基本概念和在大数据分析中的应用

疯狂的猿

157 0 0

桃李春风一杯酒

8天前

分布式计算 Hadoop 大数据

大数据技术与Python：结合Spark和Hadoop进行分布式计算

【4月更文挑战第12天】本文介绍了大数据技术及其4V特性，阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce，Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop，可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop，以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。

桃李春风一杯酒

23 1 1

长梦

9天前

SQL 分布式计算 Hadoop

利用Hive与Hadoop构建大数据仓库：从零到一

【4月更文挑战第7天】本文介绍了如何使用Apache Hive与Hadoop构建大数据仓库。Hadoop的HDFS和YARN提供分布式存储和资源管理，而Hive作为基于Hadoop的数据仓库系统，通过HiveQL简化大数据查询。构建过程包括设置Hadoop集群、安装配置Hive、数据导入与管理、查询分析以及ETL与调度。大数据仓库的应用场景包括海量数据存储、离线分析、数据服务化和数据湖构建，为企业决策和创新提供支持。

长梦

40 1 1

xleesf

1月前

SQL 存储监控

构建端到端的开源现代数据平台

xleesf

49 4 4

DataWorks团队

1月前

人工智能 DataWorks 数据可视化

心动基于阿里云DataWorks构建游戏行业通用大数据模型

心动游戏在阿里云上构建云原生大数据平台，基于DataWorks构建行业通用大数据模型，如玩家、产品、SDK、事件、发行等，满足各种不同的分析型应用的要求，如AI场景、风控场景、数据分析场景等。

DataWorks团队

334 1 1

艾派森_

2月前

存储数据可视化 JavaScript

基于Echarts构建大数据招聘岗位数据可视化大屏

艾派森_

47 0 0

jerrywangsap

2月前

分布式计算大数据 Java

Spark 大数据实战：基于 RDD 的大数据处理分析

jerrywangsap

120 0 0

晓之以理的喵~~

3月前

分布式计算监控大数据

Spark RDD分区和数据分布：优化大数据处理

晓之以理的喵~~

142 0 0

cuicuicuic

2月前

分布式计算 DataWorks IDE

MaxCompute数据问题之忽略脏数据如何解决

MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构；本合集将提供MaxCompute数据的管理和优化指南，以及数据操作中的常见问题和解决策略。

cuicuicuic

47 0 0

【Spark Summit East 2017】使用开源大数据软件构建实时防欺诈引擎

热门文章

最新文章

相关课程

相关电子书

相关实验场景