1. 云栖社区>
  2. 全部标签>
  3. #数据分析#
数据分析

#数据分析#

已有27人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

【Spark Summit East 2017】用于数据分析的基于Kerberos的安全的Spark Notebook

本讲义出自Joy Chakraborty在Spark Summit East 2017上的演讲,主要介绍了为了使用Spark构建基于Kerberos的安全的JupyterHub笔记本所提出的技术设计和开发思想。

安全 数据分析 spark

【Spark Summit East 2017】Apache Toree:Spark的一种Jupyter内核

本讲义出自Marius van Niekerk在Spark Summit East 2017上的演讲,主要介绍了Toree的设计思想,Toree如何与Jupyter生态系统交互,以及用户如何借助强大的插件系统来扩展Apache Toree的功能。

Apache 数据分析 spark 插件

技术——1

PostgreSQL 是一个自由的对象-关系数据库服务器(数据库管理系统),它在灵活的 BSD-风格许可证下发行。它提供了相对其他开放源代码数据库系统(比如 MySQL 和 Firebird),和专有系统(比如 Oracle、Sybase、IBM 的 DB2 和 Microsoft SQL Server)之外的另一种选择。 Docker 是一个开源的应用容器引擎,让开发者可

编程语言 python 深度学习 java 服务器 函数 http 面向对象 数据库 中间件 容器 数据分析 沙箱 序列 数据统计

知识——————1

PostgreSQL 是一个自由的对象-关系数据库服务器(数据库管理系统),它在灵活的 BSD-风格许可证下发行。它提供了相对其他开放源代码数据库系统(比如 MySQL 和 Firebird),和专有系统(比如 Oracle、Sybase、IBM 的 DB2 和 Microsoft SQL Server)之外的另一种选择。 Docker 是一个开源的应用容器引擎,让开发者可

编程语言 python 深度学习 java 服务器 函数 http 面向对象 数据库 中间件 容器 数据分析 沙箱 序列 数据统计

机器学习中的归一化

归一化化定义:我是这样认为的,归一化化就是要把你需要处理的数据经过处理后(通过某种算法)限制在你需要的一定范围内。首先归一化是为了后面数据处理的方便,其次是保正程序运行时收敛加快。 数据归一化的目的是为了把不同来源的数据统一到一个参考系下,这样比较起来才有意义。 数据归一化,很重要。比如在用SVM分类时,数据尺度不统一对分类准确率影响很大。归一化一般将数据规整到一个小范围之间,如[0,

算法 函数 数据处理 数据分析 数据挖掘

【Spark Summit EU 2016】物联网中的Lambda架构——使用Spark Streaming与MLlib进行快速数据分析

本讲义出自Bas Geerdink在Spark Summit EU 2016上的演讲,主要介绍了物联网时代新的数据形式、新的用例、新的技术以及新的挑战,并介绍了什么是快速数据以及什么是大数据,并详细地介绍了物联网中的Lambda架构,流处理和批处理的相关内容以及如何使用Spark Streaming与MLlib进行快速数据分析。

大数据 架构 数据分析 spark MLlib 物联网

【Spark Summit EU 2016】寻找流式数据中的异常:一种有趣的可伸缩方法

本讲义出自Casey Stella在Spark Summit EU上的演讲,主要介绍了流数据分析和其优缺点以及异常数据分析的方法,还介绍了在分布式计算框架中可以附加到时间序列数据流的混合异常分析方法,并详细介绍了这种可伸缩的异常分析方法的架构设计。

架构 数据流 数据分析 spark 分布式计算 序列 流数据

【Spark Summit EU 2016】Apache Kudu&Spark SQL:对快数据进行快速分析

本讲义出自 Mike Percy在Spark Summit EU上的演讲,主要介绍了Cloudera开发的大型开源储存引擎 Kudu,该引擎用于储存和服务大量不同类型的非结构化数据,并且介绍了使用Kudu+Spark SQL对于数据进行快速分析的方法,并分享了多个使用Kudu+Spark SQL进行数据分析的实际案例。

SQL Apache 数据分析 spark

【Spark Summit EU 2016】经验分享:将SparkR用于生产环境下的数据科学应用中

本讲义出自Heiko Korndorf在Spark Summit EU 2016上的演讲,主要分享了R语言以及现实场景下使用R语言进行数据分析的应用案例,并且将引领大家使用SparkR扩展R语言应用,并介绍了SparkR1.X和2.X架构,并介绍了这两个版本的SparkR分别如何获取。

架构 数据分析 spark

【Spark Summit EU 2016】Spark——打造处理石油工业数据的全球化计算引擎

本讲义出自Yaroslav Nedashkovsky与Andy Starzhinsky在Spark Summit EU 2016上的演讲,主要介绍了从数据收集到预测分析的石油行业的数据分析过程,并且分享了如何利用Spark打造处理石油工业数据的全球化计算引擎。

数据分析 spark

【Spark Summit East 2017】Hail:基于Spark的可伸缩基因数据分析平台

本讲义出自Cotton Seed在Spark Summit East 2017上的演讲,主要分享了关于开源项目Hail(https://hail.is)的相关内容,Hail是基于Spark实现的可伸缩的平台,该平台帮助全球的基因遗传学社区去构建、共享以及应用新的工具。

性能 HTTPS 数据分析 spark

【Spark Summit East 2017】企业如何通过Spark挤入人工智能快车道

本讲义出自Mike Gualtieri在Spark Summit East 2017上的演讲,主要分享了企业如何充分利用Spark在人工智能的研究中取得一席之地,以及人工智能如何帮助企业优化产品的用户体验。

深度学习 分布式 人工智能 用户体验 数据分析 spark

开启数据智慧,阿里云大数据团队调研高新区

随着“云计算”、“互联网”、“物联网”的快速发展,大数据(Big Data)也吸引了越来越多的人关注,成为社会热点之一。大街小巷不论是技术人员、咨询人士以及各行各业的精英达人都在探讨着“大数据”,“大数据”显然已经成为新一代“网红”。

分布式 大数据 阿里云 数据处理 创业 互联网 人工智能 阿里巴巴 数据分析 数加 云计算与大数据 分析型数据库 数据存储 流计算 数据应用

MongoDB应用案例:使用 MongoDB 存储日志数据

线上运行的服务会产生大量的运行及访问日志,日志里会包含一些错误、警告、及用户行为等信息,通常服务会以文本的形式记录日志信息,这样可读性强,方便于日常定位问题,但当产生大量的日志之后,要想从大量日志里挖掘出有价值的内容,则需要对数据进行进一步的存储和分析。 本文以存储 web 服务的访问日志为例,介

MongoDB HTTPS 日志 http events path 数据分析 DB 索引 html 存储 日志分析 云数据库MongoDB版

Docker时代——如何实现日志数据一键上云

1 准备工作 1.1 开通MaxCompute服务 参考使用MaxCompute的准备工作 1.2 开通Datahub服务 进入Datahub Web控制台,创建project(注意:首次使用的用户需要申请开通) 1.3 安装Docker环境 Docker官方说明了在不同操作系统下安装Docker的方法,您可以点击此处查看。

docker 阿里云 HTTPS 日志 镜像 数据分析 操作系统 控制台 aliyun test Registry 数据采集 MaxCompute

空格App亿元A轮融资背后:云上多场景技术架构实践与经验

空格APP上线仅仅60天就获得1亿A轮融资,同时依靠阿里云只用了两个礼拜就实现了APP上线。空格技术合伙人刘博本次分享主要介绍了阿里云在空格内的应用经验包括服务端整体架构的搭建和搜索、推荐和数据平台业务场景下的实践探索。

搜索 opensearch 数据分析 推荐 空格 大数据计算 MaxComptue

Python+大数据计算平台,PyODPS架构手把手教你搭建

在2016年10月的云栖社区在线培训上,来自阿里云大数据事业部的秦续业分享了《双剑合壁——Python和大数据计算平台的结合实战》。他主要介绍了数据分析和机器学习的方法、DataFrame整体架构以及基础API、前端、后端、机器学习的具体实现方法。

python 大数据 架构 机器学习 函数 SQL 数据处理 odps 数据分析 DataFrame pandas 表达式 大数据分析 MaxCompute 大数据计算平台

【大数据干货】轻松处理每天2TB的日志数据,支撑运营团队进行大数据分析挖掘,随时洞察用户个性化需求。

“用户每天产生的日志量大约在2TB。我们需要将这些海量的数据导入云端,然后分天、分小时的展开数据分析作业,分析结果再导入数据库和报表系统,最终展示在运营人员面前。”墨迹天气运维部经理章汉龙介绍,整个过程中数据量庞大,且计算复杂,这对云平台的大数据能力、生态完整性和开放性提

大数据 架构 阿里云 日志 配置 数据分析 数加 运营 云平台 带宽 存储 流计算 日志分析 大数据分析 MaxCompute

336
GO