王小雷 + 关注
专注大数据,人工智能的多面手,对新兴的技术与知识充满了好奇与渴望!

Ubuntu16.04安装Hadoop2.6+Spark1.6+开发实例

发布时间:2016-07-19 13:27:00 浏览:1791 评论 :0

Ubuntu16.04安装Hadoop2.6+Spark1.6,并安装python开发工具Jupyter notebook,通过pyspark测试一个实例,調通整个Spark+hadoop伪分布式开发环境。 主要内容:配置root用户,配置Hadoop,Spark环境变量,Hadoop伪分布式安装并测试实例,spark安装并通过Jupter notebook进行开发实例

python 分布式 hdfs hadoop ubuntu LOG 配置 测试 spark xml Mapreduce vim

python数据分析工具安装集合

发布时间:2016-07-18 18:55:00 浏览:1779 评论 :0

用python做数据分析离不开几个好的轮子(或称为科学棧/第三方包等),比如matplotlib,numpy, scipy, pandas, scikit-learn, gensim等,这些包的功能强大,丰富,包括含了绘图,机器学习,爬虫,数据分析等等。而开发工具推荐使用pycharm或者Jupyter notebook(ipython notebook)。开发起来的样子是这

linux python ubuntu windows 数据分析 pandas 开发工具 pip 大数据分析

spark编程python实例

发布时间:2016-07-17 23:51:00 浏览:2469 评论 :0

spark编程python实例 ValueError: Cannot run multiple SparkContexts at once; existing SparkContext(app=PySparkShell, master=local[]) 1.pyspark在jupyter notebook中开发,测试,提交 1.1.启动 IPYTHON_OPT

python code spark 编程 metadata source

Intellij idea配置scala开发环境

发布时间:2016-07-17 23:14:00 浏览:1926 评论 :0

1.Intellij idea配置scala开发环境 解决Plugin Scala was not installed: No route to host Plugin Scala was not installed: connect timed out Plugin Scala was not installed: Cannot download ‘http://pl

http 配置 scala 开发环境 插件 plugin IDEA

Windows下安装Hadoop

发布时间:2016-07-08 17:18:00 浏览:1928 评论 :0

Windows10下安装Hadoop2.6,Windows10下编译64位Hadoop2.x。详细记录了Windows10版本下对Hadoop的编译、安装步骤,以及相关包或者软件下载安装过程。 不需要在Cygwin下安装Hadoop,官方也不推荐使用Cygwin。 Hadoop版本支持情况:Hadoop 2.2版本起包括Windows的原生支持。截至2014年一月份,官

hdfs hadoop windows Apache 源码 测试 Maven 解决方案 Server Access Mapreduce cmd

R语言基础命令与安装

发布时间:2016-07-07 21:49:00 浏览:1072 评论 :0

1. R的安装过程 1.1.首先附上清华线路的下载链接Windows版3.3.1 1.2. 选择安装路径 1.3. 注意根据自己的计算机位数选择,如我的是64位,便选择64位安装。 1.4. 其他默认点击“下一步”即可。开启界面。 2. 基础命令学习 2.1 基本的矢量计算 加减乘除不在话下,遵循数学法则。 >

函数 脚本 mean

atom markdown转换PDF 解决AssertionError: html-pdf: Failed to load PhantomJS module

发布时间:2016-07-01 13:27:00 浏览:2665 评论 :0

atom编辑器markdown转换PDF 解决AssertionError: html-pdf: Failed to load PhantomJS module. You have to set the path to the PhantomJS binary using ‘options.phantomPath’ 环境Windows10 atom 1. atom编

path 插件 markdown

解决Pandoc wasn't found.pdflatex not found on PATH

发布时间:2016-07-01 10:13:00 浏览:2904 评论 :0

解决nbconvert failed: Pandoc wasn’t found.解决nbconvert failed: pdflatex not found on PATH 问题1描述 500 : Internal Server Error nbconvert failed: Pandoc wasn’t found. Please check that pando

http path 配置 Server html

基于Python3 神经网络的实现

发布时间:2016-06-29 12:25:00 浏览:2213 评论 :0

基于Python3 神经网络的实现(下载源码) 本次学习是Denny Britz(作者)的Python2神经网络项目修改为基于Python3实现的神经网络(本篇博文代码完整)。重在理解原理和实现方法,部分翻译不够准确,可查看Python2版的原文。原文英文地址(基于Python2) 概述如何搭建开发环境 安装Python3、安装jupyter notebook

network 神经网络

设置页眉的章节及标题方法

发布时间:2016-06-14 21:05:00 浏览:1234 评论 :0

设置页眉的章节及标题方法(以world 2016 版本为例) 1. 双击要修改的页眉 2. 打开“域”选项 选择“文档信息”后选择“域”选项 或者 “文档部件”选择“域” 3. 确定跟随方法 3.1 类别选择“连接与引用” 3.2 “域名”选择“StyleRef” 3.3 “样式名”选择“标题1,(章标题)”点击”确定 4. 完成修改。

域名 code

解决The Network Adapter could not establish the connection

发布时间:2016-05-15 22:26:00 浏览:4944 评论 :0

解决1 主机与虚拟机ping不通 解决2 状态: 失败 -测试失败: IO 错误: The Network Adapter could not establish the connection 本次尝试在主机连接虚拟机中的oracle12c,经过折腾后成功,总结如下: 环境:VMware ,oracle12 ,主机和虚拟机均安装Windows10 问题1

Oracle 防火墙 主机 测试 JDBC Ping network myEclipse

HBase数据模型(2)

发布时间:2016-04-28 17:45:00 浏览:971 评论 :0

HBase数据模型(1) HBase数据模型(2) 1.0 HBase的版本version,是一个用长整型表示的。由Rowkey、Column(列族和列)、Version组合在一起称为HBase中的一个单元格。 2.0 排序,Get和Scan操作返回的是经过排序的数据。返回的数据首先按行字典排序,其次是列族,然后是列修饰符(cloumn qualifier),最后是时

hbase 排序 负载均衡 Availability

HBase数据模型(1)

发布时间:2016-04-28 17:10:00 浏览:1379 评论 :0

HBase数据模型(1) HBase数据模型(2) 1.0 HBase的特性 Table HBase以表(Table)的方式组织数据,数据存储在表中。 Row/Column 行(Row)和列(Column)共同组成HBase的表。 Column Family 列族(Column)将一列或者多列组织在一起,HBase的列必须属于某一个列族。 Cell 行和列的交叉

hbase PUT 分布式数据库 存储 数据存储

Windows下Python多版本共存

发布时间:2016-04-26 10:54:00 浏览:1529 评论 :0

Windows下Python多版本共存 Python数据科学安装Numby,pandas,scipy,matpotlib等(IPython安装pandas) 0.0 因为公司项目,需要Python两个版本共存开发,一个2.7x用来处理空间数据主要配合ArcGIS,而另一个3.5x用来做算法应用。因此就必须在计算机中共存2.7x和3.5x版本的。这次解决共存后记录下来过程,分

python 算法 windows pandas IPython pip list

Oracle创建用户、表(1)

发布时间:2016-04-22 10:48:00 浏览:756 评论 :0

Oracle创建用户、表(1) 1. 连接 C:\Users\LEI>sqlplus / as sysdba SQL*Plus: Release 12.1.0.2.0 Production on 星期五 4月 22 10:17:52 2016 Copyright (c) 1982, 2014, Oracle. All rights reserved.

Oracle SQL Create session database account

Sqoop基础学习(1)

发布时间:2016-04-17 21:07:00 浏览:827 评论 :0

1. Sqoop的导入过程 在开始导入之前,Sqoop会通过JDBC来获得所需要的数据库元数据 1.导入表的列名、数据类型等; 2.接着这些数据库的数据类型(varchar、number等)会把映射成Java的数据类型(String、int等),根据这些信息,Sqoop会生成一个与表名同名的类用来完成反序列的工作,保持表中的每一行记录; 3.Sqoop启动MapRedu

java mysql hdfs 数据库 code string JDBC 序列 varchar Mapreduce 数据类型 input sqoop

Hive的HQL(2)

发布时间:2016-04-17 20:50:00 浏览:1139 评论 :0

Hive基础(1) Hive的HQL(2) 1. HQL的数据定义,HQL是一种SQL方言,支持绝大部分SQL-92标准。但是和SQL的差异为:不支持行级别的操作,不支持事务等。HQL的语法接近于MySQL。 2. Hive的数据库,本质仅仅是个表的目录或者命名空间。一般用数据库将生产表组织成逻辑组。 3. Hive中的表–管理表,创建表时未指定的话为默认为管

数据仓库 ADD BY string Hive test 分区表 Create 存储

Hive基础(1)

发布时间:2016-04-17 18:17:00 浏览:1053 评论 :0

Hive基础(1) Hive的HQL(2) 1. Hive并不是分布式的,它独立于机器之外,类似于Hadoop的客户端。 2. 元数据和数据的区别,前者如表名、列名、字段名等。 3. Hive的三种安装方式 内嵌模式,元数据服务和Hive服务运行在同一个JVM中,同时使用内嵌的Derby数据库作为元数据存储,该模式只能支持同时最多一个用户打开Hive会

分布式 防火墙 数据库 可扩展性 离线计算 Hive 磁盘 存储 数据类型 数据存储

MapReduce的过程(2)

发布时间:2016-04-17 16:54:00 浏览:1301 评论 :0

MapReduce的编程思想(1) MapReduce的过程(2) 1. MapReduce从输入到输出 一个MapReduce的作业经过了input、map、combine、reduce、output五个阶段。 其中combine阶段不一定发生,map输出的中间结果被分发到reduce的过程称为shuffle(数据混洗)。 shuffle阶段会发生copy(复制

算法 hdfs 函数 reduce 排序 编程 磁盘 Mapreduce 存储

MapReduce的编程思想(1)

发布时间:2016-04-17 16:51:00 浏览:1276 评论 :0

MapReduce的编程思想(1) MapReduce的过程(2) 1. MapReduce采用分而治之的思想,将数据处理拆分为主要的Map(映射)与Reduce(化简)两步,MapReduce操作数据的最小单位是一个键值对。 2. MapReduce计算框架为主从架构,分别是JobTracker与TaskTracker。 JobTracker在集群中为

架构 算法 监控 hadoop 模块 数据处理 配置 reduce 集群 编程 Mapreduce

7