爬虫数据库MongoDB的介绍

  1. 云栖社区>
  2. 博客>
  3. 正文

爬虫数据库MongoDB的介绍

张元江_erel 2018-11-17 20:11:35 浏览635 评论1

摘要: MongoDB (名称来自「humongous (巨大无比的)」), 是一个可扩展的高性能,开源,模式自由,面向文档的NoSQL,基于 分布式 文件存储,由 C++ 语言编写,设计之初旨在为 WEB 应用提供可扩展的高性能数据存储解决方案。

  • MongoDB (名称来自「humongous (巨大无比的)」), 是一个可扩展的高性能,开源,模式自由,面向文档的NoSQL,基于 分布式 文件存储,由 C++ 语言编写,设计之初旨在为 WEB 应用提供可扩展的高性能数据存储解决方案。
  • MongoDB使用的是内存映射存储引擎,它会把磁盘IO操作转换成内存操作,如果是读操作,内存中的数据起到缓存的作用,如果是写操作,内存还可以把随机的写操作转换成顺序的写操作,大幅度提升性能。
  • MongoDB 既拥有Key-Value存储方式的高性能和高度伸缩性,也拥有传统的RDBMS系统的丰富的功能,集两者的优势于一身。 介于关系数据库和NoSQL之间,也是功能最丰富、最像关系数据库的的NoSQL。

MongoDB官方文档:https://docs.mongodb.com

MongoDB中文社区:http://www.mongoing.com

MongoDB特点:

  • 模式自由 :可以把不同结构的文档存储在同一个数据库里
  • 面向集合的存储:适合存储 JSON风格文件的形式,
  • 完整的索引支持:对任何属性可索引,
  • 复制和高可用性:支持服务器之间的数据复制,支持主-从模式及服务器之间的相互复制。复制的主要目的是提供冗余及自动故障转移。
  • 自动分片:支持水平的数据库集群,可动态添加额外的机器。
  • 丰富的查询:支持丰富的查询表达方式,查询指令使用JSON形式的标记,可轻易查询文档中的内嵌的对象及数组。
  • 快速就地更新:查询优化器会分析查询表达式,并生成一个高效的查询计划。
  • 高效的传统存储方式:支持二进制数据及大型对象(如图片等...)。

根据DB-Engines的排名统计,MongoDB综合排名第五(2017年10月数据,前四名分别是Oracle,MySQL,SQL Server,PostgreSQL),在NoSQL领域(非RDBMS)里排名第一。
适用场景

  • 网站数据: 适合实时的插入,更新与查询,并具备网站实时数据存储所需的复制及高度伸缩性。
  • 缓存: 由于性能很高,也适合作为信息基础设施的缓存层。在系统重启之后,搭建的持久化缓存可以避免下层的数据源过载。
  • 高伸缩性的场景: 非常适合由数十或者数百台服务器组成的数据库。
    用于对象及JSON数据的存储: MongoDB的BSON数据格式非常适合文档格式化的存储及查询。

不适用的场景

  • 高度事物性的系统: 例如银行或会计系统。传统的关系型数据库目前还是更适用于需要大量原子性复杂事务的应用程序。
  • 需要使用SQL语句解决的场景: MongoDB不支持SQL语句。

下载mongodb的版本,两点注意

根据业界规则,偶数为稳定版,如3.2.X;奇数为开发版,如3.3.X
32bit的mongodb最大只能存放2G的数据,64bit就没有限制。
MongoDB官网安装包下载地址:http://www.mongodb.org/downloads

MongoDB安装文档:https://docs.mongodb.com/getting-started/shell/installation/

Ubuntu下安装MongoDB:

python@ubuntu:~$ sudo apt-get install mongodb

使用MongoDB,需要先启动服务端,再使用客户端连接数据库。
服务端

MongoDB 默认的存储数据目录为 /data/db,默认端口27017

服务的命令为mongod,可以通过help查看所有参数

python@ubuntu:~$ mongod --help
  • 相关文件存放路径:默认各个文件存放路径如下所示:
  • 可执行文件存放路径:/usr/bin/mongod 和 /usr/bin/mongo
  • 数据库文件存放路径:/data/db
  • 日志文件存放路径:/var/log/mongodb/mongod.log
  • 配置文件存放路径:/etc/mongod.conf

启动注意事项:

  1. 首次启动:
  • 启动MongoDB服务: sudo mongod
    报出如下错误,表示默认的存储数据目录 /data/db 不存在:

[initandlisten] exception in initAndListen: 29 Data directory /data/db not found., terminating

  • 创建 /data目录和 /data/db 目录,并指定 读/写/执行 权限
python@ubuntu:~$ sudo mkdir -p /data/db
python@ubuntu:~$ sudo chmod 777 /data/db
  1. 再次启动:
  • 再次启动MongoDB服务: sudo mongod
    启动成功,但是可能会有如下警告:
#### 此乃 Warning 1:
[initandlisten] ** WARNING: /sys/kernel/mm/transparent_hugepage/enabled is 'always'.
[initandlisten] **        We suggest setting it to 'never'
[initandlisten] 
[initandlisten] ** WARNING: /sys/kernel/mm/transparent_hugepage/defrag is 'always'.
[initandlisten] **        We suggest setting it to 'never'

#### 此乃 Warning 2:
[initandlisten] ** WARNING: soft rlimits too low. rlimits set to 1024 processes, 64000 files. Number of processes should be at least 32000 : 0.5 times number of files.

#### 此乃 Warning 3:
[initandlisten] ** WARNING: You are running this process as the root user, which is not recommended.

注意:这里的三个Warning并非必须处理,大家了解即可:
Warning 1:

[initandlisten] ** WARNING: /sys/kernel/mm/transparent_hugepage/enabled is 'always'. 
[initandlisten] ** We suggest setting it to 'never' [initandlisten] 
[initandlisten] ** WARNING: /sys/kernel/mm/transparent_hugepage/defrag is 'always'. [initandlisten] ** We suggest setting it to 'never'

Linux的内存分配默认由内核动态分配,而不是由程序自行管理。而MongoDB对内存占用有那么点...严重,所以为了防止MongoDB占用内存过大而被内核"管理",官方推荐关闭动态分配。

默认"always"表示允许动态分配,对应的"never"就是不允许,所以我们将这两个文件内容修改为"naver"后就没有warning了。

# Ctrl + c 退出 MongoDB 数据库服务
# 然后进入 root 用户下,执行修改命令

python@ubuntu:~$ sudo su
[sudo] python 的密码: 

root@ubuntu:~# sudo echo "never" > /sys/kernel/mm/transparent_hugepage/enabled
root@ubuntu:~# sudo echo "never" >  /sys/kernel/mm/transparent_hugepage/defrag

实际上,除非网站DBA对数据库性能有极限要求,在通常情况下系统动态分配的内存页大小足够我们正常使用,而且更能优化整个系统,所以一般不必理会这个warning。而且这样只是临时修改Linux内核的设置,在Linux服务器重启后则会失效。
Warning 2:

[initandlisten] ** WARNING: soft rlimits too low. rlimits set to 1024 processes, 64000 files. Number of processes should be at least 32000 : 0.5 times number of files.

这个WARNING(如果有的话)含义为: 表示默认分配给MongoDB的进程和文件数量限制过低,需要重新分配值:

  • mongodb当前限制:1024 processes, 64000 files
  • mongodb建议要求:processes = 0.5*files=32000(至少)
    咱们学习阶段默认用不着这么多的进程和文件,所以也可以不必理会。
# 打开 相关配置文件:
root@ubuntu:~# vi /etc/security/limits.conf

# 在打开的 文件最下方,添加,然后保存退出
mongod  soft  nofile  64000
mongod  hard  nofile  64000
mongod  soft  nproc  32000
mongod  hard  nproc  32000

Warning 3:

[initandlisten] ** WARNING: You are running this process as the root user, which is not recommended.

意思是我们在用root权限做这些事,理论上是不安全的。我们可以通过附加--auth参数,来使用用户认证来处理这个情况,这个后面会讲到。

  1. 再再次启动:
  • 再再次启动MongoDB服务: sudo mongod
    启动后查看进程,以确定是否启动成功
python@ubuntu:~$ ps aux | grep mongod
  • 如果进程中没有mongod的项则没有启动成功,可以通过查看日志来确定错误原因,默认日志文件为 /var/log/mongodb/mongod.log,最新的信息在最后面显示。

客户端

  • 客户端命令为 mongo,可以通过help查看所有参数。
  • 这个shell即是mongodb的客户端,用来对MongoDB进行操作和管理的交互式环境。
python@ubuntu:~$ mongo --help
  • 终端退出连接
> exit

(或Ctrl+C)

本文最终解释权归本文作者所有,未经允许不得私自转载

【云栖快讯】一站式开发者服务,海量学习资源免费学  详情请点击

网友评论