博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
MongoDB数据文件内部结构
阅读量:6227 次
发布时间:2019-06-21

本文共 1048 字,大约阅读时间需要 3 分钟。

有人在Quora上提问:内部的组织是什么样的。随后10gen的工程师出来做了简短的回答。

每一个数据库都有自己独立的文件。如果你开启了directoryperdb选项,那你每个库的文件会单独放在一个文件夹里。

数据库文件在内部会被切分成单个的块,每个块只保存一个名字空间的数据。在MongoDB中,名字空间用于区分不同的存储类别。比如每个collection有一个独立的名字空间,每个索引也有自己的名字空间。

在一个块中,会保存多条记录,每条记录是BSON格式的,记录与记录之间通过双向链表进行连接。

索引数据也存在数据文件中,不过索引是被组织成B Tree结构,而不是双向链表。

对每个数据库,有一个命名空间文件,用于保存每个名字空间对应的元数据。我们通过查询这些元数据来找到对应的名字空间的存储块位置。

如果你开启了jorunaling日志,那么还会有一些文件存储着你所有的操作记录。

下面图片摘自10gen工程师Mathias Stearn在MongoSV2011大会上的发言稿,手绘的数据文件结构。

1.每个数据库有相应的数据文件和命名空间文件

preview_slide_1

2.数据文件从16MB开始,新的数据文件比上一个文件大一倍,最大为2GB

preview_slide_2

3.文件使用MMAP进行内存映射,会将所有数据文件映射到内存中,但是只是虚拟内存,只有访问到这块数据时才会交换到物理内存。

preview_slide_4

preview_slide_3

4.MongoDB的数据文件映射到内存表中的位置

preview_slide_5

preview_slide_7

5.使用32位机器的话,内存地址最大可以标识4GB内存

preview_slide_8

preview_slide_6

6.但是在32位机器上,4GB内存会有1GB被内核战用,大约0.5GB会用于mongod进程的stack空间,只剩下大约2.5GB可用于映射数据文件。

preview_slide_9

preview_slide_10

preview_slide_11

7.在64位机器上则最多可以表示128TB的空间

preview_slide_12

preview_slide_13

preview_slide_14

8.每个数据文件会被分成一个一个的数据块,块与块之间用双向链表连接

preview_slide_16

preview_slide_15

9.在名字空间文件中,保存的是一个hash table,保存了每个名字空间的存储信息元数据,包括其大小,块数,第一块位置,最后一块位置,被删除的块的链表以及索引信息

preview_slide_17

preview_slide_18

10.这些位置通过DiskLoc数据结构进行存储,存储了数据文件编号和块在文件中的位置

preview_slide_20

preview_slide_19

preview_slide_22

preview_slide_21

11.对每一个块来说,其头部包含了一些块的元数据,比如自己的位置,上一个和下一个块的位置以及块中第一条和最后一条记录的位置指针。剩下的部分用于存储具体的数据,具体数据之间也是通过双向链接来进行连接。

preview_slide_23

preview_slide_24

preview_slide_25

12.下面是B Tree的存储结构和工作原理

preview_slide_26

preview_slide_27

preview_slide_28

preview_slide_30

preview_slide_29

preview_slide_31

preview_slide_32

preview_slide_33

preview_slide_34

anyShare据说看到好文章不转的人,服务器容易宕机!

文章转自: 

转载地址:http://hunna.baihongyu.com/

你可能感兴趣的文章
Io流的概述
查看>>
App 卸载记录
查看>>
JavaScript变量和作用域
查看>>
开源SIP服务器加密软件NethidPro升级
查看>>
百度页面分享插件源代码
查看>>
《别做正常的傻瓜》的一些读书心得
查看>>
作业:实现简单的shell sed替换功能和修改haproxy配置文件
查看>>
spring配置多数据源问题
查看>>
Altium 拼板方法以及 注意的 地方
查看>>
简明Linux命令行笔记:tail
查看>>
PMP考试的过与只是
查看>>
java 监控 收集资料3(收集中)
查看>>
Apache Pulsar中的地域复制,第1篇:概念和功能
查看>>
getRealPath()和getContextPath()的区别
查看>>
Hadoop MapReduce编程 API入门系列之wordcount版本2(六)
查看>>
一个页面标题和过滤输出的解决方案(上)
查看>>
python pip install 出现 OSError: [Errno 1] Operation not permitted
查看>>
oracle12C 重做日志
查看>>
Linux ubuntu lamp安装配置环境phpmyadmin
查看>>
data guard 的部署
查看>>