目录
1.B tree(B- tree)
2.B+ tree(B+树)
2.1为什么需要B+树,B+树比B树更好呢?
2.1数据库索引采用B+树的主要原因
3.B*tree(B*树)
4.小结
1.B tree(B- tree)
B树( B tree)是一种平衡的多路查找树。2-3树和2-3-4树都是 B树的特例。节点最大的孩子数目称为B树的阶(order),因此,2-3树是3阶B树,2-3-4树是4阶B树。(注:B树就是B-树)
2-3树和2-3-4树可看:https://blog.csdn.net/weixin_42513339/article/details/89016963
一棵m阶的B树具有如下属性:
- 如果根节点不是叶节点,则其至少有两颗子树。
- 每一个非根节点的分支节点都有k-1个元素和k个孩子,其中[m / 2] (不小于m / 2的最小整数)<= k <= m。每一个叶子节点n都有k - 1个元素。
- 所有叶子节点都位于同一个层次。
- 所有分支节点包含下列信息数据(n,A0,K1,A1,K2,····Kn,An),其中:Ki(i = 1,2,···,n)为关键字,且Ki<Ki+1(i=1,2,3···n);Ai(i=1,2,3···n)为指向子树根节点的指针,且指针Ai-1所指子树中所有节点的关键字均大于Kn,n([m/2]-1<=n<=m-1)为关键字的个数(或n+1为子树的个数)。
例如:(阶数M=3)
B树的搜索,从根结点开始,对结点内的关键字(有序)序列进行二分查找,如果命中则结束,否则进入查询关键字所属范围的儿子结点;重复,直到所对应的儿子指针为空,或已经是叶子结点;
B-树的特点:
- 关键字集合分布在整颗树中;
- 任何一个关键字出现且只出现在一个结点中;
- 搜索有可能在非叶子结点结束;
- 其搜索性能等价于在关键字全集内做一次二分查找;
- 自动层次控制;
由于限制了除根结点以外的非叶子结点,至少含有M/2个儿子,确保了结点的至少利用率,其最底搜索性能为:
其中,M为设定的非叶子结点最多子树个数,N为关键字总数;
所以B-树的性能总是等价于二分查找(与M值无关),也就没有B树平衡的问题;
由于M/2的限制,在插入结点时,如果结点已满,需要将结点分裂为两个各占M/2的结点;删除结点时,需将两个不足M/2的兄弟结点合并;
2.B+ tree(B+树)
一个m阶B+树和m阶B树的区别在于:
- 有n棵子树的节点中包含有n个关键字。
- 所有叶子节点包含全部关键字的信息,及指向含这些关键字记录的指针,叶子节点本身依关键字的大小自小而大的顺序链接。
- 所有分支节点可以看成是索引,节点中仅含有其子树中的最大或最小关键字。
B+树可以看下图(从图中能看出叶子节点的链接,而且叶子节点中包含了全部的关键词)。
其中所有的叶子结点中包含了全部关键字的信息,及指向含有这些关键字记录的指针,且叶子结点本身依关键字的大小自小而大的顺序链接。 (而B 树的叶子节点并没有包括全部需要查找的信息)
另外,所有的非终端结点可以看成是索引部分,结点中仅含有其子树根结点中最大(或最小)关键字。 (而B 树的非终节点也包含需要查找的有效信息)
2.1为什么需要B+树,B+树比B树更好呢?
可以看下面这个例子:以下是一棵三阶B树,如果我们想要中序遍历,我们需要先到先到磁盘5——磁盘2——磁盘6——磁盘2——磁盘6——。。等等;这导致磁盘的多次访问,IO读写次数增大。
但是对于B+树,所有同一内部结点的关键字存放在同一盘块中,那么盘块所能容纳的关键字数量也越多。一次性读入内存中的需要查找的关键字也就越多。相对来说IO读写次数也就降低了。
而且B+树的叶子节点都是相链的,因此对整棵树的便利只需要一次线性遍历叶子结点即可。而且由于数据顺序排列并且相连,所以便于区间查找和搜索。(对于B树则需要进行每一层的递归遍历。相邻的元素可能在内存中不相邻,所以缓存命中性没有B+树好)
2.1数据库索引采用B+树的主要原因
B树在提高了磁盘IO性能的同时并没有解决元素遍历的效率低下的问题。正是为了解决这个问题,B+树应运而生。B+树只要遍历叶子节点就可以实现整棵树的遍历。而且在数据库中基于范围的查询是非常频繁的,而B树不支持这样的操作(或者说效率太低)。
3.B*tree(B*树)
B*树是B+树的变体,在B+树的基础上(所有的叶子结点中包含了全部关键字的信息,及指向含有这些关键字记录的指针),B*树中非根和非叶子结点再增加指向兄弟的指针;B*树定义了非叶子结点关键字个数至少为(2/3)*M,即块的最低使用率为2/3(代替B+树的1/2)。给出了一个简单实例,如下图所示:
B+树的分裂:当一个结点满时,分配一个新的结点,并将原结点中1/2的数据复制到新结点,最后在父结点中增加新结点的指针;B+树的分裂只影响原结点和父结点,而不会影响兄弟结点,所以它不需要指向兄弟的指针。
B*树的分裂:当一个结点满时,如果它的下一个兄弟结点未满,那么将一部分数据移到兄弟结点中,再在原结点插入关键字,最后修改父结点中兄弟结点的关键字(因为兄弟结点的关键字范围改变了);如果兄弟也满了,则在原结点与兄弟结点之间增加新结点,并各复制1/3的数据到新结点,最后在父结点增加新结点的指针。
所以,B*树分配新结点的概率比B+树要低,空间使用率更高。
4.小结
- B(B-)树:多路搜索树,每个结点存储M/2到M个关键字,非叶子结点存储指向关键字范围的子结点;所有关键字在整颗树中出现,且只出现一次,非叶子结点可以命中;
- B+树:在B-树基础上,为叶子结点增加链表指针,所有关键字都在叶子结点中出现,非叶子结点作为叶子结点的索引;B+树总是到叶子结点才命中;
- B*树:在B+树基础上,为非叶子结点也增加链表指针,将结点的最低利用率从1/2提高到2/3;
也可以这么看:
- B树:有序数组+平衡多叉树;
- B+树:有序数组链表+平衡多叉树;
- B*树:一棵丰满的B+树。
部分转自:https://blog.csdn.net/v_JULY_v/article/details/6530142