B tree、B- tree、B+ tree、B*tree

2023-10-26

1.B tree（B- tree）

2.B+ tree（B+树）

2.1为什么需要B+树，B+树比B树更好呢？

2.1数据库索引采用B+树的主要原因

3.B*tree（B*树）

4.小结

1.B tree（B- tree）

B树（ B tree）是一种平衡的多路查找树。2-3树和2-3-4树都是 B树的特例。节点最大的孩子数目称为B树的阶（order），因此，2-3树是3阶B树，2-3-4树是4阶B树。（注：B树就是B-树）

2-3树和2-3-4树可看：https://blog.csdn.net/weixin_42513339/article/details/89016963

一棵m阶的B树具有如下属性：

如果根节点不是叶节点，则其至少有两颗子树。
每一个非根节点的分支节点都有k-1个元素和k个孩子，其中[m / 2] （不小于m / 2的最小整数）<= k <= m。每一个叶子节点n都有k - 1个元素。
所有叶子节点都位于同一个层次。
所有分支节点包含下列信息数据（n，A0，K1，A1，K2，····Kn，An），其中：Ki（i = 1,2,···，n）为关键字，且Ｋi＜Ｋｉ＋１（ｉ＝１，２，３···ｎ）；Ａｉ（ｉ＝１,２,３···ｎ）为指向子树根节点的指针，且指针Ａｉ－１所指子树中所有节点的关键字均大于Ｋｎ，ｎ（［ｍ／２］－１＜＝ｎ＜＝ｍ－１）为关键字的个数（或ｎ＋１为子树的个数）。

例如：（阶数M=3）

B树的搜索，从根结点开始，对结点内的关键字（有序）序列进行二分查找，如果命中则结束，否则进入查询关键字所属范围的儿子结点；重复，直到所对应的儿子指针为空，或已经是叶子结点；

B-树的特点：

关键字集合分布在整颗树中；

任何一个关键字出现且只出现在一个结点中；

搜索有可能在非叶子结点结束；

其搜索性能等价于在关键字全集内做一次二分查找；

自动层次控制；

由于限制了除根结点以外的非叶子结点，至少含有M/2个儿子，确保了结点的至少利用率，其最底搜索性能为：

其中，M为设定的非叶子结点最多子树个数，N为关键字总数；

所以B-树的性能总是等价于二分查找（与M值无关），也就没有B树平衡的问题；

由于M/2的限制，在插入结点时，如果结点已满，需要将结点分裂为两个各占M/2的结点；删除结点时，需将两个不足M/2的兄弟结点合并；

2.B+ tree（B+树）

一个m阶B+树和m阶B树的区别在于：

有n棵子树的节点中包含有n个关键字。

所有叶子节点包含全部关键字的信息，及指向含这些关键字记录的指针，叶子节点本身依关键字的大小自小而大的顺序链接。

所有分支节点可以看成是索引，节点中仅含有其子树中的最大或最小关键字。

B+树可以看下图（从图中能看出叶子节点的链接，而且叶子节点中包含了全部的关键词）。

其中所有的叶子结点中包含了全部关键字的信息，及指向含有这些关键字记录的指针，且叶子结点本身依关键字的大小自小而大的顺序链接。 (而B 树的叶子节点并没有包括全部需要查找的信息)

另外，所有的非终端结点可以看成是索引部分，结点中仅含有其子树根结点中最大（或最小）关键字。 (而B 树的非终节点也包含需要查找的有效信息)

2.1为什么需要B+树，B+树比B树更好呢？

可以看下面这个例子：以下是一棵三阶B树，如果我们想要中序遍历，我们需要先到先到磁盘5——磁盘2——磁盘6——磁盘2——磁盘6——。。等等；这导致磁盘的多次访问，IO读写次数增大。

但是对于B+树，所有同一内部结点的关键字存放在同一盘块中，那么盘块所能容纳的关键字数量也越多。一次性读入内存中的需要查找的关键字也就越多。相对来说IO读写次数也就降低了。

而且B+树的叶子节点都是相链的，因此对整棵树的便利只需要一次线性遍历叶子结点即可。而且由于数据顺序排列并且相连，所以便于区间查找和搜索。（对于B树则需要进行每一层的递归遍历。相邻的元素可能在内存中不相邻，所以缓存命中性没有B+树好）

2.1数据库索引采用B+树的主要原因

B树在提高了磁盘IO性能的同时并没有解决元素遍历的效率低下的问题。正是为了解决这个问题，B+树应运而生。B+树只要遍历叶子节点就可以实现整棵树的遍历。而且在数据库中基于范围的查询是非常频繁的，而B树不支持这样的操作（或者说效率太低）。

3.Btree（B树）

B*树是B+树的变体，在B+树的基础上(所有的叶子结点中包含了全部关键字的信息，及指向含有这些关键字记录的指针)，B*树中非根和非叶子结点再增加指向兄弟的指针；B*树定义了非叶子结点关键字个数至少为(2/3)*M，即块的最低使用率为2/3（代替B+树的1/2）。给出了一个简单实例，如下图所示：

B+树的分裂：当一个结点满时，分配一个新的结点，并将原结点中1/2的数据复制到新结点，最后在父结点中增加新结点的指针；B+树的分裂只影响原结点和父结点，而不会影响兄弟结点，所以它不需要指向兄弟的指针。

B*树的分裂：当一个结点满时，如果它的下一个兄弟结点未满，那么将一部分数据移到兄弟结点中，再在原结点插入关键字，最后修改父结点中兄弟结点的关键字（因为兄弟结点的关键字范围改变了）；如果兄弟也满了，则在原结点与兄弟结点之间增加新结点，并各复制1/3的数据到新结点，最后在父结点增加新结点的指针。

所以，B*树分配新结点的概率比B+树要低，空间使用率更高。

4.小结

B（B-）树：多路搜索树，每个结点存储M/2到M个关键字，非叶子结点存储指向关键字范围的子结点；所有关键字在整颗树中出现，且只出现一次，非叶子结点可以命中；
B+树：在B-树基础上，为叶子结点增加链表指针，所有关键字都在叶子结点中出现，非叶子结点作为叶子结点的索引；B+树总是到叶子结点才命中；
B*树：在B+树基础上，为非叶子结点也增加链表指针，将结点的最低利用率从1/2提高到2/3；

也可以这么看：

B树：有序数组+平衡多叉树；
B+树：有序数组链表+平衡多叉树；
B*树：一棵丰满的B+树。

部分转自：https://blog.csdn.net/v_JULY_v/article/details/6530142

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

数据结构树堆Hash等