Linux内核分析 - 网络[六]:网桥

2023-10-29

        看完了路由表,重新回到netif_receive_skb ()函数,在提交给上层协议处理前,会执行下面一句,这就是网桥的相关操作,也是这篇要讲解的内容。

skb = handle_bridge(skb, &pt_prev, &ret, orig_dev);

        网桥可以简单理解为交换机,以下图为例,一台linux机器可以看作网桥和路由的结合,网桥将物理上的两个局域网LAN1、LAN2当作一个局域网处理,路由连接了两个子网1.0和2.0。从eth0和eth1网卡收到的报文在Bridge模块中会被处理成是由Bridge收到的,因此Bridge也相当于一个虚拟网卡。
 

STP五种状态
        DISABLED
        BLOCKING
        LISTENING
        LEARNING
        FORWARDING

创建新的网桥br_add_bridge [net\bridge\br_if.c]
当使用SIOCBRADDBR调用ioctl时,会创建新的网桥br_add_bridge。
        首先是创建新的网桥:

dev = new_bridge_dev(net, name);

        然后设置dev->dev.type为br_type,而br_type是个全局变量,只初始化了一个名字变量

SET_NETDEV_DEVTYPE(dev, &br_type);
static struct device_type br_type = {
 .name = "bridge",
};

        然后注册新创建的设备dev,网桥就相当一个虚拟网卡设备,注册过的设备用ifconfig就可查看到:

ret = register_netdevice(dev);

        最后在sysfs文件系统中也创建相应项,便于查看和管理:

ret = br_sysfs_addbr(dev);


将端口加入网桥br_add_if() [net\bridge\br_if.c]
当使用SIOCBRADDIF调用ioctl时,会向网卡加入新的端口br_add_if。
        创建新的net_bridge_port p,会从br->port_list中分配一个未用的port_no,p->br会指向br,p->state设为BR_STATE_DISABLED。这里的p实际代表的就是网卡设备。

p = new_nbp(br, dev);

        将新创建的p加入CAM表中,CAM表是用来记录mac地址与物理端口的对应关系;而刚刚创建了p,因此也要加入CAM表中,并且该表项应是local的[关系如下图],可以看到,CAM表在实现中作为net_bridge的hash表,以addr作为hash值,链入net_bridge_fdb_entry,再由它的dst指向net_bridge_port。

err = br_fdb_insert(br, p, dev->dev_addr); 

        设备的br_port指向p。这里要明白的是,net_bridge可以看作全局量,是网桥,而net_bridge_port则是与网卡相对应的端口,因此每个设备dev有个指针br_port指向该端口。

rcu_assign_pointer(dev->br_port, p);

        将新创建的net_bridge_port加入br的链表port_list中,在创建新的net_bridge_port时,会分配一个未用的port_no,而这个port_no就是根据br->port_list中的已经添加的net_bridge_port来找到未用的port_no的[具体如下图]。 

list_add_rcu(&p->list, &br->port_list);

        重新计算网桥的ID,这里根据br->port_list链表中的net_bridge_port的最小的addr来作为网桥的ID。

br_stp_recalculate_bridge_id(br);

        网卡设备的删除br_del_bridge()与端口的移除add_del_if()与添加差不多,不再详述。


熟悉了网桥的创建与添加,再来看下网桥是如何工作的。
        当收到数据包,通过netif_receive_skb()->handle_bridge()处理网桥:

static inline struct sk_buff *handle_bridge(struct sk_buff *skb,
         struct packet_type **pt_prev, int *ret,
         struct net_device *orig_dev)
{
 struct net_bridge_port *port;

 if (skb->pkt_type == PACKET_LOOPBACK ||
     (port = rcu_dereference(skb->dev->br_port)) == NULL)
  return skb;

 if (*pt_prev) {
  *ret = deliver_skb(skb, *pt_prev, orig_dev);
  *pt_prev = NULL;
 }

 return br_handle_frame_hook(port, skb);
}

        1. 如果报文来自lo设备,或者dev->br_port为空(skb->dev是收到报文的网卡设备,而在向网桥添加端口时,dev->br_port被赋予了创建的与网卡相对应的端口p),此时不需要网桥处理,直接返回报文;
        2. 如果报文匹配了之前的ptype_all中的协议,则pt_prev不为空,此时要先进行ptype_all中协议的处理,再进行网桥的处理;
        3. br_handle_frame_hook是网桥处理钩子函数,在br_init() [net\bridge\br.c]中
             br_handle_frame_hook = br_handle_frame;
             br_handle_frame() [net\bridge\br_input.c]是真正的网桥处理函数,

        下面进入br_handle_frame()开始网桥部分的处理:
        与前面802.1q讲的一样,首先检查users来决定是否复制报文:

skb = skb_share_check(skb, GFP_ATOMIC);

        如果报文的目的地址是01:80:c2:00:00:0X,则是发往STP的多播地址,此时调用br_handle_local_finish()来完成报文的进一步处理:

if (unlikely(is_link_local(dest))){
……
if (NF_HOOK(PF_BRIDGE, NF_BR_LOCAL_IN, skb, skb->dev,
   NULL, br_handle_local_finish))
  return NULL; /* frame consumed by filter */
 else
  return skb;
}

        而br_handle_local_finish()所做的内容很简单,因为是多播报文,主机要做的仅仅是更新报文的源mac与接收端口的关系(在CAM表中)。

static int br_handle_local_finish(struct sk_buff *skb)
{
 struct net_bridge_port *p = rcu_dereference(skb->dev->br_port);

 if (p)
  br_fdb_update(p->br, p, eth_hdr(skb)->h_source);
 return 0;  /* process further */
}

        接着br_handle_frame()继续往下看,然后根据端口的状态来处理报文,如果端口state= BR_STATE_FORWARDING且设置了br_should_route_hook,则转发后返回skb;否则继续往下执行state=BR_STATE_LEARNING段的代码:

rhook = rcu_dereference(br_should_route_hook);
if (rhook != NULL) {
 if (rhook(skb))
  return skb;
 dest = eth_hdr(skb)->h_dest;
}

        如果端口state= BR_STATE_LEARNING,如果是发往本机的报文,则设置pkt_type为PACKET_HOST,然后执行br_handle_frame_finish来完成报文的进一步处理。要注意的是,这里将报文发往本机的报文设为PACKET_HOST,实现了经过网桥处理后,再次进入netif_receive_skb()时,不会再被网桥处理(结果进入网桥的条件理解):

if (!compare_ether_addr(p->br->dev->dev_addr, dest))
  skb->pkt_type = PACKET_HOST;
NF_HOOK(PF_BRIDGE, NF_BR_PRE_ROUTING, skb, skb->dev, NULL,
  br_handle_frame_finish);

        除此之外,端口处于不可用状态,此时丢弃掉报文:

kfree_skb(skb);


        下面来详细看下br_handle_frame_finish()函数。
        首先还是会根据收到报文的源mac和端口更新CAM表,这是交换机区别于hub的重要特征:

br_fdb_update(br, p, eth_hdr(skb)->h_source);

        然后如果端口处于LEARNING状态,则只是学习到CAM表中,而不对报文作任何处理,所以丢弃掉报文:

if (p->state == BR_STATE_LEARNING)
  goto drop;

        否则端口已处于FORWARDING状态,此时分情况:
            1. 如果报文是多播的,则br_flood_forward(br, skb, skb2);
            2. 如果报文是单播的,但不在网桥的CAM表中,则br_flood_forward(br, skb, skb2);
            3. 如果报文是单播的,在网桥的CAM表中,但不是发往本机,则br_forward(dst->dst, skb, skb2);
            4. 如果报文是单播的,在网桥的CAM表中,且是发往本机,则br_pass_frame_upbr_pass_frame_up(skb2);

        br_handle_frame_finish()处理完后,顺着最后一种情况继续往下走,br_pass_frame_up()。
        该函数比较简单,我们知道,在底层报文的向上传递就是通过设备的更换来进行的(参考802.1q),这里将skb的设备换成网桥设备,使上层协议不知道报文来自网卡,而是认为报文来自于网桥;然后调用netif_receive_skb()再次进入接收栈:

skb->dev = brdev;
return NF_HOOK(PF_BRIDGE, NF_BR_LOCAL_IN, skb, indev, NULL,
         netif_receive_skb);

        经过网桥处理后,再次进入netif_receive_skb()->handle_bridge(),此时skb->dev已经不是网卡设备了,而是网桥设备,注意到在向网桥添加端口时,是相应网卡dev->br_port赋值为创建的端口,网桥设备是没有的,因此其br_port为空,在这一句会直接返回,进入正常的协议栈流程:

if (skb->pkt_type == PACKET_LOOPBACK ||
     (port = rcu_dereference(skb->dev->br_port)) == NULL)
  return skb;


        当发送数据报文时,会调用br_dev_xmit()[net\bridge\br_device.c],大致会根据目的地址调用br_multicast_deliver()或br_flood_deliver()或br_deliver(),在其过程中会将skb->dev由原来的网桥设备brdev换面网卡设备dev,然后通过网卡变更向下传递报文;
        内核协议栈中,发送与接收是分离的,接收像是报文脱壳的过程,发送则是函数的嵌套调用。有关发送的流程,稍后专门详述。

 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Linux内核分析 - 网络[六]:网桥 的相关文章

  • 【PaddlePaddle】 mnist手写数字识别(卷积神经网络)

    这篇文章主要讲解了卷积神经网络的使用 卷积神经网络可以用来提取图像特征 所以在计算机视觉上有很好的效果 系统 ubuntu18 04 python版本 python2 7 目录 训练模型 进行预测 完整代码 训练模型 先把需要用到的模块导入
  • 【日常总结】c++静态成员为啥要在类外进行初始化

    解释 类的静态成员变量内存不属于实例化的类 在类内只起到申明的作用 必须要在类外进行初始化 这个说法不严谨 类外主要是进行定义 分配内存 同时也可以赋初始值 代码例子 test h pragma once include
  • 【云原生之Docker实战】使用Docker部署Wizard文档管理系统

    云原生之Docker实战 使用Docker部署Wizard文档管理系统 一 Wizard介绍 1 Wizard简介 2 Wizard特点 二 检查宿主机系统版本 三 检查本地docker环境 1 检查docker服务状态 2 检查docke
  • 你看鱿鱼这么便宜,所以是不是很可怜?

    本文非技术分享 可能属于逻辑思考 再一次做梦 如下片段 有个朋友聊天问我 你看鱿鱼 那么便宜 是不是很可怜 我的内心 贵或者不贵 从哪能体现出它可怜不可怜呢 这逻辑有问题 我的回答 有点 又一次从梦中醒来 立马记录下做了什么梦 仅此而已 好
  • Android8.0、9.0安装包解析失败

    根据google官网得知 在8 0以上权限控制的更加严格 应用内安装下载更新的apk都需要申请 安装外面应用 权限才能去安装新应用 如果没有申请否则无法安装 顺便附上6 0 7 0设备解决方案 一 设备6 0
  • MDK 5.10 -- Reading one or more Pack descriptions failed

    MDK 5 10 的Pack Install 提示如下错误 解决办法 1 去掉 C Keil v5 ARM Pack Keil STM32L0xx DFP 1 5 0 Keil STM32L0xx DFP pdsc 文件的只读属性 2 用M
  • canvas生成自定义大小图片

    场景 比如移动端签名 一张canvas画布 在任意位置书写之后 生成一张图片 如果这种图片要放到某一个签名的位置会显的特别大 我们来解决这个问题 一 生成canvas图片 通过 canvas toDataURL image png 1 生成

随机推荐

  • Three.js文件及其插件链接

    Three js master包下载 由于官网three js master文件下载非常缓慢甚至经常下载失败 为了广大WebGL程序员的方便 博主专门下载下来放在百度网盘中分享给大家 百度网盘链接 链接 百度网盘 请输入提取码 提取码 0j
  • SQL批量删除数据操作

    SQL批量删除数据操作 文章目录 SQL批量删除数据操作 sql语句 DELETE和TRUNCATE区别 sql语句 删除数据 避免这么写 删除表全部数据 DELETE FROM student 删除指定数据 DELETE FROM stu
  • IOS 解决安装POD报You don't have write permissions for the /usr/bin directory的错误

    这段时间开始做IOS开发 使用pod管理第三方库 由于一些第三方不兼容最新的pod 所以要安装旧版本的pod 其中遇到的问题就是 You don t have write permissions for the usr bin direct
  • 学前steam教育范围

    近几年什么教育趋势席卷全球 发展势头如火如荼 相信很多人立刻会想到STEAM教育 该教育最早由美国提出 一直备受瞩目 STEAM教育的核心理念是强调学科之间的联系 以整合的形式进行教育 格物斯坦表示学前教育阶段的孩子学习STEAM教育对今后
  • Spring application context not configured for this file

    出现这个意思是新建的Spring配置文件没有被加入到spring里面 我是这样理解的 简单几步搞定 选择编辑器左上角file gt Project Structure 然后 最后别忘Apply OK
  • 构建实时数据可视化监控的全栈实现(Kafka+Spark+TimescaleDB+Flask+Node.js)

    因为项目需求 需要构建一个实时的数据监控系统 把平台上报的业务数据以1分钟的粒度进行呈现 为此我构建了以下的一个架构来实现 平台上报的业务数据会实时的发送消息给Kafka 例如平台每次为车辆进行OTA升级时 会发送一个OTA业务请求的事件
  • 寻找 有向图/无向图 所有环路的DFS暴力求解法(ps:C++代码,复杂度爆炸警告,生产环境慎用)

    思路 1 DFS算法可以求解图中从一点到另一点的全部路径 2 通过枚举所有顶点的邻接点 然后通过DFS寻找枚举点到的所有路径来寻找环路 3 思路很简单 但是算法复杂度确实是太高了 下面上代码 include
  • Java与MySQL时区

    一 CST 时区混乱 CST是一个混乱的时区 它有四种含义 美国标准时间 Central Standard Time USA UTC 06 00 或UTC 05 00 夏令时 3月11日至11月7日 使用 UTC 05 00 冬令时 11月
  • Invalid keystore format 报错解决

    修改JDK location的参数 我这里是android studio安装的时候有jre 自己配置开发环境的时候 也安装了jdk 切换到 android studio的jre 就可以了
  • 2012服务器系统有什么版本的,Win server 2012 哪个版本更合适

    原标题 Win server 2012 哪个版本更合适 Win server 2012 是服务器操作系统 很多客户咨询中很轻易的就将其和SQL数据库系统混淆 为此 小编总结了一些win server 2012 的相关信息 供各位参考 Win
  • ceph pg和pgp的区别

    一 前言 首先来一段英文关于PG和PGP区别的解释 PG Placement Group PGP Placement Group for Placement purpose pg num number of placement groups
  • Matlab中条件语句if详解

    以前在脚本中程序是按照顺序来执行的 限制性第一行 再执行第二行 但有时想要根据不同的情况执行不同的语句这就要用到判断语句if了 if语句的表达形式相当于 如果 那么 表达形式为 if condition condition就相当于执行一个动
  • 进程的虚拟内存,物理内存,共享内存

    想必在Linux上写过程序的同学都有分析进程占用多少内存的经历 或者被问到这样的问题 你的程序在运行时占用了多少内存 物理内存 通常我们可以通过top命令查看进程占用了多少内存 这里我们可以看到VIRT RES和SHR三个重要的指标 他们分
  • 将逐帧图片生成mp4格式视频——pyhton实现

    import cv2 img cv2 imread media lc LENOVO USB HDD MOT SimpleTrack SimpleTrack res img s0 png imgInfo img shape size imgI
  • 四十三.EMS项目Python实现

    显示系统的欢迎信息 print 20 欢迎使用员工管理系统 20 创建一个列表 用来保存员工信息 emps 孙悟空 t18 t男 t花果山 猪八戒 t28 t男 t高老庄 创建一个死循环 while True print 请选择要做的操作
  • 创建路由React router(使用react-router dom V6版本)

    React路由 隔了很长一段时间 重新捡起来React学习 发现React的路由从原来的 Switch改成了Routes nice nice nice 刚开始接触确实还是有一点生疏的 之前的关于 传参 js跳转 跳转模式 路由匹配 哪些还是
  • Matlab转c后 emxArray_real_T结构体说明

    struct emxArray real T double data 具体数据 row major顺序存储 int size 当前数据尺寸 行数 列数 int allocatedSize 当前分配的空间 int numDimensions
  • C语言基础:数据类型(一)

    C语言基础 数据类型 一 C语言是计算机中很多现代编程语言的开山鼻祖 它创造了信息时代和科技时代的文明 计算机语言由机器语言慢慢演变为高级语言 1958年7月3日 ALGOL语言 Algorithmic Language 创立 C语言的原型
  • Git介绍与相关操作

    git简介 git是用于版本控制的软件 保留历史记录 便于回溯 GitHub中文官方文档 访问GitHub GitHub520 无法访问GitHub太常见了 主要方法就是查ip 改本地host文件 GitHub520本质也是修改hosts来
  • Linux内核分析 - 网络[六]:网桥

    看完了路由表 重新回到netif receive skb 函数 在提交给上层协议处理前 会执行下面一句 这就是网桥的相关操作 也是这篇要讲解的内容 skb handle bridge skb pt prev ret orig dev 网桥可