cnn 示意图_基于BERT+CNN及GRU语言模型的司法考试问答模型

2023-11-14

在上文[1]提到的BERT+CNN司法考试模型的基础上,对模型结构和参数进行了调整,调整后增加了CNN层数,示意图如图1:

图1 BERT编码后接入的CNN结构示意图

其中详细参数见图2:

图2 CNN和输出层的网络结构参数

在给出的司法考试训练集上,模型的精度为:单选0.2765,复选0.1397,合计0.1989。

在上述CNN基础上,引入了GRU网络结构,BERT表征后,接入4层双向GRU模型,输出连接100维全连接层,与CNN的600维全连接层合并后,接入输出层。改进模型的精度为:单选0.2723,复选0.2098,合计0.2376。

对单复选分类GBT模型进行了调整,引入四个选项特征,模型精度由67.3%提升至71.5%。在测试集与训练集数据分布完全一致的前提下,联合叙述和选项的单复选分类GBT模型和单复选BERT+CNN+GRU问答模型的得分应为0.715*0.2376=16.99%。

应在当前的排行榜中排第8名,如图3所示。

图3 2020.6.10司法考试排名截图

损失函数使用了CrossEntropyLoss[2],将输入经过softmax激活函数之后,再计算其与target的交叉熵损失。

单复选模型训练优化器选择了Adam[3],学习率为1E-3,betas=(0.9, 0.999),精度为1e-8,不开启权重衰减,不使用自动求导。

模型共训练2轮,过程如图4:

图4 模型训练过程损失函数值变化图(98.5%平滑图)

总结,本文引入了多层CNN可以提取BERT句子向量中高阶特征并利用了GRU对长文本特征的记忆能力,提升了原BERT和BERT+CNN的模型预测效果,在不引入其他知识的情况下(司法考试参考书),对原任务效果进行了提升。虽然与比赛第一名有差距,但未来仍有提升空间。

[1]基于BERT+CNN语言模型的司法考试问答模型 tsinghuaboy:基于BERT+CNN语言模型的司法考试问答模型

[2]Pytorch常用的交叉熵损失函数CrossEntropyLoss()详解 https://zhuanlan.zhihu.com/p/98785902

[3]A Method for Stochastic Optimization:Adam: A Method for Stochastic Optimization

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

cnn 示意图_基于BERT+CNN及GRU语言模型的司法考试问答模型 的相关文章

  • 多线程 并发编程与异步方法

    1 Parallel Programming中的PLINQ Parallel Class与Task Parallelism的特点 并发编程的内容类似于Google的Map Reduce的算法 多线程的着眼点是线程的互斥 同步等 而并行编程的
  • c++语言常量,C++常量(constant)

    在程序执行过程中 其值不能改变的量称为常量 Constant 普通常量的类型是根据数据的书写形式来决定的 如 100 是整型常量 0 5 是实型常量 q 是字符型常量 qianfeng 是字符串常量 1 整型常量 在 C 中 使用的整型常量
  • 计算机网络体系结构2

    1 计算机网络体系结构 由 网络协议 构成 规定了所交换的数据的格式 规定了所交换的数据的时序 数据内容所表示的含义等方面的内容 2 网络协议三要素 语法 数据与控制信息的结构或格式 语义 需要发出何种控制信息 完成何种动作以及做出何种响应
  • 703n无法进入路由管理界面reset无效重刷方法

    现在没法接网线获取不到地址 winscp也登不了 请问除了ttl线外不拆机能重刷吗 安全模式恢复 具体方法如下 网线连接电脑和703n 设置电脑ip地址为192 168 1 2 掩码默认 网关192 168 1 1 电脑 gt 开始 gt
  • 沐风老师3DMAX厨房橱柜生成器KitchenCabinetGenerator教程

    3DMAX厨房橱柜生成器插件使用方法 3DMAX橱柜生成器KitchenCabinetGenerator是一个在3dMax中自动创建三维橱柜模型的高效脚本 它有多种风格的台面 门和橱柜 可以灵活地应用于Archviz项目 同时为3D艺术家节
  • 分支算法应用2--快速排序

    快速排序 快速排序就是将一个需要排序的数组A a0 a n 1 顺序排列输出 首先从数组中随便找到一个元素x 然后将小于这个元素x的所有元素放到这个元素左边 将大于这个元素x的所有元素放到这个元素的右边 最后运用递归再对x左边和右边的元素进
  • Java使用有限状态机算法实现判断字符串是否合法

    题目描述 请根据给出的正则表达式来验证邮箱格式是否合法 如果用户输入的格式合法则输出 邮箱格式合法 否则输出 邮箱格式不合法 正确格式对应的正则表达式 a zA Z0 9 a zA Z0 9 a zA Z0 9 输入 123123 nowc
  • 做测试不会 SQL?超详细的 SQL 查询语法教程来啦!

    前言 作为一名测试工程师 工作中在对测试结果进行数据比对的时候 或多或少要和数据库打交道的 要和数据库打交道 那么一些常用的sql查询语法必须要掌握 最近有部分做测试小伙伴表示sql查询不太会 问我有没有sql查询语法这一块的文档可以学习
  • Linux CentOS7 系统中添加用户

    在linux centOS7系统中 添加用户是管理员的基本操作 作为学习linux系统的基本操作 对添加用户应该多方面了解 添加用户的命令useradd 跟上用户名 就可以快速创建一个用户 添加一些选项 可以设置更人性化的用户信息 本文从三
  • 数据结构—二叉树的构造

    pre class cpp 线索化二叉树 1 中序线索化二叉树 2 遍历线索化二叉树 include pre
  • Mac 中英文输入法切换快捷键caps lock失效解决办法

    使用mac的时候一直是通过caps lock快捷键进行中英文切换的 主要是在linux上使用vim修改程序的时候需要是英文的输入法 但是最近发现 使用caps lock快捷键切换时没反应 只能通过手动改中英文输入法 很是麻烦 查看系统设置也
  • IndexError: tuple index out of range

    1 如果想把CUDA tensor格式的数据改成numpy时 需要先将其转换成cpu float tensor随后再转到numpy格式 numpy不能读取CUDA tensor 需要将它转化为 CPU tensor 2 predicted
  • numpy tolist()的用法

    1 将数组或者矩阵转换成列表 如下 gt gt gt from numpy import gt gt gt a1 1 2 3 4 5 6 a1是列表 gt gt gt a2 array a1 列表 gt 数组 gt gt gt a2 arr
  • linux usb系统【全面】

    转自 http blog csdn net ljzcom article details 8574411 1 简述 USB 出自豪门 一问世便有 IBM Microsoft compaq 等前呼后拥 不红实在是没有道理 以致于连三岁小毛孩都
  • 利用Git连接远程仓库(详细步骤)

    利用Git连接远程仓库步骤及常见问题 1 先创建一个文件夹 名字为远程仓库的名称 2 在该文件目录下打开Git Bash 3 输入git init 进行初始化 初次连接时 4 连接远程仓库 初次连接是下一次进入该文件夹就不用了 输入下列命令
  • [528]attrib隐藏文件夹

    综述 小伙伴们总要有一些秘密是不能让别人知道的 之前我们使用的设置隐藏文件夹然后在控制面板设置不显示隐藏文件夹的方式都弱爆了 下面我们来用一种更高级的办法来设置隐藏文件夹 感受一下 设置隐藏 首先我们创建一个文件夹 比如名字叫 SECRET
  • 事务的实现原理

    事务的实现 简介 特性 ACID 状态与分类 实现机制 日志机制 redo log undo log 锁机制 如何使用 简介 有许多小伙伴初学事务还不太清楚是干什么的 那么我们在简介中一次性将事务给搞懂 首先我们先来简单的说一下事务是什么
  • nmap命令使用大全,详细清晰

    一 主机发现 全面扫描 综合扫描 nmap A 192 168 1 103 Ping 扫描 nmap sP 192 168 1 1 24 免 Ping 扫描 穿透防火墙 避免被防火墙发现 nmap P0 192 168 1 103 TCP
  • QNX系统+Crank的UI设计方案-qnx的HMI方案

    锋影 e mail 174176320 qq com 今天先把QNX Acceleration Kit验证一下

随机推荐

  • IDEA修改文件名和类名

    结果
  • 深入理解Direct3D9

    String Of Brilliant Blue QQ群 8082814 随笔 34 文章 32 评论 136 博客园 首页 新随笔 联系 管理 深入理解Direct3D9 深入理解D3D9对图形程序员来说意义重大 我把以前的一些学习笔记都
  • 正则高级应用

    案例 最近在使用notepad 做sql格式化 select from 之间的逗号后面的数据进行换行再加一个制表符 直接一个正则表达式搞定 s from SELECT biz date SUM bigorder add consum 1m
  • 索引设计原则

    索引设计原则 代码先行 索引后上 尽量先把业务sql写完 根据sql来看看如何建索引 联合索引尽量覆盖条件 比如可以设计一个或者两三个联合索引 尽量少建单值索引 联合索引尽量覆盖 mysql一般只会选一个索引走 很多where可能只走一个
  • org.apache.shiro.authc.AuthenticationException: Authentication failed for token submission [org.apac

    本人刚接触shiro 自己进行测试 发现报错 小白一个希望大佬们多多指点 在这跟大家说一下可能不是你们的错误 但是是我的错非常稀奇 好博客的解决方法都试了不管用 最后慢慢查慢慢看 我的错是 在走进到realm时的执行dao层方法时报这个错误
  • flutter dio 请求方式为form-data遇到的问题

    在网络中请求body中有三种方式 postbody query formdata 如下图 现在我们用的恰好是第一种方式 因为首次用这种方式 感觉也是比较坑 后面通过摸索 查看源码发现 需要用fromdata方式包装进去放到请求参数中 正确的
  • 电子元器件知识---三极管

    一 三极管 三级管可以实现这样的控制 当基级没有电流时 它是截止的 而当基极有了电流 三极管就导通了 接下来 简单阐述一下 它为什么能够实现这样的功能 下图是NPN型三极管的示意图 我们知道 硅原子外面含有4个电子 纯净的硅晶体并不导电 因
  • 前端面试思维导图,面试流程注意事项

    前端面试思维导图 前端面试有着一图足矣
  • 计算机网络笔记一(计算机网络基本概念、TCP/IP协议体系)

    1 计算机网络基础概念 1 1计算机网络定义 计算机网络就是互连的 自治的计算机集合 自治 无主从关系 互连 互联互通 1 2什么是Internet Internet是最大的计算机网络 1 2 1从组成细节的角度 由很多个ISP网络互连的网
  • Jira实战

    什么是问题类型 问题类型是为了在请求之间起到简单区别的作用 范例 缺陷 任务 功能 等等 属性 名称 描述 类型 标准类型 父 或子类型 子 图标 好处 图标在筛选器 仪表盘 面板和邮件通知上提供了视觉上的区别 你可以为每一个类型设定一个标
  • 学习笔记 JavaScript ES6 ES6中的类与继承

    学习内容 类的定义 类的继承 静态属性和方法的定义 ES6中 用class关键字声明一个类 class Peple constructor name age this name name this age age showName cons
  • C++多继承构造函数调用顺序

    class B1 public B1 int i cout lt lt consB1 lt
  • python的socket通信,实现数据监听,与串口助手连接并且收发

    1 Socket通信 1 Socket原理 Socket是一种网络通信的抽象接口 用于在不同计算机之间进行进程间通信或网络通信 Socket通常基于TCP IP协议栈 通过网络套接字 socket 在网络中传输数据 它允许不同计算机之间的进
  • 交通路标识别(毕业设计)

    概述 代码获取 可私信 在TensorFlow中实现单镜头多盒检测器 SSD 用于检测和分类交通标志 该实现能够在具有Intel Core i7 6700K的GTX 1080上实现40 45 fps 请注意 此项目仍在进行中 现在的主要问题
  • 基于 ACK Fluid 的混合云优化数据访问(一):场景与架构

    本系列文章将介绍如何基于 ACK Fluid 支持和优化混合云的数据访问场景 概述 在 AI 和大数据时代 算力即正义 强大的算力推动了源源不断的创新 然而 企业自建的算力集群存在资源容量和弹性能力相对有限的问题 在业务低谷时可能会面临高昂
  • CTF入门教程(非常详细)从零基础入门到竞赛,看这一篇就够了!

    目录 一 CTF简介 二 CTF竞赛模式 三 CTF各大题型简介 四 CTF学习路线 4 1 初期 1 html css js 2 3天 2 apache php 4 5天 3 mysql 2 3天 4 python 2 3天 5 burp
  • [Concept] IETF 国际互联网工程任务组

    IETF The Internet Engineering Task Force 国际互联网工程任务组 1 1985年成立 2 公开性质的大型国际民间团体 3 互联网标准化组织 4 主要任务 负责互联网相关技术规范的研发和制定 可以在官方网
  • 向Git提交新项目

    向Git提交新项目 假设现在存在项目iyowei cn 项目目录结构如下 1 2 3
  • Maven学习笔记二十:Maven仓库(远程仓库的配置)

    Maven仓库 远程仓库的配置 在很多情况下 默认的中央仓库无法满足项目的需求 可能项目需要的构件存在于另外一个远程仓库中 如 JBoss Maven仓库 这时 可以在POM中配置该仓库 见代码请单
  • cnn 示意图_基于BERT+CNN及GRU语言模型的司法考试问答模型

    在上文 1 提到的BERT CNN司法考试模型的基础上 对模型结构和参数进行了调整 调整后增加了CNN层数 示意图如图1 图1 BERT编码后接入的CNN结构示意图 其中详细参数见图2 图2 CNN和输出层的网络结构参数 在给出的司法考试训