NLP(十五)让模型来告诉你文本中的时间

2023-10-27

背景介绍

  在文章NLP入门(十一)从文本中提取时间 中,笔者演示了如何利用分词、词性标注的方法从文本中获取时间。当时的想法比较简单快捷,只是利用了词性标注这个功能而已,因此,在某些地方,时间的识别效果并不太好。比如以下的两个例子:

原文1:

苏北大量农村住房建于上世纪80年代之前。去年9月,江苏省决定全面改善苏北农民住房条件,计划3年内改善30万户,作为决胜全面建成小康社会补短板的重要举措。

用笔者之前的代码,提取的时间结果为:

提取时间: [‘去年9月’]

但实际上,我们提取的时间应该是:

上世纪80年代之前, 去年9月,3年内

原文2:

南宋绍兴十年,金分兵两路向陕西和河南大举进攻,在很快夺回了河南、陕西之后,又率大军向淮南大举进攻。

用笔者之前的代码,提取的时间结果为:

提取时间: [‘南宋’]

但实际上,我们提取的时间应该是:

南宋绍兴十年

  因此,利用简单的词性标注功能来提取文本中的时间会存在漏提、错提的情况,鉴于此,笔者想到能否用深度学习模型来实现文本中的时间提取呢?
  该功能类似于命名实体识别(NER)功能,只不过NER是识别文本中的人名、地名、组织机构名,而我们这次需要识别文本中的时间。但是,它们背后的算法原理都是一样的,即采用序列标注模型来解决。

项目

  在文章NLP(十四)自制序列标注平台中,笔者提出了一种自制的序列标注平台,利用该标注平台,笔者从新闻网站中标注了大约2000份语料,标注出文本中的时间,其中75%作为训练集(time.train文件),10%作为验证集(time.dev文件),15%作为测试集(time.test文件)。
  虽然我们现在已经有了深度学习框架方便我们来训练模型,比如TensorFlow, Keras, PyTorch等,但目前已有某大神开源了一个序列标注和文本分类的模块,名称为kashgari-tf,它能够方便快速地用几行命令就可以训练一个序列标注或文本分类的模型,容易上手,而且集中了多种模型(BiGRU,CNN, BiLSTM,CRF)以及多种预训练模型(BERT,ERNIE,wwm-ext),对于用户来说算是十分友好了。该模块的参考网址为:https://kashgari.bmio.net/
  笔者自己花了几天的时间来标注数据,目前已累计标注2000+数据 ,后续将放到Github供大家参考。我们训练的数据,比如time.train的前几行如下:(每一行中间用空格隔开)

1 B-TIME
6 I-TIME
0 I-TIME
9 I-TIME
年 I-TIME
, O
日 O
本 O
萨 O
摩 O
藩 O
入 O
侵 O
琉 O
球 O
国 O
, O
并 O
在 O
一 O
个 O
时 O
期 O
内 O
控 O
制 O
琉 O
球 O
国 O
...

  接着是模型这块,我们采用经典的BERT+Bi-LSTM+CRF模型,训练1个epoch,batch_size为16,代码如下:

# -*- coding: utf-8 -*-
# time: 2019-08-09 16:47
# place: Zhichunlu Beijing

import kashgari
from kashgari.corpus import DataReader
from kashgari.embeddings import BERTEmbedding
from kashgari.tasks.labeling import BiLSTM_CRF_Model

train_x, train_y = DataReader().read_conll_format_file('./data/time.train')
valid_x, valid_y = DataReader().read_conll_format_file('./data/time.dev')
test_x, test_y = DataReader().read_conll_format_file('./data/time.test')

bert_embedding = BERTEmbedding('chinese_L-12_H-768_A-12',
                               task=kashgari.LABELING,
                               sequence_length=128)

model = BiLSTM_CRF_Model(bert_embedding)
model.fit(train_x, train_y, valid_x, valid_y, batch_size=16, epochs=1)

model.save('time_ner.h5')

model.evaluate(test_x, test_y)

模型训练完后,得到的效果如下:

数据集 accuracy loss
训练集 0.9814 6.7295
验证集 0.6868 150.8513

在测试集上的结果如下:

数据集 precision recall f1
测试集 0.8547 0.8934 0.8736

  由于是小标注量,因此我们选择了用BERT预训练模型。如果不采用BERT预训练模型,在同样的数据集上,即使训练100个epoch,虽然在训练集上的准确率超过95%,但是在测试集上却只有大约50%的准确率,效果不行,因此,需要采用预训练模型。

测试效果

  在训练完模型后,会在当前目录下生成time_ner.h5模型文件,接着我们需要该模型文件来对新的文件进行预测,提取出文本中的时间。模型预测的代码如下:

# Load saved model
import kashgari

loaded_model = kashgari.utils.load_model('time_ner.h5')

while True:
    text = input('sentence: ')
    t = loaded_model.predict([[char for char in text]])
    print(t)

  接着我们在几条新的数据上进行预测,看看该模型的表现效果:

“原文”: “绿地控股2018年年度年报显示,截至2018年12月31日,万科金域中央项目的经营状态为“住宅、办公、商业”,项目用地面积18.90万平方米,规划计容建筑面积79.38万平方米,总建筑面积为105.78万平方米,已竣工面积32.90万平方米,总投资额95亿元,报告期实际投资额为10.18亿元。”,
“预测时间”: [
“2018年年度”,
“2018年12月31日”
]

“原文”: “经过工作人员两天的反复验证、严密测算,记者昨天从上海中心大厦得到确认:被誉为上海中心大厦“定楼神器”的阻尼器,在8月10日出现自2016年正式启用以来的最大摆幅。”,
“预测时间”: [
“两天”,
“昨天”,
“8月10日”,
“2016年”
]

“原文”: “不幸的是,在升任内史的同年九月,狄仁杰就在洛阳私宅离世。”,
“预测时间”: [
“同年九月”
]

“原文”: “早上9点25分到达北京火车站,火车站在北京市区哦,地铁很方便到达酒店,我们定了王府井大街的锦江之星,409元一晚,有点小贵。下午去了天坛公园,傍晚去了天安门广场。”,
“预测时间”: [
“早上9点25分”,
“下午”,
“傍晚”
],

总结

  利用深度学习模型,在小标注量数据上,我们对时间识别取得了不错的效果。后续如果我们想要提高时间识别的准确率,可以再多增加标注数据,目前还只有2000+数据~
  本项目已经开源,Github的地址为:https://github.com/percent4/Chinese_Time_Recogniztion

  另外,强烈推荐kashgari-tf模块,它能够让你在几分钟内搭建一个序列标注模型,而且方便加载各种预训练模型。

注意:不妨了解下笔者的微信公众号: NLP奇幻之旅(微信号为:easy_web_scrape), 欢迎大家关注~

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

NLP(十五)让模型来告诉你文本中的时间 的相关文章

随机推荐

  • 2D Alpha Shape:基于二维Delaunay(德洛内)三角网的边缘点查找

    文章目录 0 效果 1 Delaunay三角网基本内容 2 Bowyer Watson算法 3 基于Delanay方法的Alpha Shape确定散乱点的边缘点 4 代码实现 C Opencv 5 参考 0 效果 点间距10 1 Delau
  • Arduino智能小车——超声波避障

    Arduino智能小车 超声波避障 Arduino智能小车系列教程时空门 Arduino智能小车 拼装篇 点击跳转 Arduino智能小车 测试篇 点击跳转 Arduino智能小车 调速篇 点击跳转 Arduino智能小车 超声波避障 点击
  • Linux自带的RHCS集群套件简单认识及kvm,qemu,libvirt的简单认识

    一 简介 RHCS即 RedHat Cluster Suite 中文意思即红帽集群套件 红帽集群套件 RedHat Cluter Suite RHCS 是一套综合的软件组件 可以通过在部署时采用不同的配置 以满足你的对高可用性 负载均衡 可
  • CoreData(数据库升级 )版本迁移-iOS App升级安装

    如果IOS App 使用到CoreData 并且在上一个版本上有数据库更新 新增表 字段等操作 那在覆盖安装程序时就要进行CoreData数据库的迁移 具体操作如下 1 选中你的mydata xcdatamodeld文件 选择菜单edito
  • MySQL多版本并发控制分析 事务

    2 行的更新过程 下面演示下事务对某行记录的更新过程 1 初始数据行 F1 F6是某行列的名字 1 6是其对应的数据 后面三个隐含字段分别对应该行的事务号和回滚指针 假如这条数据是刚INSERT的 可以认为ID为1 其他两个字段为空 2 事
  • Javascript中最常用的30个经典技巧

    这个是我从网上找到的 整理了一下 1 nc ntextmenu window event returnValue false 将彻底屏蔽鼠标右键 table border border td no td table 可用于Table 2 取
  • Unity3d离散仿真引擎基础

    1 解释对象与资源的区别与联系 对象 对象直接出现在游戏场景中 是资源整合的具体表现 对象一般有玩家 敌人 游戏场景 摄像机等虚拟父类 这些父类没有实例化 而他们的子类实例化并包含了这些游戏对象 我们可以对这些对象进行操作 资源 资源可以是
  • [2023.8.28]Chapter1 ARM Embedded Systems

    ARM处理器内核是许多成功的32位嵌入式系统的关键组件 您可能自己就拥有其中之一 甚至可能没有意识到 ARM内核广泛应用于手机 手持组织器和其他许多日常便携消费设备中 从1985年的第一款ARM1原型机起 ARM的设计师们已经取得了长足的进
  • demo程序是什么_纯小白干货:第一个Java程序示例——Hello World!

    跟随世界潮流 第一个Java程序输出 Hell World 通过Eclipse运行程序 启动Eclipse 在菜单中选择 文件 gt 新建 gt Java项目 弹出对话框 填入项目名称 点击 完成 创建项目成功 可以看到在 E javawo
  • AsyncTask的实用-中断请求实现

    平时的app网络操作一般有几种方式 new Thread handler new AsyncTask 我常用的方式是new AsyncTask 可能比较方便吧 弊端 就是一旦请求 没有焦点 只能等待黑圈转完 new Thread 好处是好控
  • 【实践2】Python openpyxl获取Excel所有表名,删除Excel内指定工作表(判断是否存在某个sheet,存在即删除)

    简单介绍 定时爬虫任务会有每天使用pandas将数据写入Excel表中的动作 但每天写入的行数会有不同 例如第一天写入5000行而第二天只写入3000行 会导致该表中前3000行是最新数据 后2000是前一天的数据 因此最好的方法是在将数据
  • Magento关于添加Robots.txt文件

    在 Magento和其他电子商务平台的SEO话题中 有一个很常见的问题 怎样写robots txt文件 里面到底应该包含哪些内容 为了很好滴回答这个问题 我将根据我所有的知识和经验尝试找出一个最佳的robots txt文件写法 下面部分ro
  • 时间SQL查询大全

    查询15天之前得数据 modifydate 是数据库得时间字段格式yyyy MM dd hh mm ss SELECT FROM 表名 where DATE SUB CURDATE INTERVAL 15 DAY gt date modif
  • mysql数据库升级-MySQL 5.7.25主备架构小版本In-Place升级思路

    一 描述 漏扫发现MySQL有低风险漏洞 自己写方案 自己做测试 自己升级 版本 MySQL 5 7 25 升级到MySQL 5 7 28最新版本 架构 主从架构 二 升级流程 1 下载最新版数据库软件MySQL 5 7 28 2 上传到指
  • 萌新的Arduino大作业

    全自动收 晾衣服机 备注 本人因学校社团假期作业要求 用Arduino IDE编写并模拟实现了一个全自动 收 凉衣服的机器 由于硬件条件不足只能模拟 本人也是萌新一枚 希望观看的 大佬们不喜勿喷 有发现做错的话欢迎在评论区讨论 如果对你有帮
  • 西门子编程基础学习分享(3)-数据类型详述

    1200PLC的数据类型详述 前文所提到的数据类型用于描述数据的长度以及属性 即为指定数据元素的大小以及如何解释数据 每个指令至少支持一种数据类型 因而指令上使用的操作数的数据类型必须与指令所支持的数据类型一致 所以在设计程序 建立变量时需
  • Uva 540 Team Queue

    有t个团体的人正在排一个长队 每次新来一个人时 如果这个成员所在的团体已经有人在排队了 那么他就加到最后一个队友身后 如果整个大队列中没有他的团体 那么他就要排在整个大队列的最后 输入每个团队的人数 每个人的编号 要求支持下面的操作 前两种
  • 【订单服务】库存解锁和关单

    消息队列流程图 监听库存解锁 下单成功 库存锁定成功 接下来的业务调用失败 导致订单回滚 之前锁定的库存就要自动解锁 配置队列和交换机 Configuration public class MyRabbitConfig 使用json序列化机
  • 失业在家靠做PPT日赚800-1000元,有一门副业真的很重要!

    下班做PPT 半年挣8万是什么感觉 你好 我是佳佳 一个用PPT兼职挣钱的宝妈 我现在每天抽2个小时 坐在电脑前 把各种素材像拼图一样拼接一下 像这样 然后把成稿投稿到设计平台 就能挣到钱 你是不是觉得 我是个职业设计师 挺厉害的 不是的
  • NLP(十五)让模型来告诉你文本中的时间

    背景介绍 在文章NLP入门 十一 从文本中提取时间 中 笔者演示了如何利用分词 词性标注的方法从文本中获取时间 当时的想法比较简单快捷 只是利用了词性标注这个功能而已 因此 在某些地方 时间的识别效果并不太好 比如以下的两个例子 原文1 苏