python使用HanLP命名实体识别(以识别人名为例)

2023-10-29

首先需要安装依赖包:pip install pyhanlp

识别人名的代码如下:

from pyhanlp import HanLP


def extract_chinese_name(string: str) -> list:
    """使用HanLP人名识别"""
    if (string is None) or (string == ""):
        return []
    segment = HanLP.newSegment().enableNameRecognize(True)
    user_list = []
    for i in segment.seg(string):
        split_words = str(i).split('/')  # check //m
        word, tag = split_words[0], split_words[-1]
        if tag == 'nr':
            user_list.append(word)
    return user_list


if __name__ == '__main__':
    user_list = extract_chinese_name("《八佰》(英語:The Eight Hundred)是一部于2020年上映的以中国历史上的战争为题材的电影,由管虎执导,黄志忠、张俊一.....")
    print(user_list) # ['管虎', '黄志忠', '张俊']

这里的nr就表示人名的含义,Hanlp使用隐马模型进行分词,词性标注表可以参考:https://www.hankcs.com/nlp/part-of-speech-tagging.html

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

python使用HanLP命名实体识别(以识别人名为例) 的相关文章

随机推荐

  • 细谈Vue中插槽Slots

    细谈Vue中插槽Slots 浅谈Vue中插槽Slots 1 默认插槽 2 后备内容 3 具名插槽 4 作用域插槽 5 代码实践 浅谈Vue中插槽Slots
  • Java中的SPI机制及接口多实现调用

    1 SPI机制 SPI 全称为 Service Provider Interface 是JDK内置的一种服务提供发现机制 SPI充分体现了面向接口编程的特点 系统内置接口方法 在实际运行中用户可以自定义实现类来满足不通的实现需求 SPI机制
  • Mybatis-plus接口绑定xml语句

    我们启动没有配置任何东西的时候的 报错 AbstractHandlerExceptionResolver java 194 org springframework web servlet mvc method annotation Exce
  • 搭建redis哨兵集群,master宕机后无法执行故障切换的解决方法

    最近在学习搭建redis哨兵集群时 遇到的一些问题 分享一下 首先说明一下 我是同一台虚拟机中开启3个redis实例 模拟主从集群 一个master端口为7001 2个slave端口为7002 7003 3个哨兵sentinel实例端口为2
  • MyBatis-Generator在Eclipse上配置及使用

    之前用MyBatis框架的时候 都是手敲的代码 就感觉到好麻烦的样子 今天就到网上搜了一下MyBatis自动构建工具 就发现在官网上推荐了MyBatis Generator这个构建工具 官网推荐地址 http mybatis github
  • fio数据生成曲线图

    1 背景 我们常常在测试fio的时候 一般只会看到最终测试结果 如下所示 root localhost zhangyi fio filename test file direct 1 rw randwrite numjobs 1 iodep
  • HTML中表格的属性

    tips 不敢说经常用table 介绍本篇文章源于朋友问的一个简单问题 怎么获取table中某个单元格中的数据 table rows length 表格是网页制作时最常使用的元素了 可以说 大部分的网页都是由表格支撑的 没有表格的网页绝对是
  • 邮件发送工具类及邮箱有效性校验

    邮件对象 import lombok Data import java util Date 邮件对象 author huxiang Data public class Email 邮件标题 private String subject 邮件
  • 时间复杂度和空间复杂度的计算

    1 时间复杂度 1 1一层循环 1 1 1解题思路 列出循环趟数t和每轮循环i的值 找到t与i的关系 确定循环停止条件 联立解方程 写结果 1 1 2举例 求时间复杂度 i n n while i 1 i 2 t 0 1 2 i t与i的关
  • Go语言sync.Map

    Go语言中的 map 在并发情况下 只读是线程安全的 同时读写是线程不安全的 如果想实现并发线程安全有两种方法 map加互斥锁或读写锁 标准库sync map Go1 19 新特性 sync map源码 https github com g
  • Servlet的生命周期

    在 Java 中 任何对象都有生命周期 Servlet 也不例外 Servlet 的生命周期如下图所示 图 Servlet生命周期 图 描述了 Servlet 的生命周期 按照功能的不同 大致可以将 Servlet 的生命周期分为三个阶段
  • 一篇文章了解什么是串口,UART、RS-232、RS-422、RS-485

    通讯问题 和交通问题一样 也有高速 低速 拥堵 中断等等各种情况 如果把串口通讯比做交通 UART比作车站 那么一帧的数据就好比汽车 汽车跑在路上 要遵守交通规则 如果是市内 一般限速30 40 而高速公路则可以到120 而汽车走什么路 限
  • android 项目中出现红色感叹号的解决方法

    文本转载 http www apkbus com forum php mod viewthread tid 5629 问题原因 工程中classpath中指向的包路径错误 解决办法 右键项目名称 BuildPath gt Configure
  • Unicode(UTF-8, UTF-16)令人混淆的概念

    为啥需要Unicode 我们知道计算机其实挺笨的 它只认识0101这样的字符串 当然了我们看这样的01串时肯定会比较头晕的 所以很多时候为了描述简单都用十进制 十六进制 八进制表示 实际上都是等价的 没啥太多不一样 其他啥文字图片之类的其他
  • 2023年全国普通高校学科竞赛排行榜,中国高等教育学会版,84项(新增27项)

    2023年全国普通高校学科竞赛排行榜 中国高等教育学会版 84项 新增27项 文章目录 2023榜单竞赛 2023年3月22日 中国高等教育学会高校竞赛评估与管理体系研究专家工作组发布 2022全国普通高校大学生竞赛分析报告 以下简称 分析
  • 八、基础教程-数据列(Series)

    数据列配置是 Highcharts 最复杂也是最灵活的配置 如果说 Highcharts 是灵活多变 细节可定制的话 那么数据列配置就是这个重要特性的核心 一 什么是数据列 数据列是一组数据集合 例如一条线 一组柱形等 图表中所有点的数据都
  • 在create-react-app项目下,使用eslinit和prettier美化代码

    虽然官方脚手架create react app当中默认提供了eslint 但是由于官方的配置不是很充分 导致了在是进行代码优化方面不是很理想 但是 我们可以自行配置达到写出高质量代码的目的 ESlint 不是自带格式化吗 为什么还要用 Pr
  • 央行发行数字货币对我们意味着什么?

    实际上恰恰在这种行情下 我们才能不受价格暴涨和利益诱惑沉下心来研究业界实质性的进展 发现孕育下一波红利的机遇 央行数字货币有了实质性进展 8月10日 中国人民银行支付结算司副司长穆长春表示人民银行的数字货币已经呼之欲出 并介绍了人行数字货币
  • 电路基础(1)电路模型和电路定律

    电路中的电压 电流之间具有两种约束 一种是由电路元件决定的元件约束 另一种是元件间连接而引入的几何约束 就是拓扑约束 后者由基尔霍夫定律来表达 基尔霍夫定律是集总参数电路的基本定律 1 电路和电路模型 电源又称为激励源或激励 由激励在电路中
  • python使用HanLP命名实体识别(以识别人名为例)

    首先需要安装依赖包 pip install pyhanlp 识别人名的代码如下 from pyhanlp import HanLP def extract chinese name string str gt list 使用HanLP人名识