基于python中jieba包的详细使用介绍

2023-05-16

一,jieba的介绍

jieba 是目前表现较为不错的 Python 中文分词组件,它主要有以下特性:

  • 支持四种分词模式

    • 精确模式
    • 全模式
    • 搜索引擎模式
    • paddle模式
  • 支持繁体分词

  • 支持自定义词典

  • MIT 授权协议

二,安装和使用

1,安装
pip3 install jieba
2,使用
import jieba

三,主要分词功能

1,jieba.cut 和jieba.lcut

lcut 将返回的对象转化为list对象返回

传入参数解析:

def cut(self, sentence, cut_all=False, HMM=True, use_paddle=False):
# sentence: 需要分词的字符串;
# cut_all: 参数用来控制是否采用全模式;
# HMM: 参数用来控制是否使用 HMM 模型;
# use_paddle: 参数用来控制是否使用paddle模式下的分词模式,paddle模式采用延迟加载方式,通过enable_paddle接口安装paddlepaddle-tiny
1)精准模式(默认):

试图将句子最精确地切开,适合文本分析

seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("精准模式: " + "/ ".join(seg_list))  # 精确模式

# -----output-----
精准模式:/ 来到/ 北京/ 清华大学
2)全模式:

把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;

seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("全模式: " + "/ ".join(seg_list))  # 全模式

# -----output-----
全模式:/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学
3)paddle模式

利用PaddlePaddle深度学习框架,训练序列标注(双向GRU)网络模型实现分词。同时支持词性标注。
paddle模式使用需安装paddlepaddle-tiny,pip install paddlepaddle-tiny==1.6.1。
目前paddle模式支持jieba v0.40及以上版本。
jieba v0.40以下版本,请升级jieba,pip installjieba --upgrade。 PaddlePaddle官网

import jieba

# 通过enable_paddle接口安装paddlepaddle-tiny,并且import相关代码;
jieba.enable_paddle()  # 初次使用可以自动安装并导入代码
seg_list = jieba.cut(str, use_paddle=True)
print('Paddle模式: ' + '/'.join(list(seg_list)))

# -----output-----
Paddle enabled successfully......
Paddle模式:/来到/北京清华大学
2,jieba.cut_for_search 和 jieba.lcut_for_search
搜索引擎模式

在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造")  # 搜索引擎模式
print(", ".join(seg_list))

# -----output-----
小明, 硕士, 毕业,, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所,,,, 日本, 京都, 大学, 日本京都大学, 深造
3,jieba.Tokenizer(dictionary=DEFAULT_DICT)

新建自定义分词器,可用于同时使用不同词典。jieba.dt 为默认分词器,所有全局分词相关函数都是该分词器的映射。

import jieba
  
test_sent = "永和服装饰品有限公司"
result = jieba.tokenize(test_sent) ##Tokenize:返回词语在原文的起始位置
print(result)
for tk in result:
    # print ("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2])    )
    print (tk)
    
# -----output-----
<generator object Tokenizer.tokenize at 0x7f6b68a69d58>
('永和', 0, 2)
('服装', 2, 4)
('饰品', 4, 6)
('有限公司', 6, 10)    

四,添加自定义词典

开发者可以指定自己自定义的词典,以便包含 jieba 词库里没有的词。虽然 jieba有新词识别能力,但是自行添加新词可以保证更高的正确率。

1,添加词典用法:
 jieba.load_userdict(dict_path)    # dict_path为文件类对象或自定义词典的路径。
2,其中自定义字典举例如下:

一个词占一行;每一行分三部分:词语、词频(可省略)、词性(可省略),用空格隔开,顺序不可颠倒。

创新办 3 i
云计算 5
凱特琳 nz
中信建投
投资公司
3,使用自定义词典示例:
1)使用自定义词典文件
import jieba

test_sent = "中信建投投资公司投资了一款游戏,中信也投资了一个游戏公司"
jieba.load_userdict("userdict.txt")
words = jieba.cut(test_sent)
print(list(words))

#-----output------
['中信建投', '投资公司', '投资', '了', '一款', '游戏', ',', '中信', '也', '投资', '了', '一个', '游戏', '公司']
2)使用 jieba 在程序中动态修改词典
import jieba

# 定义示例句子
test_sent = "中信建投投资公司投资了一款游戏,中信也投资了一个游戏公司"

#添加词
jieba.add_word('中信建投')
jieba.add_word('投资公司')

# 删除词
jieba.del_word('中信建投')

words = jieba.cut(test_sent)
print(list(words))

#-----output------
['中信', '建投', '投资公司', '投资', '了', '一款', '游戏', ',', '中信', '也', '投资', '了', '一个', '游戏', '公司']

五,关键词提取

1,基于TF-IDF算法的关键词提取
1)TF-IDF接口和示例
import jieba.analyse
  • jieba.analyse.extract_tags(sentence, topK=20, withWeight=False,allowPOS=())
    其中需要说明的是:
    • 1.sentence 为待提取的文本
    • 2.topK 为返回几个 TF/IDF 权重最大的关键词,默认值为 20
    • 3.withWeight 为是否一并返回关键词权重值,默认值为 False
    • 4.allowPOS 仅包括指定词性的词,默认值为空,即不筛选
  • jieba.analyse.TFIDF(idf_path=None) 新建 TFIDF 实例,idf_path 为 IDF 频率文件
import jieba
import jieba.analyse
#读取文件,返回一个字符串,使用utf-8编码方式读取,该文档位于此python同以及目录下
content  = open('data.txt','r',encoding='utf-8').read()
tags = jieba.analyse.extract_tags(content,topK=10,withWeight=True,allowPOS=("nr")) 
print(tags)

# ----output-------
[('虚竹', 0.20382572423643955), ('丐帮', 0.07839419568792882), ('什么', 0.07287469641815765), ('自己', 0.05838617200768695), ('师父', 0.05459680087740782), ('内力', 0.05353758008018405), ('大理', 0.04885277765801372), ('咱们', 0.04458784837687502), ('星宿', 0.04412126568280158), ('少林', 0.04207588649463058)]
2)关键词提取所使用逆向文件频率(IDF)文本语料库可以切换成自定义语料库的路径

用法:
jieba.analyse.set_idf_path(file_name) # file_name为自定义语料库的路径
自定义语料库示例:

劳动防护 13.900677652 勞動防護 13.900677652 生化学 13.900677652 生化學 13.900677652 奥萨贝尔 13.900677652 奧薩貝爾 13.900677652 考察队员 13.900677652 考察隊員 13.900677652 岗上 11.5027823792 崗上 11.5027823792 倒车档 12.2912397395 倒車檔 12.2912397395 编译 9.21854642485 編譯 9.21854642485 蝶泳 11.1926274509 外委 11.8212361103
3)关键词提取所使用停止词(Stop Words)文本语料库可以切换成自定义语料库的路径
  • 用法: jieba.analyse.set_stop_words(file_name) # file_name为自定义语料库的路径
  • 自定义语料库示例:
import jieba
import jieba.analyse
#读取文件,返回一个字符串,使用utf-8编码方式读取,该文档位于此python同以及目录下
content  = open(u'data.txt','r',encoding='utf-8').read()
jieba.analyse.set_stop_words("stopwords.txt")
tags = jieba.analyse.extract_tags(content, topK=10)
print(",".join(tags))
4)关键词一并返回关键词权重值示例
import jieba
import jieba.analyse
#读取文件,返回一个字符串,使用utf-8编码方式读取,该文档位于此python同以及目录下
content  = open(u'data.txt','r',encoding='utf-8').read()
jieba.analyse.set_stop_words("stopwords.txt")
tags = jieba.analyse.extract_tags(content, topK=10,withWeight=True)
print(tags)
2,词性标注
  • jieba.posseg.POSTokenizer(tokenizer=None) 新建自定义分词器,tokenizer参数可指定内部使用的 jieba.Tokenizer 分词器。 jieba.posseg.dt 为默认词性标注分词器。
  • 标注句子分词后每个词的词性,采用和 ictclas 兼容的标记法。
  • 用法示例
import jieba.posseg as pseg
words = pseg.cut("我爱北京天安门")
for word, flag in words:
    print('%s %s' % (word, flag))
    
# ----output--------
我 r
爱 v
北京 ns
天安门 ns

词性对照表

在这里插入图片描述

3,并行分词

将目标文本按行分隔后,把各行文本分配到多个 Python 进程并行分词,然后归并结果,从而获得分词速度的可观提升。用法:

  • jieba.enable_parallel(4):开启并行分词模式,参数为并行进程数
  • jieba.disable_parallel() :关闭并行分词模式

可参考 test_file.py

注意:基于 python 自带的 multiprocessing 模块,目前暂不支持 Windows

4,Tokenize:返回词语在原文的起止位置
1)默认模式

注意,输入参数只接受 unicode

import jieba
import jieba.analyse
result = jieba.tokenize(u'永和服装饰品有限公司')
for tk in result:
    print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2]))
    
# ----output-------
word 永和		 start: 0 		 end:2
word 服装		 start: 2 		 end:4
word 饰品		 start: 4 		 end:6
word 有限公司		 start: 6 		 end:10
2)搜索模式
import jieba
import jieba.analyse
result = jieba.tokenize(u'永和服装饰品有限公司', mode='search')
for tk in result:
    print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2]))
    
# ----output-------
word 永和		 start: 0 		 end:2
word 服装		 start: 2 		 end:4
word 饰品		 start: 4 		 end:6
word 有限		 start: 6 		 end:8
word 公司		 start: 8 		 end:10
word 有限公司		 start: 6 		 end:10
5,搜索引擎ChineseAnalyzer for Whoosh

使用 jieba 和 whoosh 可以实现搜索引擎功能。
whoosh 是由python实现的一款全文搜索工具包,可以使用 pip 安装它:

pip install whoosh

介绍 jieba + whoosh 实现搜索之前,你可以先看下文 whoosh 的简单介绍。
下面看一个简单的搜索引擎的例子:

import os
import shutil

from whoosh.fields import *
from whoosh.index import create_in
from whoosh.qparser import QueryParser
from jieba.analyse import ChineseAnalyzer


analyzer = ChineseAnalyzer()

schema = Schema(title=TEXT(stored=True),
                path=ID(stored=True),
                content=TEXT(stored=True,
                             analyzer=analyzer))
if not os.path.exists("test"):
    os.mkdir("test")
else:
    # 递归删除目录
    shutil.rmtree("test")
    os.mkdir("test")

idx = create_in("test", schema)
writer = idx.writer()

writer.add_document(
    title=u"document1",
    path="/tmp1",
    content=u"Tracy McGrady is a famous basketball player, the elegant basketball style of him attract me")
writer.add_document(
    title=u"document2",
    path="/tmp2",
    content=u"Kobe Bryant is a famous basketball player too , the tenacious spirit of him also attract me")
writer.add_document(
    title=u"document3",
    path="/tmp3",
    content=u"LeBron James is the player i do not like")

writer.commit()
searcher = idx.searcher()
parser = QueryParser("content", schema=idx.schema)

for keyword in ("basketball", "elegant"):
    print("searched keyword ",keyword)
    query= parser.parse(keyword)
    print(query,'------')
    results = searcher.search(query)
    for hit in results:
        print(hit.highlights("content"))
    print("="*50)

六,延迟加载

ieba 采用延迟加载,import jieba 和 jieba.Tokenizer() 不会立即触发词典的加载,一旦有必要才开始加载词典构建前缀字典。如果你想手工初始 jieba,也可以手动初始化。

import jieba
jieba.initialize()  # 手动初始化(可选)

上面代码中,使用 add_document() 把一个文档添加到了 index 中。在这些文档中,搜索含有 “basketball”和 “elegant” 的文档。

七,其他词典

1,占用内存较小的词典文件 https://github.com/fxsjy/jieba/raw/master/extra_dict/dict.txt.small
2,支持繁体分词更好的词典文件 https://github.com/fxsjy/jieba/raw/master/extra_dict/dict.txt.big

下载你所需要的词典,然后覆盖 jieba/dict.txt 即可;或者用 jieba.set_dictionary('data/dict.txt.big')

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

基于python中jieba包的详细使用介绍 的相关文章

  • FFmpeg入门详解之35:FFplay播放器

    ffplay的初体验及快捷键 ffplay是ffmpeg工程中提供的播放器 xff0c 功能相当的强大 xff0c 凡是ffmpeg支持的视音频格式它基本上都支持 甚至连VLC不支持的一些流媒体都可以播放 xff08 比如说RTMP xff
  • 达梦数据库入门:管理实例(Linux)

    达梦数据库管理实例 xff08 Linux xff09 1 xff1a 创建数据库实例 一 使用数据库助手 xff08 GUI xff09 创建数据库实例 xff08 安装用户 xff1a dmdba 安装路径 dm8 xff09 1 登录
  • Win11 WSL2 启用 systemd 及设置静态 / 固定 IP

    一 以管理员身份打开 Windows 终端 默认情况下 xff0c 鼠标右击桌面弹出的快捷菜单上有一项 在终端中打开 xff0c 点击它后就会启动 Windows 终端 此时的终端并不是以管理员身份运行的 点击 Windows 终端标题栏上
  • VSCode点击“Open In Default Browser”提示错误信息“Open browser failed!! ...”

    运行html文件点击 Open In Default Browser 时 xff0c 提示报错信息 Open browser failed Please check if you have installed the browser chr
  • 用VScode运行Vue项目(node.js环境的配置,如何以管理员身份运行cmd)

    用VScode运行Vue项目详细全过程 xff08 node js环境的配置 xff09 D gloria的博客 CSDN博客 基本按上面博主的步骤来的 xff0c 只是中间一些步骤记一下笔记 上面文章中运行cmd时 xff0c 要根据博主
  • 全世界最强的算法平台codeforces究竟有什么魅力?

    大家好 xff0c 之前说过由于和LeetCode结了梁子 xff0c 所以周末的LeetCode专题取消了 xff0c 给大家写点其他专题的算法问题 目前选择的是国外著名的编程竞赛平台 codeforces 它在竞赛圈名气比较大 xff0
  • 四步利用docker搭建samba服务器

    我的系统是centos7 打算共享 home目录供windows用故快速利用docker搭建samba服务 本教程利用dperson samba镜像作为容器 xff1a 步骤 xff1a 第一步 xff1a yum span class h
  • 2-6 链表逆序及其C++实现

    更多系列博文请点击 xff1a 0 数据结构与算法链接目录 2 6 链表逆序 我只介绍两种常用方法吧 xff0c 非递归方法 和 递归 方法 我觉得够用就行 1 非递归方法 xff1a 将第二个元素后面的元素依次插入到头结点后面 xff0c
  • SQL Server 通过SQL生成Java代码 (为了省事写的生成实体类中属性)

    SELECT 字段名 61 a name 类型 61 b name 字段说明 61 isnull g value 39 39 CONVERT VARCHAR 100 a name AS colname CONVERT VARCHAR 100
  • C++编译器VS2019和MinGW的问题

    C 43 43 编译器VS2019和MinGW的问题 xff1a 最近在啃C 43 43 Primer这本书 xff0c 在学习到第14章重载运算符时 xff0c 准备为自定义的类String重载一个输入运算符 gt gt xff0c 代码
  • 物理机debian环境搭建

    装系统全程ob腾哥配置 xff0c 记录一下 1 首先需要一个刻录u盘 xff0c 格式化 2 下载u盘刻录软件 xff0c refus 3 到镜像站或官网下载debian iso 4 插入u盘 xff0c 进行刻录 5 到电脑插入u盘 x
  • PYTHON简单代码去除TXT文档重复行内容去重复

    PYTHON简单代码去除TXT文档重复行内容去重复 fi span class token operator 61 span span class token builtin open span span class token punct
  • c语言嵌套结构体内存对齐

    结构体内存对齐规则 xff1a 1 第一个成员在结构体变量偏移量为0 的地址处 2 其他成员变量要对齐到某个数字 xff08 对齐数 xff09 的整数倍的地址处 对齐数 61 编译器默认的一个对齐数与该成员大小中的较小值 vs中默认值是8
  • ubuntu简单设置代理的办法

    直接输入命令 span class token builtin class name export span span class token assign left variable http proxy span span class
  • DockerFile集成mysql,nginx,zookeeper,redis,tomcat为一个镜像

    将mysql nginx zookeeper redis tomcat集成为一个docker镜像 实现运行一个镜像 xff0c 便全部自动化安装启动mysql nginx zookeeper redis tomcat 1 在CentOS7上
  • Squid反向手动编译--Debian10.x

    Squid反向手动编译 Debian10 x 实验环境 xff1a server01 xff1a 192 168 10 10 CA证书 DNS服务器 server02 xff1a 192 168 10 20 squid服务器 需要做ssl
  • Ubuntu18.04 intel wifi6 ax201无线网卡驱动安装

    Ubuntu18 04 intel wifi6 ax201无线网卡驱动安装 前言 新买的笔记本电脑装Ubuntu系统 xff0c 发现没有无线网卡 xff0c 经查阅资料发现由于网卡刚没多久 xff0c Ubuntu没有集成网卡驱动 xff
  • 目标检测: 数据集转换txt转为xml格式

    目录 1 txt数据集格式 2 xml数据集格式 3 转换代码 4 根据xml标签分割出图像中的目标物体 5 效果展示 1 txt数据集格式 第1元素代表类别 xff0c 第2 xff0c 3表示目标框的中心位置 xff0c 第4 xff0
  • ubuntu无线优先上网

    https blog csdn net wbcuc article details 116073622 如果电脑同时连着有线网络跟无线 Wifi 网络 xff0c 系统会默认 优先 使用有线网络 xff0c 即使用有线网络的网关作为默认路由
  • 扩展欧几里得

    转自 xff1a http www cnblogs com frog112111 archive 2012 08 19 2646012 html 欧几里德算法 欧几里德算法又称辗转相除法 xff0c 用于计算两个整数a b的最大公约数 基本

随机推荐

  • 扫描局域网在线IP

    wlan0为终端运行ifconfig后的网络名称 sudo apt get install arp scan sudo arp scan I wlan0 localnet
  • 英伟达TX2开箱入门 ubuntu16.04用sdkmanager刷机(JetPack4.2版本)

    英伟达TX2开箱入门 ubuntu16 04用sdkmanager刷机 xff08 JetPack4 2版本 xff09 准备工作系统版本参考博客 装机步骤一 硬件连接 43 开机二 刷机教程 xff08 附官网教程 xff09 准备工作
  • 可以ping通但ssh: connect to host 192.168.0.27 port 22: Connection refused

    前言 SSH分客户端openssh client和服务器openssh server 如果你只是想登陆别的机器 xff0c 只需要安装openssh client xff08 ubuntu有默认安装 xff0c 如果没有则sudo apt
  • ROS发布静态tf变换

    方法一 xff1a include lt ros ros h gt include lt tf transform broadcaster h gt int main int argc char argv ros init argc arg
  • ROS常见问题及解决方法

    1 undefined reference to 96 tf TransformBroadcaster TransformBroadcaster 问题描述 xff1a CMakeFiles imu data dir src imu data
  • git的配置管理 配置用户名、邮箱

    git是现在常用的版本管理工具 xff0c 在使用git操作代码时 xff0c 可以保留操作痕迹 xff0c 查看是谁操作的 xff0c 这时候就需要提前设置git的操作用户信息 git配置文件 git的配置文件有三份 xff0c 按照优先
  • IOS学习之—— xib的用法--自定义View

    05 xib的用法 自定义View 自定义View xib的用法 项目名称 xff1a 设置文件头 滚动广告 五张图片 步骤 xff08 1 xff09 创建 新文件 userInterface 中的 empty 文件 取名CZHeader
  • CCF画图

    include lt stdio h gt struct rectStruct int a b int m n struct rectStruct rects 100 int rectS 61 0 int n int inYLine int
  • win10家庭版组策略添加及关闭自动更新

    Win10家庭版添加组策略和win10关闭系统自动更新的方法 看着别人能玩组策略 xff0c 可是自己输入pgedit msc却弹出无法找到的弹窗 xff0c 人生痛苦的事莫过如此啊 xff01 说到这里我又想吐槽Microsoft xff
  • 废旧笔记本改造记(1)---安装Linux系统和Docker

    以前贪便宜 xff0c 买了腾讯云1核2G的云服务器 xff0c 现在发现这个真不够 xff0c 刚好今年买了一台新的笔记本 xff0c 今天就打算把我那台历尽7年风雨的戴尔笔记本电脑改造成为Linux系统 xff0c 一方面是为了之后练习
  • git常用命令

    git基本概念 工作区 xff1a 仓库的目录 工作区是独立于各个分支的 暂存区 xff1a 数据暂时存放的区域 xff0c 类似于工作区写入版本库前的缓存区 暂存区是独立于各个分支的 版本库 xff1a 存放所有已经提交到本地仓库的代码版
  • Ubuntu 18.04/20.04 xrdp远程桌面连接

    搞了一晚上vnc 各种vnc xff0c 连上之后就是白屏 xff0c 最后换xrdp了 xff0c 参考了下面这篇文章 xff0c https blog csdn net qq 25556149 article details 82216
  • 如何查看firefox的cookie IE的cookie

    一查看firefox的cookie 首先 firexfox的cookie的文件存放不像ie那么如容易找到 xff0c 而且里面的内容也不一般普通编辑器能查看的 文件存放位置 xff0c 一般WIN XP系统的FF cookie存放于 xff
  • ffmpeg 带alpha透明层的视频编码

    png编码 可以封装为 mp4 mov等 ffmpeg f image2 r 25 i input d png vf fps span class token operator 61 span 25 vcodec png output mo
  • Golang实现选择排序

    64 Golang Golang实现选择排序 选择排序 xff08 Selection sort xff09 是一种简单直观的排序算法 它的工作原理如下 首先在未排序序列中找到最小 xff08 大 xff09 元素 xff0c 存放到排序序
  • Docker方式启动tomcat,访问首页出现404错误

    1 使用命令 xff1a docker pull tomcat 从阿里云上下载一个latest版本的tomcat 版本是从阿里云上拉下的 8 5 50 xff0c 运行镜像 xff0c 进行相关网络端口映射 xff0c 如下命令 xff1a
  • 批量创建txt文件

    1 创建txt文档如 xff1a 123 txt 2 打开文档 123 txt 3 复制如下内容保存至123 txt 64 echo off for L x in 1 1 10 do 64 echo x gt x txt 4 重命名文件12
  • anime4k 在真机租用上的应用尝试

    技术调研 anime4k是为动画图片设计的超分辨率提升算法 xff0c 并且在GPU上能达到个位数毫秒级延迟 https github com bloc97 Anime4K 1 1 高清图片 61 低清图片 43 残差 2 残差的边缘越细
  • python调用pytesseract识别某网站的验证码(实战项目)

    一 首先安装 tesseract ocr setup 4 00 00dev exe 下载地址 链接 xff1a https pan baidu com s 1PFIrfNeUjmrXlUABS8SquA 提取码 xff1a dctm 1 直
  • 基于python中jieba包的详细使用介绍

    一 xff0c jieba的介绍 jieba 是目前表现较为不错的 Python 中文分词组件 xff0c 它主要有以下特性 xff1a 支持四种分词模式 xff1a 精确模式全模式搜索引擎模式paddle模式 支持繁体分词 支持自定义词典