当存在某些自定义的专业名称或长词时,jieba有可能会当成多个词,但其实是一个词,自定义的方法如下:
原始的jieba效果:
import jieba
if __name__ == '__main__':
sentence = "学习python与人工智能有益身体健康"
ret = jieba.lcut(sentence)
print(ret)
结果是:['学习', 'python', '与', '人工智能', '有益', '身体健康']
,如果我们想“python与人工智能”是一整个词,那么可以:
新建一个文件my_dict.txt
,写入:
python与人工智能
然后修改代码:
import jieba
jieba.enable_parallel(3) # 多进程
jieba.load_userdict('my_dict.txt') # 导入自定义的切词文件
if __name__ == '__main__':
sentence = "学习python与人工智能有益身体健康"
ret = jieba.lcut(sentence)
print(ret)
结果:['学习', 'python与人工智能', '有益', '身体健康']