jieba自定义分词规则与多进程切词

2023-11-08

当存在某些自定义的专业名称或长词时,jieba有可能会当成多个词,但其实是一个词,自定义的方法如下:

原始的jieba效果:

import jieba

if __name__ == '__main__':
    sentence = "学习python与人工智能有益身体健康"
    ret = jieba.lcut(sentence)
    print(ret)

结果是:['学习', 'python', '与', '人工智能', '有益', '身体健康'],如果我们想“python与人工智能”是一整个词,那么可以:

新建一个文件my_dict.txt,写入:

python与人工智能

然后修改代码:

import jieba

jieba.enable_parallel(3) # 多进程
jieba.load_userdict('my_dict.txt') # 导入自定义的切词文件
if __name__ == '__main__':
    sentence = "学习python与人工智能有益身体健康"
    ret = jieba.lcut(sentence)
    print(ret)

结果:['学习', 'python与人工智能', '有益', '身体健康']

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

jieba自定义分词规则与多进程切词 的相关文章

  • 斯坦福cs224n教程--- 学习笔记1

    一 前言 自然语言是人类智慧的结晶 自然语言处理是人工智能中最为困难的问题之一 而对自然语言处理的研究也是充满魅力和挑战的 通过经典的斯坦福cs224n教程 让我们一起和自然语言处理共舞 也希望大家能够在NLP领域有所成就 二 先修知识 学
  • 什么是LLM大语言模型?

    什么是LLM大语言模型 大语言模型 英文 Large Language Model 缩写LLM 也称大型语言模型 是一种人工智能模型 旨在理解和生成人类语言 它们在大量的文本数据上进行训练 可以执行广泛的任务 包括文本总结 翻译 情感分析等
  • ABB PFEA111-20 3BSE050090R20处理器模块

    处理能力 PFEA111 20 处理器模块可能具备高性能的处理能力 能够执行复杂的控制算法 逻辑运算和数据处理任务 多通道输入输出 该模块可能会提供多个数字或模拟输入通道 用于监测外部信号 以及多个输出通道 用于控制执行器和设备 通信接口
  • Generative AI 新世界:大型语言模型(LLMs)概述

    在上一篇 Generative AI 新世界 文本生成领域论文解读 中 我带领大家一起梳理了文本生成领域 Text Generation 的主要几篇论文 InstructGPT RLHF PPO GPT 3 以及 GPT 4 本期文章我将帮
  • 《机器学习》二刷超详细笔记

    博主在4月学完西瓜书时 一头雾水 觉得还是一知半解 9月开学后上完了必修的 machine learning 课程 并且自己编程实现了多种机器学习算法和论文复现后 才对机器学习有一点了解 现在再次翻阅西瓜书 很多知识点看到都豁然开朗 所以出
  • 【LLM】深入剖析 GOOGLE PALM 2:全面概述

    大家好 我是Sonhhxg 柒 希望你看完之后 能对你有所帮助 不足请指正 共同学习交流 个人主页 Sonhhxg 柒的博客 CSDN博客 欢迎各位 点赞 收藏 留言 系列专栏 机器学习 ML 自然语言处理 NLP 深度学习 DL fore
  • 使用 Python 中的 Langchain 从零到高级快速进行工程

    大型语言模型 LLM 的一个重要方面是这些模型用于学习的参数数量 模型拥有的参数越多 它就能更好地理解单词和短语之间的关系 这意味着具有数十亿个参数的模型有能力生成各种创造性的文本格式 并以信息丰富的方式回答开放式和挑战性的问题 ChatG
  • 逐行对比LLaMA2和LLaMA模型源代码

    几个小时前 2023年7月18日 Meta发布了允许商用的开源模型LLaMA2 笔者逐行对比了LLaMA2模型源代码 和LLaMA相比 几乎没有改动 细节如下 是否改动 LLaMA2 LLaMA 模型整体构架 无 Transformer T
  • GREASELM: GRAPH REASONING ENHANCED LANGUAGE MODELS FOR QUESTION ANSWERING

    本文是LLM系列文章 针对 GREASELM GRAPH REASONING ENHANCED LANGUAGE MODELS FOR QUESTION ANSWERING 的翻译 GREASELM 图推理增强的问答语言模型 摘要 1 引言
  • 机器学习即服务:关于情感分析的10个应用场景和4个服务

    情感分析是什么 用户生成内容的爆炸式增长和档案材料的数字化创造了大量的数据集 其中包含了许多人对几乎每一个主题发表的观点 在某些情况下 该数据的生成是通过用户界面构造的 例如 在电子商务网站上处理客户评论相对容易 因为用户需要在产品评论的文
  • 2021年10月中旬—字节AI LAB NLP算法面试题(一)

    问题一 bert的架构是什么 目标是什么 输入包括了什么 三个embedding输入是怎么综合的 Bert的结构主要是Transformer的encoder部分 其中Bert base有12层 输出维度为768 参数量为110M Bert
  • 大模型微调技巧:在 Embeeding 上加入噪音提高指令微调效果

    大家好 在去年分享过一篇ACL2022的文章 通过微调前给预训练模型参数增加噪音提高预训练语言模型在下游任务的效果方法 NoisyTune方法在BERT XLNET RoBERTa和ELECTRA上均取得不错的效果 那么通过加入噪音的方式
  • 成为NLP专家的最佳时间表:2024 年半年内的学习策略

    介绍 2023 年见证了自然语言处理 NLP 的突破性进展 以及 Bard 和 ChatGPT 等强大语言模型的兴起 这些奇迹不仅是人工智能发展的壮举 它们标志着一个新时代的到来 在这个时代 机器可以以前所未有的准确性和流畅度理解和生成人类
  • 成为NLP专家的最佳时间表:2024 年半年内的学习策略

    介绍 2023 年见证了自然语言处理 NLP 的突破性进展 以及 Bard 和 ChatGPT 等强大语言模型的兴起 这些奇迹不仅是人工智能发展的壮举 它们标志着一个新时代的到来 在这个时代 机器可以以前所未有的准确性和流畅度理解和生成人类
  • 自然语言处理初学者指南(附1000页的PPT讲解)

    自然语言处理是计算机科学领域和人工智能领域的重要研究方向之一 旨在探索实现人与计算机之间用自然语言进行有效交流的理论与方法 它融合了语言学 计算机科学 机器学习 数学 认知心理学等多学科内容 涉及从字 词 短语到句子 段落 篇章的多种语言单
  • ACL 2024投递指南

    诸神缄默不语 个人CSDN博文目录 显然写这篇博客是因为我要投ACL了 TL DR ACL 2024是ARR提交制 workshop归workshop 最晚提交时间是2024年2月15号 在此之前可以随时撤回 4月15号出结果 4月20号确
  • Failed to create CUDAExecutionProvider 使用onnxruntime-gpu未成功调用gpu

    最近在使用GPU对onnx模型进行加速过程中 仅针对N卡 毕竟也没有别的显卡了 遇到了点问题 就是明明在安装了合适版本的显卡驱动和CUDA后 onnx还是不能够成功调用GPU 并且还出现了先导入torch 再导入onnxruntime就可以
  • 十分钟部署清华 ChatGLM-6B,实测效果超预期(Linux版)

    前段时间 清华公布了中英双语对话模型 ChatGLM 6B 具有60亿的参数 初具问答和对话功能 最 最 最重要的是它能够支持私有化部署 大部分实验室的服务器基本上都能跑起来 因为条件特殊 实验室网络不通 那么如何进行离线部署呢 经过一上午
  • 用通俗易懂的方式讲解:内容讲解+代码案例,轻松掌握大模型应用框架 LangChain

    本文介绍了 LangChain 框架 它能够将大型语言模型与其他计算或知识来源相结合 从而实现功能更加强大的应用 接着 对LangChain的关键概念进行了详细说明 并基于该框架进行了一些案例尝试 旨在帮助读者更轻松地理解 LangChai
  • 用通俗易懂的方式讲解:如何用大语言模型构建一个知识问答系统

    传统搜索系统基于关键字匹配 在面向 游戏攻略 技术图谱 知识库等业务场景时 缺少对用户问题理解和答案二次处理能力 本文探索使用大语言模型 Large Language Model LLM 通过其对自然语言理解和生成的能力 揣摩用户意图 并对

随机推荐