机器学习之文本分类（附带训练集+数据集+所有代码）

2023-10-30

我本次对4类文本进行分类（（所有截图代码和数据集最后附带免费下载地址））

主要步骤：

1.各种读文件，写文件

2.使用jieba分词将中文文本切割

3.对处理之后的文本开始用TF-IDF算法进行单词权值的计算

4.去掉停用词

5.贝叶斯预测种类

文本预处理：

除去噪声，如：格式转换，去掉符号，整体规范化

遍历的读取一个文件下的每个文本

中文分词

中文分词就是将一句话拆分为各个词语，因为中文分词在不同的语境中歧义较大，所以分词极其重要。
原型：我今天中午吃的小面。

分词：我、今天、中午、吃、的、小面。

其中我、的两个分词属于停用词（停用词后面讲）

我们本次才用jieba分词来进行辅助，那么jieba分词有这么几个类型

1.精确模式，试图将句子最精确的起开，适合文本分析。
2.全模式，把句子中所有的可以成词的词语都扫描出来，速度非常快，但是不能解决歧义。

3.搜索引擎模式，再将却模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词

        #精确模式: 我/ 去过/ 清华大学/ 和/ 北京大学/ 。
        #全模式: 我/ 去过/ 清华/ 清华大学/ 华大/ 大学/ 和/ 北京/ 北京大学/ 大学/ /
        #搜索引擎模式: 我/ 去过/ 清华/ 华大/ 大学/ 清华大学/ 和/ 北京/ 大学/ 北京大学/ 。

本程序使用的是（默认）精准模式，当然jieba还有很多种模式，大家可以自行查阅

TF-IDF逆文本频率指数

概念：是一种统计方法，用以评估一个词对于一个语料库中一份文件的重要程度。词的重要性随着在文件中出现的次数正比增加，同时随着它在语料库其他文件中出现的频率反比下降。
就是说一个词在某一文档中出现次数比较多，其他文档没有出现，说明该词对该文档分类很重要。

然而如果其他文档也出现比较多，说明该词区分性不大，就用IDF来降低该词的权重。

数学算法：

            TF-IDF与一个词在文档中的出现次数成正比，与该词在整个语言中的出现次数成反比
            TF-IDF = TF (词频)   *   IDF(逆文档频率)
            词频：TF = 词在文档中出现的次数 / 文档中总词数

逆文档频率：IDF = log（语料库中文档总数 / 包含该词的文档数 +1 ）

避开停用词：

贝叶斯分类

朴素贝叶斯分类算法核心：

表达形式：

测试集

我手动打乱了里面的分类，这样看他能不能预测出来

代码实现：

#!D:/workplace/python
# -*- coding: utf-8 -*-
# @File : homework3.py
# @Author: WangYe
# @Date : 2018/4/22
# @Software: PyCharm
# 微博文字的性别识别
import jieba
import os
import pickle # 持久化
from numpy import *
from sklearn import feature_extraction
from sklearn.feature_extraction.text import TfidfTransformer # TF-IDF向量转换类
from sklearn.feature_extraction.text import TfidfVectorizer # TF_IDF向量生成类
from sklearn.datasets.base import Bunch
from sklearn.naive_bayes import MultinomialNB # 多项式贝叶斯算法

def readFile(path):
with open(path, 'r', errors='ignore') as file: # 文档中编码有些问题，所有用errors过滤错误
content = file.read()
return content

def saveFile(path, result):
with open(path, 'w', errors='ignore') as file:
file.write(result)

def segText(inputPath, resultPath):
fatherLists = os.listdir(inputPath) # 主目录
for eachDir in fatherLists: # 遍历主目录中各个文件夹
eachPath = inputPath + eachDir + "/" # 保存主目录中每个文件夹目录，便于遍历二级文件
each_resultPath = resultPath + eachDir + "/" # 分词结果文件存入的目录
if not os.path.exists(each_resultPath):
os.makedirs(each_resultPath)
childLists = os.listdir(eachPath) # 获取每个文件夹中的各个文件
for eachFile in childLists: # 遍历每个文件夹中的子文件
eachPathFile = eachPath + eachFile # 获得每个文件路径
# print(eachFile)
content = readFile(eachPathFile) # 调用上面函数读取内容
# content = str(content)
result = (str(content)).replace("\r\n", "").strip() # 删除多余空行与空格
# result = content.replace("\r\n","").strip()

cutResult = jieba.cut(result) # 默认方式分词，分词结果用空格隔开
saveFile(each_resultPath + eachFile, " ".join(cutResult)) # 调用上面函数保存文件

def bunchSave(inputFile, outputFile):
catelist = os.listdir(inputFile)
bunch = Bunch(target_name=[], label=[], filenames=[], contents=[])
bunch.target_name.extend(catelist) # 将类别保存到Bunch对象中
for eachDir in catelist:
eachPath = inputFile + eachDir + "/"
fileList = os.listdir(eachPath)
for eachFile in fileList: # 二级目录中的每个子文件
fullName = eachPath + eachFile # 二级目录子文件全路径
bunch.label.append(eachDir) # 当前分类标签
bunch.filenames.append(fullName) # 保存当前文件的路径
bunch.contents.append(readFile(fullName).strip()) # 保存文件词向量
with open(outputFile, 'wb') as file_obj: # 持久化必须用二进制访问模式打开
pickle.dump(bunch, file_obj)
#pickle.dump(obj, file, [,protocol])函数的功能：将obj对象序列化存入已经打开的file中。
#obj：想要序列化的obj对象。
#file:文件名称。
#protocol：序列化使用的协议。如果该项省略，则默认为0。如果为负值或HIGHEST_PROTOCOL，则使用最高的协议版本
def readBunch(path):
with open(path, 'rb') as file:
bunch = pickle.load(file)
#pickle.load(file)
#函数的功能：将file中的对象序列化读出。
return bunch

def writeBunch(path, bunchFile):
with open(path, 'wb') as file:
pickle.dump(bunchFile, file)

def getStopWord(inputFile):
stopWordList = readFile(inputFile).splitlines()
return stopWordList

def getTFIDFMat(inputPath, stopWordList, outputPath): # 求得TF-IDF向量
bunch = readBunch(inputPath)
tfidfspace = Bunch(target_name=bunch.target_name,label=bunch.label, filenames=bunch.filenames, tdm=[],
vocabulary={})
# 初始化向量空间
vectorizer = TfidfVectorizer(stop_words=stopWordList, sublinear_tf=True, max_df=0.5)
transformer = TfidfTransformer() # 该类会统计每个词语的TF-IDF权值
# 文本转化为词频矩阵，单独保存字典文件
tfidfspace.tdm = vectorizer.fit_transform(bunch.contents)
tfidfspace.vocabulary = vectorizer.vocabulary_ #获取词汇
writeBunch(outputPath, tfidfspace)

def getTestSpace(testSetPath, trainSpacePath, stopWordList, testSpacePath):
bunch = readBunch(testSetPath)
# 构建测试集TF-IDF向量空间
testSpace = Bunch(target_name=bunch.target_name, label=bunch.label, filenames=bunch.filenames, tdm=[],
vocabulary={})
# 导入训练集的词袋
trainbunch = readBunch(trainSpacePath)
# 使用TfidfVectorizer初始化向量空间模型使用训练集词袋向量
vectorizer = TfidfVectorizer(stop_words=stopWordList, sublinear_tf=True, max_df=0.5,
vocabulary=trainbunch.vocabulary)
transformer = TfidfTransformer()
testSpace.tdm = vectorizer.fit_transform(bunch.contents)
testSpace.vocabulary = trainbunch.vocabulary
# 持久化
writeBunch(testSpacePath, testSpace)

def bayesAlgorithm(trainPath, testPath):
trainSet = readBunch(trainPath)
testSet = readBunch(testPath)
clf = MultinomialNB(alpha=0.001).fit(trainSet.tdm, trainSet.label)
#alpha:0.001 alpha 越小，迭代次数越多，精度越高
#print(shape(trainSet.tdm)) #输出单词矩阵的类型
#print(shape(testSet.tdm))
predicted = clf.predict(testSet.tdm)
total = len(predicted)
rate = 0
for flabel, fileName, expct_cate in zip(testSet.label, testSet.filenames, predicted):
if flabel != expct_cate:
rate += 1
print(fileName, ":实际类别：", flabel, "-->预测类别：", expct_cate)
print("erroe rate:", float(rate) * 100 / float(total), "%")

# 分词，第一个是分词输入，第二个参数是结果保存的路径
segText("C:/Users/wy/Desktop/data/", "C:/Users/wy/Desktop/segResult/")
bunchSave("C:/Users/wy/Desktop/segResult/", "C:/Users/wy/Desktop/train_set.dat") # 输入分词，输出分词向量
stopWordList = getStopWord("C:/Users/wy/Desktop/stop/stopword.txt") # 获取停用词
getTFIDFMat("C:/Users/wy/Desktop/train_set.dat", stopWordList, "C:/Users/wy/Desktop/tfidfspace.dat") # 输入词向量，输出特征空间

# 训练集
segText("C:/Users/wy/Desktop/test1/", "C:/Users/wy/Desktop/test_segResult/") # 分词
bunchSave("C:/Users/wy/Desktop/test_segResult/", "C:/Users/wy/Desktop/test_set.dat")
getTestSpace("C:/Users/wy/Desktop/test_set.dat", "C:/Users/wy/Desktop/tfidfspace.dat", stopWordList, "C:/Users/wy/Desktop/testspace.dat")
bayesAlgorithm("C:/Users/wy/Desktop/tfidfspace.dat", "C:/Users/wy/Desktop/testspace.dat")
结果截图：

从结果看出，手动添加的错误都预测出来了，谢谢大家~

参考文献：https://www.jianshu.com/p/915b0ab166e5

数据集+代码百度云：链接：链接：https://pan.baidu.com/s/1jyTis9z9D8FNU7khO7k0VA 密码：rgy5

我也是菜鸟一个，如果数据集或者代码有什么问题欢迎留言~
---------------------
作者：懒骨头707
原文：https://blog.csdn.net/qq_28626909/article/details/80382029

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

人工智能方面

机器学习之文本分类（附带训练集+数据集+所有代码）的相关文章

从 Django 调用 Postgres SQL 存储过程

我正在开发一个带有 Postgresql 数据库的 Django 项目我编写了一个可以在 Postgres 上完美运行的存储过程现在我想从 Django 1 5 调用该存储过程我已经编写了代码但它提示错误 CREATE FUNCTI
如何覆盖 Django 的默认管理模板和布局

我正在尝试覆盖 Django 的默认模板现在只有base site html 我正在尝试更改 django 管理文本我做了以下事情我在我的应用程序目录中创建了一个文件夹 opt mydjangoapp templates admin
检测到通过 ChromeDriver 启动的 Chrome 浏览器

我正在尝试在 python 中使用 selenium chromedriver 来访问 www mouser co uk 网站然而从第一次拍摄开始它就被检测为机器人有人对此有解释吗此后我使用的代码 options Options
在 Pandas 中，如何从基于另一个数据框的数据框中删除行？

我有 2 个数据框一个名为 USERS 另一个名为 EXCLUDE 他们都有一个名为电子邮件的字段基本上我想删除 USERS 中包含 EXCLUDE 中包含电子邮件的每一行我该怎么做您可以使用boolean indexing
在 python 3 中使用子进程

我使用 subprocess 模块在 python 3 中运行 shell 命令这是我的代码 import subprocess filename somename py in practical i m using a real fil
在Python中如何获取字典的部分视图？

是否有可能获得部分视图dict在Python中类似于pandasdf tail df head 说你有很长一段时间dict 而您只想检查某些元素开头结尾等 dict 就像是 dict head 3 To see the first 3
Python 是解释型的还是编译型的，或者两者兼而有之？

据我了解 An 解释的语言是由解释器将高级语言转换为机器代码然后执行的程序实时运行和执行的高级语言它一次处理一点程序 A compiled语言是一种高级语言其代码首先由编译器将高级语言转换为机器代码的程序转换为机器代码然后由执
PyTorch 给出 cuda 运行时错误

我对我的代码做了一些小小的修改以便它不使用 DataParallel and DistributedDataParallel 代码如下 import argparse import os import shutil import time
ImportError：运行 jupyter Notebook 时没有名为 IPython.paths 的模块？

我通过以下方式安装了 jupyter usr local opt python bin python2 7 m pip install jupyter 这将安装 ipython 版本 4 1 2 但是当我运行 jupyter Notebo
如何在VIM中设置文件的正确路径？

每当我击中 pwd在 vim 中命令总是返回路径C Windows system32 即使我在桌面上的 Python 文件中所以每当我跑步时 python 命令返回 python can t open file Users myname
如何在Python中高效地添加稀疏矩阵

我想知道如何在Python中有效地添加稀疏矩阵我有一个程序可以将大任务分解为子任务并将它们分配到多个 CPU 上每个子任务都会产生一个结果一个 scipy 稀疏矩阵格式为 lil matrix 稀疏矩阵尺寸为 100000x50
根据 Pandas 中的列表对多列进行排序

感谢有关如何根据 pandas 中的倍数列表对给定多列进行排序的任何提示如下所示 import pandas as pd sort a a d e sort b s1 s3 s6 sort c t1 t2 t3 df pd DataFra
如何根据 HTTP 请求使用 Python 和 Flask 执行 shell 命令并流输出？

下列的这个帖子 https stackoverflow com questions 15092961 how to continuously display python output in a webpage 我能够tail f网页的日志
Pandas 堆积条形图中元素的排序

我正在尝试绘制有关某个地区 5 个地区的家庭在特定行业赚取的收入比例的信息我使用 groupby 按地区对数据框中的信息进行排序 df df orig groupby District Portion of income value co
使用 Conda 更新特定模块会删除大量软件包

我最近开始使用 Anaconda Python 发行版因为它提供了许多开箱即用的数据分析库使用 conda 创建环境和安装软件包也轻而易举但是当我想更新 Python 本身或任何其他模块时我遇到了一些严重的问题我事先被告知我的很多
Werkzeug 中的线程和本地代理。用法

首先我想确保我正确理解了功能的分配分配本地代理功能以通过线程内的模块包共享变量对象我对吗其次用法对我来说仍然不清楚也许是因为我误解了作业我用烧瓶如果我有两个或更多模块 A B 我想将对象C从模块A导入到模块B 但我
在 Windows 上使用带有对数刻度的 matplotlib 时出现 Unicode 错误

我正在使用 python 2 6 和 matplotlib 如果我运行 matplotlib 库页面中提供的示例 histogram demo py 它工作正常我已经大大简化了这个脚本 import numpy as np import
Flask 应用程序的测试覆盖率不起作用

您好想在终端的 Flask 应用程序中测试删除路由我可以看到测试已经过去它说 test user delete test app LayoutTestCase ok 但是当我打开封面时它仍然是红色的这意味着没有覆盖它请有人向我
附加两个具有相同列、不同顺序的数据框

我有两个熊猫数据框 noclickDF DataFrame 0 123 321 0 1543 432 columns click id location clickDF DataFrame 1 123 421 1 1543 436 colu
操作错误：(sqlite3.OperationalError) SQL 变量太多，同时将 SQL 与数据帧一起使用

我有一个熊猫数据框如下所示 activity User Id 0 VIEWED MOVIE 158d292ec18a49 1 VIEWED MOVIE 158d292ec18a49 2 VIEWED MOVIE 158d292ec18a4

随机推荐

C# JSON 常用方法 - Json字符串转对象

创建项目 ConsoleApplication Json 选择项目右键管理NuGet程序包搜索Newtonsoft Json 并下载安装选择项目添加 JsonHelper cs 添加引用 using Newtonsoft Json 编写
[893]推荐几款提高体验与效率的Chrome插件神器

今天推荐几款好用的 Chrome 插件都是我自己一直在用的插件可以到 Chrome 商店下载话不多说进入主题 Insight io For Github 如图就像这样可以以文件树的方式浏览 github 的代码文件 Toggle
【注册机】JCreator Pro v4.50.010 注册机

下载地址 http oyksoft oyksoft com oyksoft com JCreator Pro v4 50 010 Keygen Only HAZE rar
OpenCV均值、中值滤波器的讲解及实战应用（附Python源码）

需要源码和图片请点赞关注收藏后评论区留言私信在尽量保留原图像信息的情况下去除图像内噪声降低细节层次信息等一系列过程叫作图像的平滑处理或图像的模糊处理实现平滑处理最常用的工具就是滤波器通过调节滤波器的参数可以控制图像的平滑程度
Java通过两点经纬度和范围距离计算范围四个顶点的经纬度

参考博文 https blog csdn net zengmingen article details 68490497 private static final double mile 1609 344 米英里换算通过起点终点的经纬
SQL数据库：数据查询

数据查询语句格式 SELECT子句指定要显示的属性列 FROM子句指定查询对象基本表或视图 WHERE子句指定查询条件 GROUP BY子句对查询结果按指定序列的值分组比如说男的一组女的一组该属性列值相等的元祖为一个组通
python读入2个正整数a和b_C/C++知识点之C语言解题：读入两个小于100的正整数A和B，计算A+B...

本文主要向大家介绍了C C 知识点之C语言解题读入两个小于100的正整数A和B 计算A B 通过具体的内容向大家展示希望对大家学习C C 知识点有所帮助题目描述读入两个小于100的正整数A和B 计算A B 需要注意的是 A和B的每一
STC15单片机实战项目 - 项目需求

以经典的51内核单片机设计一款产品功能如下 1 采用宏晶的STC15L2K32S2 LQFP32 2k SRAM 32k ROM 目的选用STC15系列1T的经典51内核单片机资源丰富 2 设计1个运行指示灯工作时间隔1s闪烁目
人工智能及其在工业领域的三大应用

人工智能是一门新的技术学科研究和开发用于模拟人类智慧扩充套件和扩充套件的理论方法技术和应用系统人工智能研究的目标是让机器执行一些需要智慧人类完成的复杂任务也就是说我们希望这台机器能取代我们解决一些复杂的任务不仅是重复的机械
数据库系统概论——第九章关系查询处理和查询优化

一关系数据库系统查询处理 1 查询处理步骤 1 查询分析的任务对查询语句进行扫描词法分析和语法分析词法分析从查询语句中识别出正确的语言符号语法分析进行语法检查 2 查询检查的任务 1 合法权检查根据数据字典检查语句中的数据库
【linux】cpu过高解决方法

CPU过高情况 1 使用top命令查看cpu的进程占用情况 2 发现11443的进程占比过高通过top Hp 11443 查看线程的占用情况发现11459 11460 11461线程的占比过高解决swap占用CPU 设置vm swap
# Linux 升级g++7.5.0

Linux 升级g 7 5 0 最近使用需要使用c 14标准发现自己的编译器版本为gcc 4 8 只支持c 11标准因此进行升级升级为可以支持c 17的gcc7 5 0 关于编译器的版本支持问题可以到gcc的官方文档进行查询下面开始
【机器学习杂烩】投票(Voting)算法在分类问题上的应用（一口气实现Logistic 回归、SVM、KNN、C4.5 决策树、 Adaboost、GBDT 和随机森林，并集成起来）

投票算法简介投票是在分类算法中广泛运用的集成学习算法之一投票主要有硬投票和软投票两种硬投票即各基分类器权重相同的投票其原理为多数投票原则如果基分类器的某一分类结果超过半数则集成算法选择该结果若无半数结果则无输出软投票的
（一）Windows下tensorflow安装 win64+Python3.5

2016年11月29日 TF官方宣布0 12版tensorflow支持原生windows操作系统不在需要通过Docker进行安装 tf初学者 windows重度依赖用户可以按照下面这种可行的安装方法进行一安装Python 1 通过P
JavaWeb远程调试

目录远程调试 Centos JDK 工程启动配置 IDE连接调试停止调试远程调试原理原理三种通信方式 Debug参数第1种Socket Attach调试方法第2种Socket Listen调试方法第3种调试方法断点分类
Go_实现HTTP请求和响应

请求 HTTP 超文本传输协议请求报文由请求行请求头部空行请求包体4个部分组成如下图所示请求行请求行由请求方法 URL HTTP协议版本组成它们之间使用空格隔开常用的HTTP请求方法有GET POST请求 GET GET请
Java序列化与JNDI注入

现阶段公司会进行季度的安全巡检扫描出来的 Java 相关漏洞无论是远程代码执行还是 JNDI 注入基本都和 Java 的序列化机制有关本文简单梳理了一下序列化机制相关知识解释为什么这么多漏洞都和 Java 的序列化有关以及后续
Python:三种格式化字符串的方式，附：小题案例+知识点

python中常见的格式符格式符格式说明 c 将对应的数据格式转化为字符 s 将对应的数据格式化为字符串 d 将对应的数据格式化为整数 u 将对应的数据格式化为无符号整型 o 将对应的数据格式化为八进制数据 x 将对应的数据格式化为十六
Python爬取电影信息：Ajax介绍、爬取案例实战 + MongoDB存储

Ajax介绍 Ajax Asynchronous JavaScript and XML 是一种用于在Web应用程序中实现异步通信的技术它允许在不刷新整个网页的情况下通过在后台与服务器进行数据交换实时更新网页的一部分 Ajax的主要特点
机器学习之文本分类（附带训练集+数据集+所有代码）

我本次对4类文本进行分类所有截图代码和数据集最后附带免费下载地址主要步骤 1 各种读文件写文件 2 使用jieba分词将中文文本切割 3 对处理之后的文本开始用TF IDF算法进行单词权值的计算 4 去掉停用词 5 贝叶斯预测种类文

机器学习之文本分类（附带训练集+数据集+所有代码）

机器学习之文本分类（附带训练集+数据集+所有代码） 的相关文章

随机推荐

热门标签

机器学习之文本分类（附带训练集+数据集+所有代码）的相关文章