贝叶斯做文本分类，代码实现数据处理

2023-11-12

import os
import time
import random
import jieba  #处理中文
import nltk # 处理英文
import sklearn
from sklearn.naive_bayes import MultinomialNB  #多项式模式贝叶斯   还有伯努利模式  混合模式
import numpy as np
import pylab as pl
import matplotlib.pyplot as plt
#划分数据集 api 
from sklearn.model_selection import train_test_split

from sklearn.externals import joblib



#粗暴的词去重

#文本处理  样本生成  读取文件 划分训练集合
"""
共9类  9个文件夹  每个文件夹有一系列文本  每个text是一个文本
C000008  C000010  C000013  C000014  C000016  C000020  C000022  C000023  C000024
每个文件夹下的是一些文本
10.txt  11.txt  12.txt  13.txt  14.txt  15.txt  16.txt  17.txt  18.txt  19.txt
传入文件夹路径  划分训练和测试集合  
"""
def text_processing(folder_path,test_size=0.2):
    foleder_list=os.listdir(folder_path)
    data_list=[]
    class_list=[]
    #print("foleder_list",len(foleder_list))
    
    #遍历文件夹
    for folder in foleder_list:
        new_folder_path=os.path.join(folder_path,folder)
        files=os.listdir(new_folder_path)
        #print("files",len(files))
        
        #遍历每个类别的文件夹
        for file in files:
            with open(os.path.join(new_folder_path,file),'r') as fp:
                raw=fp.read()
                # 对读到的文本进行Jieba分词
                jieba.enable_parallel(4)#开启结巴并行分词模式
                word_cut=jieba.cut(raw,cut_all=False)
                word_list=list(word_cut)
                jieba.disable_parallel()#关闭并行模式
                
                #将每个文本放入数据列表中
                """
                [
                []
                []
                ]
                """
                data_list.append(word_list)
                """
                C000008 财经
                C000010 IT
                C000013 健康
                C000014 体育
                C000016 旅游
                C000020 教育
                C000022 招聘
                C000023 文化
                C000024 军事
                将每个文本对应的文件夹的名称 存入类别列表  建立关联label

                """
                class_list.append(folder.encode('utf-8').decode('utf-8'))#类别 列表
                
    #划分数据集合
    train_data_list,test_data_list,train_class_list,test_class_list=tr

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

传统统计机器学习算法

贝叶斯做文本分类，代码实现数据处理的相关文章

看完这篇教你玩转渗透测试靶机Vulnhub——HarryPotter:Nagini

Vulnhub靶机HarryPotter Nagini渗透测试详解 Vulnhub靶机介绍 Vulnhub靶机下载 Vulnhub靶机安装 Vulnhub靶机漏洞详解信息收集漏洞发现 SSRF漏洞利用网站后台GetShell SSH公
通过HttpClient以post方式发送https/http请求，请求及返回参数格式为json和xml两种方式，解决https加ip直接访问的ssl签名认证问题

最近项目中需要向外部服务发送https请求但是外部服务测试环境提供的访问地址为https加ip 端口的访问方式由于SSL签名认证问题网上搜索大多说是因为https后面设计为跟域名绑定访问无法访问后来尝试网上各大神的解决方案完美解
Java获取当天，本周，本月，本季度，本年起始时间工具类

import java time import java time format DateTimeFormatter import java util Date import java util Locale jdk8 获取当天本周本月
Linux静默安装Oracle12c过程笔记

Linux静默安装Oracle12c过程笔记 1 关闭防火墙禁止防火墙开机自启关闭防火墙 systemctl stop firewalld service 禁止防火墙开机启动 systemctl disable firewalld se
订单、支付、退款、发货、退货等编号自动生成类

在商城网站中订单编号的自动生成 ERP中各个单据的编号自动生成都可以按照一下的方式来自动生成第一步定义常量订单编号前缀订单编号起始数订单编号步长 public static final String ORDER SN PREFI
固定资产批导程序

Responsibility Program Name ZFIC001 Date written Author s name SongQiong Last update Program title 固定资产期初批量导入程序 Project
【基础知识】5、相机内外参矩阵和坐标变换

文章目录 1 世界坐标系和相机坐标系的关系从世界坐标系到相机坐标系涉及到物体的旋转和平移绕着不同的坐标轴旋转不同的角度得到相应的旋转矩阵如下图所示于是从世界坐标系到相机坐标系涉及到旋转和平移其实所有的运动也可以用旋转矩阵和
npcap关闭_npcap是什么软件

npcap是一个网络数据包抓包工具是WinPcap的改进版它支持NDIS 6技术只允许管理员Administrator 访问Npcap 与WinPcap兼容或并存两种模式支持Windows平台的回环数据包采集和发送本教程操作环境
性能测试_JMeter中你可能会忽略的细节点-2

目录 CSV参数化有什么缺陷在哪里可以体验到 JDBC请求报错Variable Name must not be null in JDBC Request 助攻机tar包和zip包要注意的事项文件夹的执行权限 JMeter分布式主机假死
ACLR指标

文章目录一 ACLR含义二 ACLR来源一 ACLR含义 ACLR Adjacent Channel Leakage Power Ratio 测试目的避免对邻近信道产生干扰 LTE和ACLR测试除了需要测试自身带宽相同的邻信道泄漏功
okGo详细使用步骤(一)

OkGo的使用一详细使用方式可以直接观看源文档wiki 这里不再说明本文档也是依赖于源文档进行代码测试和理解写的写此文档时okgo版本 compile com lzy net okgo 3 0 4 几个库的介绍 library名简
basler相机pylon安装及API调用

1 官网下载basler相机的pylon 2 安装pylon 2 1选择pylon的模式二次开发选择development模式 2 2选择接口看相机的接口类型选择相机的接口类型一般为GitE和USB类型 3 完后安装就打开Pylon
AUBO机械臂常用函数和指令详解（C/C#版本）

我是厂妹扩充一下上一篇内容 C 引用的C生成的DLL 所以直接一起介绍部分不同会写出来目录头文件和引用部分初始化和主要参数根据基础坐标系运动操作机械臂轴动运动函数设置基于基座系运动偏移量获取机械臂当前位置信息获取机械臂
FlowJo 10.4.0(流式细胞分析器工具)

FlowJo mac是一款流式细胞仪数据分析软件广泛用于生物医学研究领域它提供了强大的功能和直观的用户界面使用户能够对流式细胞仪收集的数据进行高级分析和可视化 FlowJo for mac具有以下主要特点数据导入和预处理 FlowJ
oracle连接mysql详解linux_Linux平台Oracle连接MySQL

前言 Windows平台Oracle连接MySQL的方法已经给大家介绍过了现在大部分的Oracle和MySQL都是在Linux平台上面刚好最近也有这种需求顺手把整个搭建过程记录起来和大家分享原理通过ODBC连接MySQL的原理图
LU分解（LU Factorization）计算方法（手算+MATLAB），关于置换矩阵（Permutation Matrix），部分主元消去法（Partial Pivoting）

背景求解一些列具有相同系数矩阵的线性方程如 A x b 1 Ax b 1 Ax b1
Python爬虫之Jsonpath解析

Jsonpath的安装方式 pip install jsonpath i https pypi douban com simple 利用国内源速度快一些 jsonpath的使用针对json数据结构进行数据解析本地文件服务器文件需要先下
2023年黑客零基础从入门到精通学习成长路线（超多图、非常详细），看完这一篇就够了。

怎样规划学习路线如果你是一个安全行业新人我建议你先从网络安全或者Web安全渗透测试这两个方向先学起一是市场需求量高二则是发展相对成熟入门比较容易值得一提的是学网络安全是先网络后安全学Web安全也是先Web再有安全安全不
mysql 存储过程参考虽然不建议用存储过程，一个例子用于自己参考

BEGIN DECLARE done INT DECLARE v companyName VARCHAR 100 DECLARE v phone VARCHAR 30 DECLARE v contactName VARCHAR 30 DEC

随机推荐

论文笔记：On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima

2017 ICLR 0 摘要这篇文章探究了深度学习中一个普遍存在的问题使用大的batchsize训练网络会导致网络的泛化性能下降 Generalization Gap 大的batchsize训练使得目标函数倾向于收敛到sharp min
ubuntu18.04 安装OpenBLAS

一通过apt get安装 sudo apt get install libopenblas dev 二源码安装下载OpenBLAS并安装 git clone https github com xianyi OpenBLAS git c
[人工智能-深度学习-37]：卷积神经网络CNN - 重构神经网络的疑惑与思考？

作者主页文火冰糖的硅基工坊文火冰糖王文兵的博客文火冰糖的硅基工坊 CSDN博客本文网址人工智能深度学习 37 卷积神经网络CNN 重构神经网络的疑惑与思考文火冰糖王文兵的博客 CSDN博客如果你看懂我的疑惑如果你能
MYSQL的server层和存储引擎层分析

转自微点阅读 https www weidianyuedu com SQL的全称是Structured Query Language 翻译成中国话就是结构化查询语言这是一种声明式的语法何为声明式对于设计数据库的人而言语句怎么执行就
海量数据找中位数

腾讯一面问到了用的算法导论中的Kth算法期望时间复杂度为O n 后来想了想万一数据多的来根本不能一次读入内存这个时候该如何解决呢题目如下只有2G内存的pc机在一个存有10G个整数的文件从中找到中位数写一个算法 http b
python第五天作业

作业4 判断以下哪些不能作为标识符 B D F A a B a C 12 D a 12 E false F False 作业5 输入数判断这个数是否是质数要求使用函数 for循环 num int input 请输入一个数 def zhi
关于STM32烧录时遇到No Algorithm found for: 08000000H - 08001E13H的解决办法

在烧录STM32F103C8T6相关例程时遇到提示检查相关文件均正常但发现其默认配置为 Erase Sectors 因此解决办法为 1 进入option for trget 小锤子界面 2 选择Utilities界面点击sett
js正则搜索img标签并替换src值

第一种用函数更灵活 const html img src image1 jpg img src image22 jpg p Some text with no image p img src i23mage3 jpg const regex
动态代理原理和设计模式详解

一什么是代理模式代理模式是一种设计模式提供了对目标对象额外的访问方式即可以通过代理访问目标对象这样可以在不修改原目标对象的前提下提供额外的方式进行访问扩展目标对象的功能通俗的说例如你想租房房子就是你的目标访问对象那在中间
LVGL7.5版本触摸与键盘输入(API)对接(一)

LVGL7 5版本触摸与键盘输入 LVGL7 5版本触摸与键盘输入 API 对接一前言一 indev输入设备的种类介绍二移植Touchpad与Keypad Touchpad Keypad Keypad测试示例本篇完 LVGL
有哪些值得互联网人加入的国企？

程序员的成长之路互联网程序员技术资料共享关注阅读本文大概需要 5 5 分钟今年的就业相比以往是难了一点感受到的人都懂今天分享一些值得考虑的国企毕竟优质的国企很稳定不会像互联网一样担忧年纪大被裁员的情况发生福利又好
使用zabbix5.2监控mariadb--第七步

困难点 zabbix5 2可用的userparameter mysql conf问题一般不成功是因为监控脚本和数据库账号授权 01 前言 zabbix内置Mysql的监控模版因为mariadb和Mysql两者的相关性所以这个模版也能用
HFSS仿真导入到PCB

一从HFSS中导出DXF文件以偶极子天线为例先导出顶层选择这个然后保存然后同理导出介质层和底层二导入PCB文件中 1 导入顶层导入刚刚导出的顶层文件然后将比例更改为mm pcb层改为Top Layer 导入之后选中 2
python 矩阵常用计算

coding utf 8 import numpy as np aa np array 1 2 3 4 5 6 7 8 9 行列式 print np linalg det aa
mysql分割和合并字段数据

1 以此表为例 2 分割字符串成多列展示 sql语句 select li substr li 1 2 as D盘 substr li 11 11 as jpg from sheet1 结果 3 分割完之后可以得到想要的数据根据数据有多少
区块链医疗应用--智慧医疗系统

区块链医疗应用医疗现状医疗行业利用区块链技解决个人健康数据的安全性与共享医疗数据信息孤岛产品溯源等提供了更有效维护全量备份信息安全的分布式记账技术为医疗数据共享带来更好思路区块链的特性确保系统的稳定性医疗行业的发展主要是
语义分割——SegNet（四）

简介补充一下2015年发表的SegNet模型它是由剑桥大学团队开发的图像分割的开源项目该项目可以对图像中的物体所在区域进行分割 SegNet是在FCN的语义分割任务基础上搭建encoder decoder对称结构实现端到端的像素级
idea使用vim

idea使用vim 安裝ideaVim插件在idea中直接搜索插件 ideaVim 并安装配置vim 在 home 目录下创建 ideavimrc文件如在 windows 系统中则在 C Users xxxx 下建在 ideavi
《等级保护二级基本要求》

等级保护二级基本要求通过等级保护工作发现单位信息系统存在的安全隐患和不足进行安全整改之后提高信息系统的信息安全防护能力降低系统被各种攻击的风险维护单位良好的形象等级保护是我国关于信息安全的基本政策国家法律法规相关政策制度要求
贝叶斯做文本分类，代码实现数据处理

import os import time import random import jieba 处理中文 import nltk 处理英文 import sklearn from sklearn naive bayes import Mu

贝叶斯做文本分类，代码实现数据处理

贝叶斯做文本分类，代码实现数据处理 的相关文章

随机推荐

热门标签

贝叶斯做文本分类，代码实现数据处理的相关文章