中文垃圾邮件分类。2种特征提取，词袋特征，IFIDF分布特征，贝叶斯NB,LR,SVM各自表现的实战示例代码

2023-11-08

结论：

数据：

ham_data.txt

spam_data.txt

stop_words.utf8

数据处理：

"""

@author: liushuchun
"""
import re
import string
import jieba

# 加载停用词
with open("dict/stop_words.utf8", encoding="utf8") as f:
    stopword_list = f.readlines()


def tokenize_text(text):
    tokens = jieba.cut(text)
    tokens = [token.strip() for token in tokens]
    return tokens


def remove_special_characters(text):
    tokens = tokenize_text(text)
    pattern = re.compile('[{}]'.format(re.escape(string.punctuation)))
    filtered_tokens = filter(None, [pattern.sub('', token) for token in tokens])
    filtered_text = ' '.join(filtered_tokens)
    return filtered_text


def remove_stopwords(text):
    tokens = tokenize_text(text)
    filtered_tokens = [token for token in tokens if token not in stopword_list]
    filtered_text = ''.join(filtered_tokens)
    return filtered_text


def normalize_corpus(corpus, tokenize=False):
    normalized_corpus = []
    for text in corpus:

        text = remove_special_characters(text)
        text = remove_stopwords(text)
        normalized_corpus.append(text)
        if tokenize:
            text = tokenize_text(text)
            normalized_corpus.append(text)

    return normalized_corpus

特征提取

"""

@author: liushuchun
"""

from sklearn.feature_extraction.text import CountVectorizer


def bow_extractor(corpus, ngram_range=(1, 1)):
    vectorizer = CountVectorizer(min_df=1, ngram_range=ngram_range)
    features = vectorizer.fit_transform(corpus)
    return vectorizer, features


from sklearn.feature_extraction.text import TfidfTransformer


def tfidf_transformer(bow_matrix):
    transformer = TfidfTransformer(norm='l2',
                                   smooth_idf=True,
                                   use_idf=True)
    tfidf_matrix = transformer.fit_transform(bow_matrix)
    return transformer, tfidf_matrix


from sklearn.feature_extraction.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

tensorflow

NLP

中文垃圾邮件分类

NB

LR

中文垃圾邮件分类。2种特征提取，词袋特征，IFIDF分布特征，贝叶斯NB,LR,SVM各自表现的实战示例代码的相关文章

AttributeError：类型对象“Word2Vec”没有属性“load_word2vec_format”

我正在尝试实现 word2vec 模型并收到属性错误 AttributeError 类型对象 Word2Vec 没有属性 load word2vec format 下面是代码 wv Word2Vec load word2vec format
张量流急切模块错误

我的操作系统是 Ubuntu 16 04 Python版本是3 5 张量流版本是14 0 当我尝试为 TF Eager 模块编写简单代码时 import tensorflow as tf import tensorflow contrib
使用批量乘法的tensorflow的tensordot中的障碍

我正在张量流中实现 RBM 使用小批量实现参数更新存在障碍有2个张量第一个张量的形状是 100 3 1 第二个张量的形状是 100 1 4 数字 100 是批次大小所以我想将这些张量相乘得到 100 3 4 张量但是当我实现这样的
缩短文本并仅保留重要句子

德国网站 nandoo net 提供了缩短新闻文章的可能性如果使用滑块更改百分比值文本会发生变化并且某些句子会被遗漏您可以在这里看到它的实际效果 http www nandoo net read article 299925 http
TensorFlow：在输入处获取梯度时性能缓慢

我正在使用 TensorFlow 构建一个简单的多层感知器并且我还需要获取神经网络输入损失的梯度或误差信号这是我的代码它有效 cost tf reduce mean tf nn softmax cross entropy with
Keras 通过设置种子获得不同的结果[重复]

这个问题在这里已经有答案了在keras中每次运行都有很高的方差和不稳定的性能为了解决这个问题根据https keras io getting started faq how can i obtain reproducible res
如何在anaconda python 3.6上安装tensorflow

我使用 anaconda 包安装了新版本的 python 3 6 但是我无法安装张量流总是收到这样的错误 tensorflow gpu 1 0 0rc2 cp35 cp35m win amd64 whl 在此平台上不受支持如何在 ana
错误：tensorflow：无法匹配检查点的文件

我正在训练一个张量流模型在每个时期之后我都会保存模型状态并腌制一些数组到目前为止我的模型执行了 2 个纪元并且保存状态的文件夹包含以下文件 checkpoint model e knihy preprocessed txt e0 c
Fine-Tuning DistilBertForSequenceClassification：不是学习，为什么loss没有变化？权重没有更新？

我对 PyTorch 和 Huggingface transformers 比较陌生并对此尝试了 DistillBertForSequenceClassificationKaggle 数据集 https www kaggle com c
旧版本的 spaCy 在尝试安装模型时抛出“KeyError: 'package'”错误

我在 Ubuntu 14 04 4 LTS x64 上使用 spaCy 1 6 0 和 python3 5 为了安装 spaCy 的英文版本我尝试运行这给了我错误消息 ubun ner 3 NeuroNER master src pyt
Tensorflow 不分配完整的 GPU 内存

Tensorflow 默认分配所有 GPU 内存但我的新设置实际上只有 9588 MiB 11264 MiB 我预计大约 11 000MiB 就像我的旧设置一样张量流信息在这里 from tensorflow python client
如何在Tensorflow中保存估计器以供以后使用？

我按照教程 TF Layers 指南构建卷积神经网络以下是代码 https github com tensorflow tensorflow blob r1 1 tensorflow examples tutorials layers
可视化 TFLite 图并获取特定节点的中间值？

我想知道是否有办法知道 tflite 中特定节点的输入和输出列表我知道我可以获得输入输出详细信息但这不允许我重建发生在Interpreter 所以我要做的是 interpreter tf lite Interpreter model
ValueError：没有为“dense_input”提供数据

我正在使用以下简单的代码使用tensorflow加载csv并使用keras执行建模无法弄清楚这个错误 import tensorflow as tf train dataset fp tf keras utils get file fna
ValueError：请使用“Layer”实例初始化“TimeDistributed”层

我正在尝试构建一个可以在音频和视频样本上进行训练的模型但出现此错误ValueError Please initialize TimeDistributed layer with a Layer instance You passed Te
无法加载动态库“libcudart.so.11.0”；

我尝试将 Tensorflow 2 7 0 与 GPU 结合使用但我不断遇到同样的问题 2022 02 03 08 32 31 822484 W tensorflow stream executor platform default ds
阻止 TensorFlow 访问 GPU？ [复制]

这个问题在这里已经有答案了有没有一种方法可以纯粹在CPU上运行TensorFlow 我机器上的所有内存都被运行 TensorFlow 的单独进程占用我尝试将 per process memory fraction 设置为 0 但未成功
TensorFlow：在训练时更改变量

如果我将输入管道从 feed dict 更改为 tf data dataset 如何在每次迭代后的训练期间更改网络内参数的值澄清一下旧代码看起来像这样 Define Training Step model is some class t
如何将 tf.contrib.seq2seq.Helper 用于非嵌入数据？

我正在尝试使用 tf contrib seq2seq 模块对某些数据仅 float32 向量进行预测但我使用 TensorFlow 中的 seq2seq 模块找到的所有示例都用于翻译因此用于嵌入我正在努力准确理解 tf contr
如何使用一个模型中间层的输出作为另一个模型的输入？

我训练一个模型A并尝试使用中间层的输出name layer x 作为模型的附加输入B 我尝试像 Keras 文档一样使用中间层的输出https keras io getting started faq how can i obtain th

随机推荐

工作能力构架框架图——我对工作的理解

工作架构图最近对工作内容进行了一次review 归纳如下做简单地分享 job层 job层是我们最容易理解的一层即我们平时的工作title 可能是销售售前产品等等那么做产品的人能不能做售前呢我想肯定可以因为在人力资源市场上
解决eclipse出现launch failed，binary not found 的问题

解决eclipse出现launch failed binary not found 的问题仅作为解决问题的记录问题描述 1 之前一直用eclipse写C 文件后面学了java就用eclipse写了一些 java文件但是偶然一次想要再
ValueError: column index (256) not an int in range(256)

pandas 保存为xls时最大列为256 改为保存csv格式可避免该限制解决方法 pd DataFrame in shp pre to csv 各区站点 file 14 17 csv
软件开发管理参考网站

BDD http en wikipedia org wiki Behavior Driven Development Scrum http zh wikipedia org zh Scrum UserCase http www hudong
Kubernetes 资源管理：最大化集群性能

今天是 DevOps云学堂与你共同进步的第 54天 Kubernetes 资源管理是部署和管理容器化应用程序的一个关键方面它允许管理员控制系统不同部分之间计算资源的分配例如CPU 内存和存储有效的资源管理可确保应用程序获得正确运行所
Latex 字体的设置

一字体族的设置 1 说明 1 字体命令 textrm Roman Family 在花括号内的字体都是Roman Family 字体 2 字体声明 rmfamily Roman Family 该命令下面的字体都是是Roman Family字
Vim几种跳转方式

Vim几种跳转方式 ps 以下时我常用的一些跳转指令用于参考和复习记忆还有一些后续会更新文件内跳转移动光标普通模式下左h 右l 上k 下j 可以使用数字 hlkj 实现跳跃式移动字符间跳转跳转到当前字符的前面普通模式下i 跳
CesiumJS三维案例

WebGL近几年越来越被人们所关注但是二三维开发难度也比普通web要高出许多不管我们是在在开发或者是学习过程中往往需要耗费大量的时间去查阅资料和研究官方案例让本来就非常紧张的而宝贵的精力卷到了不关紧要的地方而大多二三维的包 ope
apk文件结构解析一

Apk文件用WINRAR压缩软件解压缩后如下图所示主要是三个文件 lib META INF res 和三个文件夹 AndroidManifest xml classes dex resources arsc 用工具展开可以看到如下所示的
Protobuf在java中的简单使用实例

TTprotobuf是一种跨语言的数据转换协议由google开源的已支持大部份语言在一般的数据交互过程中都是使用json xml等来做数据的转换这其中涉及复杂的解析与序列化反序列化问题如果在大量数据并发请求时也会导致性能问题 p
Vue-过滤器

Vue 过滤器过滤器过滤器 Filters 是vue 为开发者提供的功能常用于文本的格式化过滤器可以用在两个地方插值表达式和 v bind 属性绑定过滤器应该被添加在JavaScript 表达式的尾部由管道符进行调用 p
图像增强之同态滤波python实现——20221204工作总结

目录参考同态滤波python实现代码效果参考 1 https wenku baidu com view 4eb598180a12a21614791711cc7931b765ce7ba9 html wkts 167005422236
IDEA 调试前端代码JS 及安装JetBrains IDE Support

收藏从未间断学习从未开始不需要F12窗口不需要JS代码写debugger断点不需要写console log 输出一 JetBrains IDE Support 1 必须使用谷歌浏览器安装JetBrains IDE Support
go 进阶 sync相关: 一. sync.atomic 原子操作

sync atomic 原子操作一 sync atomic 基础 sync atomic Value 二 sync atomic 源码分析 1 ifaceWords 2 Store 添加 3 Load 获取一 sync atomic 基
c#Replace用法

string txt 333 333 txt Replace Console WriteLine 赋值前 txt txt txt Replace Console WriteLine 赋值后 txt
Grape 依赖管理器

本文参考自Groovy文档 The Grape dependency manager 本文代码大部分来自Groovy官方文档 Groovy自带了一个嵌入式的jar依赖管理器这个管理器的主要作用应该是配合Groovy脚本使用让我们不需要任
Struts2 几种校验

1 Struts2手动校验 1 重写actionsupport类的validate方法 action需要继承ActionSupport类 public class StrutshAction extends ActionSupport 在v
三种基于感知哈希算法的相似图像检索技术

大家都用google或baidu的识图功能上面就是我搜索一幅图片的结果该引擎实现相似图片搜素的关键技术叫做感知哈希算法 Perceptual hash algorithm 它的作用是对每张图片生成一个指纹 fingerprint 字
Unity插件-NGUI

1 基本使用 NGUI gt 选项 gt Reset Perfab Toolbar 显示预制体UI组件可以直接拖拽到场景中使用NGUI 必须要有一个UIRoot作为父组件在场景中的UIRoot中右键单击然后点Create来创建组件
中文垃圾邮件分类。2种特征提取，词袋特征，IFIDF分布特征，贝叶斯NB,LR,SVM各自表现的实战示例代码

结论数据 ham data txt spam data txt stop words utf8 数据处理 author liushuchun import re import string import jieba 加载停用词 with

中文垃圾邮件分类。2种特征提取，词袋特征，IFIDF分布特征，贝叶斯NB,LR,SVM各自表现的实战示例代码

中文垃圾邮件分类。2种特征提取，词袋特征，IFIDF分布特征，贝叶斯NB,LR,SVM各自表现的实战示例代码 的相关文章

随机推荐

热门标签

中文垃圾邮件分类。2种特征提取，词袋特征，IFIDF分布特征，贝叶斯NB,LR,SVM各自表现的实战示例代码的相关文章