文本分类（六）：使用fastText对文本进行分类--小插曲

2023-10-29

需要注意的问题：
1、linux mac 平台
2、标签中的下划线是两个！两个！两个！

环境说明：python2.7、linux
自己打自己脸，目前官方的包只能在linux，mac环境下使用。误导大家了，对不起。
测试facebook开源的基于深度学习的对文本分类的fastText模型
fasttext python包的安装:

pip install fasttext

第一步获取分类文本，文本直接用的清华大学的新闻分本，可在文本系列的第三篇找到下载地址。
输出数据格式：样本 + 样本标签
说明：这一步不是必须的，可以直接从第二步开始，第二步提供了处理好的文本格式。写这一步主要是为了记忆当时是怎么处理原始文本的。

import jieba
import os

basedir = "/home/li/corpus/news/" #这是我的文件地址，需跟据文件夹位置进行更改
dir_list = ['affairs','constellation','economic','edu','ent','fashion','game','home','house','lottery','science','sports','stock']
##生成fastext的训练和测试数据集

ftrain = open("news_fasttext_train.txt","w")
ftest = open("news_fasttext_test.txt","w")

num = -1
for e in dir_list:
    num += 1
    indir = basedir + e + '/'
    files = os.listdir(indir)
    count = 0
    for fileName in files:
        count += 1            
        filepath = indir + fileName
        with open(filepath,'r') as fr:
            text = fr.read()
        text = text.decode("utf-8").encode("utf-8")
        seg_text = jieba.cut(text.replace("\t"," ").replace("\n"," "))
        outline = " ".join(seg_text)
        outline = outline.encode("utf-8") + "\t__label__" + e + "\n"
#         print outline
#         break

        if count < 10000:
            ftrain.write(outline)
            ftrain.flush()
            continue
        elif count  < 20000:
            ftest.write(outline)
            ftest.flush()
            continue
        else:
            break

ftrain.close()
ftest.close()

第二步：利用fasttext进行分类。使用的是fasttext的python包。
整理好的数据：百度网盘下载
news_fasttext_train.txt
news_fasttext_test.txt

# _*_coding:utf-8 _*_
import logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
import fasttext
#训练模型
classifier = fasttext.supervised("news_fasttext_train.txt","news_fasttext.model",label_prefix="__label__")

#load训练好的模型
#classifier = fasttext.load_model('news_fasttext.model.bin', label_prefix='__label__')

#测试模型
result = classifier.test("news_fasttext_test.txt")
print result.precision
print result.recall

0.92240420242
0.92240420242

由于fasttext貌似只提供全部结果的p值和r值，想要统计不同分类的结果，就需要自己写代码来实现了。

# -*- coding: utf-8 -*-
"""
Created on Wed Oct 18 14:17:27 2017

@author: xiaoguangli
"""
import logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
import fasttext


classifier = fasttext.load_model('news_fasttext.model.bin', label_prefix='__label__')
labels_right = []
texts = []
with open("news_fasttext_test.txt") as fr:
    for line in fr:
        line = line.decode("utf-8").rstrip()
        labels_right.append(line.split("\t")[1].replace("__label__",""))
        texts.append(line.split("\t")[0])
    #     print labels
    #     print texts
#     break
labels_predict = [e[0] for e in classifier.predict(texts)] #预测输出结果为二维形式
# print labels_predict

text_labels = list(set(labels_right))
text_predict_labels = list(set(labels_predict))
print text_predict_labels
print text_labels

A = dict.fromkeys(text_labels,0)  #预测正确的各个类的数目
B = dict.fromkeys(text_labels,0)   #测试数据集中各个类的数目
C = dict.fromkeys(text_predict_labels,0) #预测结果中各个类的数目
for i in range(0,len(labels_right)):
    B[labels_right[i]] += 1
    C[labels_predict[i]] += 1
    if labels_right[i] == labels_predict[i]:
        A[labels_right[i]] += 1

print A 
print B
print C
#计算准确率，召回率，F值
for key in B:
    try:
        r = float(A[key]) / float(B[key])
        p = float(A[key]) / float(C[key])
        f = p * r * 2 / (p + r)
        print "%s:\t p:%f\t r:%f\t f:%f" % (key,p,r,f)
    except:
        print "error:", key, "right:", A.get(key,0), "real:", B.get(key,0), "predict:",C.get(key,0)

实验数据分类

[u'affairs', u'fashion', u'lottery', u'house', u'science', u'sports', u'game', u'economic', u'ent', u'edu', u'home', u'constellation', u'stock']
['affairs', 'fashion', 'house', 'sports', 'game', 'economic', 'ent', 'edu', 'home', 'stock', 'science']
{'science': 8415, 'affairs': 8257, 'fashion': 3173, 'house': 9491, 'sports': 9739, 'game': 9506, 'economic': 9235, 'ent': 9665, 'edu': 9491, 'home': 9315, 'stock': 9015}
{'science': 10000, 'affairs': 10000, 'fashion': 3369, 'house': 10000, 'sports': 10000, 'game': 10000, 'economic': 10000, 'ent': 10000, 'edu': 10000, 'home': 10000, 'stock': 10000}
{u'affairs': 8562, u'fashion': 3585, u'lottery': 96, u'science': 9088, u'edu': 10068, u'sports': 10099, u'game': 10151, u'economic': 10131, u'ent': 10798, u'house': 10000, u'home': 10103, u'constellation': 432, u'stock': 10256}

#实验结果

science:    p:0.841500  r:0.925946r:    f:0.881706
affairs:    p:0.825700  r:0.964377r:    f:0.889667
fashion:    p:0.941822  r:0.885077r:    f:0.912568
house:  p:0.949100  r:0.949100r:    f:0.949100
sports: p:0.973900  r:0.964353r:    f:0.969103
game:   p:0.950600  r:0.936459r:    f:0.943477
economic:   p:0.923500  r:0.911559r:    f:0.917490
ent:    p:0.966500  r:0.895073r:    f:0.929416
edu:    p:0.949100  r:0.942690r:    f:0.945884
home:   p:0.931500  r:0.922003r:    f:0.926727
stock:  p:0.901500  r:0.878998r:    f:0.890107

从结果上，看出fasttext的分类效果还是不错的，没有进行对fasttext的调参，结果都基本在90以上，不过在预测的时候，不知道怎么多出了一个分类constellation。难道。。。。查找原因中。。。。
2016/11/7更正：从集合B中可以看出训练集的标签中是没有lottery和constellation的数据的，说明在数据准备的时候，每类选取10000篇，导致在测试数据集中lottery和constellation不存在数据了。因此在第一步准备数据的时候可以根据lottery和constellation类的数据进行训练集和测试集的大小划分，或者简单粗暴点，这两类没有达到我们的数量要求，可以直接删除掉

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

文本分类（六）：使用fastText对文本进行分类--小插曲的相关文章

Python 中的字节数组

如何在 Python 中表示字节数组如 Java 中的 byte 我需要用 gevent 通过网络发送它 byte key 0x13 0x00 0x00 0x00 0x08 0x00 在Python 3中我们使用bytes对象也称为s
如何将base64字符串直接解码为二进制音频格式

音频文件通过 API 发送给我们该文件是 Base64 编码的 PCM 格式我需要将其转换为 PCM 然后再转换为 WAV 进行处理我能够使用以下代码解码 gt 保存到 pcm gt 从 pcm 读取 gt 保存为 wav decod
xlrd.biffh.XLRDError：Excel xlsx 文件；不支持[重复]

这个问题在这里已经有答案了我正在尝试使用读取启用宏的 Excel 工作表pandas read excel与 xlrd 库它在本地运行良好但是当我尝试将其推送到 PCF 时我收到此错误 2020 12 11T21 09 53 441
Python有条件求解时滞微分方程

我在用dde23 of pydelay包来求解延迟微分方程我的问题如何有条件地编写方程例如目标方程有两个选项 when x gt 1 dx dt 0 25 x t tau 1 0 pow x t tau 10 0 0 1 x othe
for 循环如何评估其参数

我的问题很简单 Does a for循环评估它每次使用的参数 Such as for i in range 300 python 是否会为此循环的每次迭代创建一个包含 300 个项目的列表如果是的话这是避免这种情况的方法吗 lst ra
为什么我的代码不能根据字典解码加密字符串？

我有一本字典其中包含代表字母的键和值例如一个简单的 DICT CODE b g n a p o x d t y 我收到了一个加密代码并将该字符串转换为一个列表其中每个项目都是一个单词我需要根据字典中的项目来解决它代码示例是 wo
TF map_fn 或 while_loop 用于不同形状的张量列表

我想处理不同形状的张量序列列表并输出另一个张量列表考虑每个时间戳上具有不同隐藏状态大小的 RNN 就像是输入 tf ones 1 2 2 tf ones 2 2 3 tf ones 3 2 1 输出 tf zeros 1 2 4 t
查找模块中显式定义的函数 (python)

好的我知道您可以使用 dir 方法列出模块中的所有内容但是有什么方法可以仅查看该模块中定义的函数吗例如假设我的模块如下所示 from datetime import date datetime def test return Thi
可以用 Django 制作移动应用程序吗？

我想知道我是否可以在我的网站上使用 Django 代码并以某种方式在移动应用程序 Flutter 等框架中使用它那么是否可以使用我现在拥有的 Django 后端并在移动应用程序中使用它所以就像models views etc 是的有
使用 scipy curve_fit 拟合噪声指数的建议？

我正在尝试拟合通常按以下方式建模的数据 def fit eq x a b c d e return a 1 np exp x b c np exp x d e x np arange 0 100 0 001 y fit eq x 1 1 1
Pandas 滚动窗口 Spearman 相关性

我想使用滚动窗口计算 DataFrame 两列之间的 Spearman 和或 Pearson 相关性我努力了df corr df col1 rolling P corr df col2 P为窗口尺寸但我似乎无法定义该方法添加meth
django-admin.py makemessages 不起作用

我正在尝试翻译一个字符串 load i18n trans Well Hello there how are you to Hola amigo que tal 我的 settings py 文件有这样的内容 LOCALE PATHS os
乘以行并按单元格值附加到数据框

考虑以下数据框 df pd DataFrame X a b c d Y a b d e Z a b c d 1 2 1 3 df 我想在列中附加数字大于 1 的行并在该行中的数字减 1 df 最好应该然后看起来像这样或者它可能看起来
Python 惰性迭代器

我试图了解迭代器表达式如何以及何时被求值以下似乎是一个懒惰的表达 g i for i in range 1000 if i 3 i 2 然而这个在构造上失败了 g line strip for line in open xxx r if
Pandas style.bar 颜色基于条件？

如何渲染其中一列的 Pandas dfstyle bar color属性是根据某些条件计算的 Example df style bar subset before after color ff781c vmin 0 0 vmax 1 0 而
如何在 robobrowser-python 中发出 POST 请求

http robobrowser readthedocs org en latest api html http robobrowser readthedocs org en latest api html 我正在尝试使用 APIbrows
在 Django shell 会话期间获取 SQL 查询计数

有没有办法打印 Django ORM 在 Django shell 会话期间执行的原始 SQL 查询的数量 Django 调试工具栏已经提供了此类信息例如 5 QUERIES in 5 83MS但如何从 shell 中获取它并不明显您可
python sklearn中的fit方法

我问自己关于 sklearn 中拟合方法的各种问题问题1 当我这样做时 from sklearn decomposition import TruncatedSVD model TruncatedSVD svd 1 model fit X
如何获取所有mysql元组结果并转换为json

我能够从表中获取单个数据但是当我试图获取表上的所有数据时我只得到一行 cnn execute sql rows cnn fetchall column t 0 for t in cnn description for row in ro
长/宽数据到宽/长

我有一个数据框如下所示 import pandas as pd d decil 1 decil 1 decil 2 decil 2 decil 3 decil 3 decil kommune AA BB AA BB AA BB 2010

随机推荐

SeqGPT: 开箱即用的开放域自然语言理解大模型

论文链接 SeqGPT An Out of the box Large Language Model for Open Domain Sequence Understanding https arxiv org abs 2308 10529
【DL】血与泪的炼丹心得

记录一些炼丹的心得都是坑啊以下都是经过很多实验得到的炼丹心得希望对大家有帮助模型很复杂各种网络融合尝试用更小的学习率和更多的epoch 学习率预热是个好东西必须用上学习率很重要可以发掘模型的极限但是无法改变模型的上限模
DataAnalysis-Maggie-Lecture6-机器学习基础

ML的基础框架 1定义要解决的问题 2构建数据集 3数据变换 4训练模型 5使用模型预测 example 垃圾邮件标记系统来解释术语 Dataset 一堆的邮件 Sample Instances 一封邮件 Feature Variables
springcloud微服务：nacos的配置说明与服务注册

这部分我要知道两点就是nacos如何去注册服务和发现服务的一工程结构和版本依赖首先要说一个我们的springcloud工程基于半仙的springcloud工程这个工程比较有意思就是我很少看到pom文件一层套一层相当于是三级po
修改el-card的header的背景颜色

修改el card的header的背景颜色 1 修改默认样式好处是当前页面的所有的el card都会变化页面卡片
linux0.00 代码阅读笔记

汇编语言的编写编译运行调试 author hjjdebug date 参考代码地址 GitHub hjjdebug linux0 00 linux0 00 code compiled under ubuntu14 04 gcc 4 8
Vue3的基本语法及使用（vue3尚硅谷学习笔记）

一 Vue3的基本语法及使用 1 Vue3的基本语法 1 1 初识setup setup是Vue3中一个新的配置项值为一个函数组件中所要用到的数据方法等均要配置在setup中 setup的两种返回值若返回一个对象则对象中的属性
QT编程常见崩溃问题总结

一主程序事件循环函数崩溃 a exec 处崩溃该处崩溃一般调试的时候显示的堆栈信息停止的位置都是QT的dll库我们的代码中只给出了a exec 崩溃原因一子线程中更改界面上控件在Qt事件循环中一般只有主线程可以用来改变某一个显示
CFSum: A Coarse-to-Fine Contribution Network for MMS

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入作者肖敏朱军楠林海涛周玉宗成庆单位中国科学院自动化研究所邮箱 min xiao nlpr ia ac cn 1 摘要多模式摘要通常存在一个问题即视觉模态的贡献
推荐10个堪称神器的 Java 学习网站

经常有一些读者问我二哥学习 Java 应该关注哪些网站我之前的态度一直是上知乎上搜索引擎搜一下不就知道了但读者对我这个态度很不满意他们说我在问你又不是问知乎问搜索引擎你还别说读者说得有道理于是我想那就推荐一些吧先
【人工智能

一什么是多模态多模态 multimodal 是指涉及到多种模态如视觉语音文本等的数据或信息在计算机科学和人工智能领域中多模态通常指将多种类型的数据或信息相结合来解决特定的问题或任务以图像识别为例图像可以被视为一种视觉模
域中DC和AD的区别

今天朋友问我DC和AD的区别时我也是一脸懵X 所以我查了一些资料做个小总结域我的理解是他就是一个架构和工作组类似和工作组最大的区别就是工作组没有管理者而域可以集中管理再详细一点的解释就是在工作组上你一切的设置比如在本机上进
Vue引入并使用Element-UI组件库的两种方式

前言在开发的时候虽然我们可以自己写css或者js甚至一些动画特效但是也有很多开源的组件库帮我们写好了我们只需要下载并引入即可 vue和element ui在开发中是比较般配的也是我们开发中用的很多的下面就介绍下如何在eue项目中
博图db块变量导出_博途中，DB里定义的变量的改变

问题描述 1 新的博途中生成一个全局DB 打开在第一行自动生成了名称为static的变量名称无法修改数据类型无法选择而在老版的STEP7里分明是一个无名称数据类型是STRUCT 无法重新选择的变量为什么做了这样的改变
理解super().__init__()

目录一写在前面本文仅为个人的理解如有错误欢迎指正二 super init 的含义三代码实验四理解super init 五 Reference 一写在前面本文仅为个人的理解如有错误欢迎指正二 super init 的
AdaGrad（自适应梯度算法），Adaptive

学习衰减率随着学习的进行使得学习率逐渐减小 AdaGrad会为参数的每个元素适当的体哦阿正学习率 coding utf 8 import numpy as np class AdaGrad def init self learning
template模板：泛型化编程

一在函数中使用模板 template
macbookpro接口叫什么_了解这些常用接口一定会有用的

日常使用手机电脑以及其他电子产品免不了要跟各种接口打交道周末花了些时间查了些资料并总结自己的实际使用经验跟大家聊一聊我们日常使用手机 iPad 电脑外设中常用到的接口讲明白各种接口是一件非常复杂的事情我会尽量只写日常中常见到
【深度学习】AAAI 2024，14000篇投稿，大家都写了啥？

夕小瑶科技说原创作者 python 8月16日截稿的AAAI 2024 从投稿ID看已超14000篇投稿这么多投稿大家都写了啥今年什么话题最火和往年相比今年的投稿趋势又有什么变化本文中小编通过对比AAAI 2024与202
文本分类（六）：使用fastText对文本进行分类--小插曲

需要注意的问题 1 linux mac 平台 2 标签中的下划线是两个两个两个环境说明 python2 7 linux 自己打自己脸目前官方的包只能在linux mac环境下使用误导大家了对不起测试facebook开源的基于深

文本分类（六）：使用fastText对文本进行分类--小插曲

实验数据分类

文本分类（六）：使用fastText对文本进行分类--小插曲 的相关文章

随机推荐

热门标签

文本分类（六）：使用fastText对文本进行分类--小插曲的相关文章