Ubantu 系统下安装fasttext及重要函数

2023-10-30

因为最近遇到了一个文本向量化的问题,所以接触了很多fasttext这个工具,原理什么的就不讲,网上实在是太多了.但是我在实验的过程中遇到了很多的问题,其中绝大多数都是安装fasttext问题,我也看到了很多博主说是fasttext是在windows系统上不太好用,我自己觉得确实不太好用,而且直接下的whl安装引用的方式也不太一样,这不是最麻烦的,最要命的是其中函数的参数都不一样.所以换成ubantu系统了.

先安装一下试试:

sudo pip install fasttext

import fasttest 不报错就成功了.

如果报错

error: command 'x86_64-linux-gnu-gcc' failed with exit status 1

说明缺少C++的包

sudo apt-get install build-essential libssl-dev libffi-dev python-dev
sudo apt-get install python3.6-dev  
sudo pip install Cython
sudo pip install fasttext

这样就解决了问题,import fasttext.当然gensim.model的包中也有fasttext,可以调用,但是还是有点区别.

其次关于fasttext的数据格式是有限制的.

#__label__+类别+,+文本数据
__label__1 , Qeemat k lihaz sy behtreen hain yaar

源文件转化为该格式
df = pd.read_csv('train_ANSI.csv', usecols=['review', 'label'], encoding='utf-8')
    for i in range(len(df)):
    	dataTrans = open('sentence.txt', 'a', encoding='utf-8')
		dataTrans.write("__label__" + label + " , " + str(df.iloc[i, 0]) + '\n')
		dataTrans.close()

训练函数


classifier=fasttext.supervised('trainpath','modelpath',label_prefix='__label__')
#label_prefix='__label__',通过这个来分开训练数据中的label
#modelpath 指的是模型保存的路径
#trainpath是训练数据的路径

测试函数

lables=classifier.predict(texts)
#texts 是list格式的数据,并且这个函数只能每一行的输入

#对于多行数据的测试
with open('testData.txt','r',encoding='utf-8') as tD:
    tests = tD.readlines()
    # print(tests)
    for i in range(len(tests)):
        # print(tests[i])
        str1 = tests[i]
        list1 =[]
        list1.append(str1)
        s = [x.strip() for x in list1 if x.strip() != '']#去掉转换数据时产生的'\n'
        #print(s)
        lables = classifier.predict(s)
        print(lables)

以上都是有监督的学习方式,其实在fasttext中其主要存在四个部分

from .fasttext import skipgram
from .fasttext import cbow
from .fasttext import load_model
from .fasttext import supervised

我们可以通过前两个模型来无监督的生产词向量

#skipgram model
model=fasttext.skipgram('unsupervised_train_data.txt','model')
print(model.words)    #打印词向量

#cbow model
model=fasttext.cbow('unsupervised_train_data.txt','model')
print(model.words) 

skipgram与cbow两个模型区别和具体内容就不多赘述,网上很多.
fasttext最大的优点就是处理词语的速度特别的快,并且也能保持精度.

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Ubantu 系统下安装fasttext及重要函数 的相关文章

  • 手动安装Kylin5.0版本的过程

    官方文档 https kylin apache org 目前kylin3 4版本是有docker版本和安装包的 5 0只有docker没有安装包 安装包 https kylin apache org download 安装kylin5 0

随机推荐

  • 56. 合并区间 57. 插入区间 66. 加一

    56 合并区间 以数组 intervals 表示若干个区间的集合 其中单个区间为 intervals i starti endi 请你合并所有重叠的区间 并返回 一个不重叠的区间数组 该数组需恰好覆盖输入中的所有区间 示例 1 输入 int
  • Win11怎么共享文件夹?Win11创建共享文件夹的方法

    共享文件夹能够实现在同一个局域网或者同一个工作组之内共享资源 这样不仅能够减少资源传递的时间 还可以提高工作效率 那么Win11怎么共享文件夹呢 还有详细的系统重装教程可阅读 具体操作如下 1 首先 按键盘上的 Win X 组合键 或右键点
  • FastDFS下载文件自定义命名

    上一节我们讲述了FastDFS的搭建和文件的上传 docker搭建FastDFS及遇到的问题解决 花开花落与云卷云舒的博客 CSDN博客 这一节我们讲讲如何将上传的文件下载到我们的本机并还原为原来的文件名 一 前言 在上一节中 我们知道我们
  • 最大权闭合子图的简单证明

    文章目录 一 概念 二 证明 2 1流网络的构造 2 2首先证明原图G的任何一个闭合子图都与新图 G G
  • docker报错WARNING: Retrying (Retry(total=4, connect=None, read=None, redirect=None, status=None)) afte

    完整报错 WARNING Retrying Retry total 4 connect None read None redirect None status None after connection broken by NewConne
  • springboot swagger2

    swagger2 介绍 Swagger Codegen 通过Codegen 可以将描述文件生成html格式和cwiki形式的接口文档 同时也能生成多钟语言的服务端和客户端的代码 支持通过jar包 docker node等方式在本地化执行生成
  • 查询练习题

    1 查询Student表中的所有记录的Sname Ssex和Class列 select Sname Ssex Class from Student 2 查询教师所有的单位即不重复的Depart列 select Depart count fr
  • AD20使用技巧和笔记

    AD20自学笔记 文章目录 AD20自学笔记 细节 规则 绘制PCB全流程 细节 AD20默认的铺铜 会出现相同网络的导线 如GND 将铺铜分隔开的情况 导致铜箔没有将区域完全覆盖 解决办法 选中铺铜区域 右键 属性 将 Pour Over
  • VS2022部署/安装 QT(以5.14.2为例)

    一 下载并安装Qt Visual Studio Tools 点击扩展 并选择管理扩展 二 搜索QT并下载Qt Visual Studio Tools 注意 如果wifi下载很慢 甚至不动 可以尝试用 热点 下载好后 关闭vs2022 它会自
  • Java基础 String StringBuffer StringBuilder的异同介绍

    一 String StringBuffer StringBuilder的对比 String StringBuffer StringBuilder 字符串类型 常量 不可变 变量 可变 变量 可变 线性安全 安全 final修饰 安全 方法s
  • 什么是PHP中的函数?它们如何使用?

    嘿 你好啊 PHP中的函数就像是一个超级有技能的工人 可以帮助我们更快更好地完成任务 它们就像是一个个工具箱 里面装满了各种用途的工具 函数可以执行各种任务 比如计算两个数的和 检查字符串是否包含某个字符 读取文件等等 使用函数可以让我们的
  • golang构造N叉树

    package main import fmt strconv sync type Spaninfo struct AppNames string json appNames ContainErr bool json containErr
  • STM32端口复用和重映射

    STM32的引脚可设置为可设置为 普通IO功能 复用功能 重映射功能 不过普通IO功能 复用功能用得比较多 复用 在TSM32里面 大部分的引脚都是有GPIO复用功能 也就是说 一个 GPIO如果可以复用为内置外设的功能引脚 那么当这个 G
  • Java使用POI导出Excel、合并单元格、插入网络图片

    假设存在这样一张表A audience 观众表 id zjhm name gender address 表B seat 座位表 表明这个观众主动坐过哪些座位 id 表C check 校核表 表明这个观众被系统管理人员校核过哪些座位 id 一
  • Python练习题——BNUZ

    python练习题 BNUZER 一 填空题 二 简答题 三 程序设计题 谏言 一 填空题 若world world 则print hello world 输出 helloworld 表达式 3 in 1 2 3 4 的值为 False 表
  • 基于Element-UI给Vue页面添加Loading效果

    基于Element UI给Vue页面添加Loading效果 1 引入 2 在标签里面添加v loading 3 在data中定义 4 调用后端接口之前设置true 返回数据画图后设置false 1 引入 import Loading fro
  • 如何搭建个人服务器(网站/游戏)?

    在现代这个互联网时代 不会建站就OUT啦 下面小编给大家分享一个最快捷的建站方法 用这个建站方法 不仅简单快速 而且不花一分钱 不用买域名 也不用买空间 尤其适合刚刚接触建站的新手 学建站的学生和想打造个人网页的朋友 准备工具 一台电脑 X
  • 轻量、便捷、高效—经纬恒润AETP助力车载以太网测试

    随着自动驾驶技术和智能座舱的不断发展 高宽带 高速率的数据通信对主干网提出了稳定 高效的传输要求 CAN FD LIN已无法充分满足汽车的通信需求 车载以太网作为一种快速且扩展性好的网络技术 已经逐步成为了汽车主干网的首选 此外 为了满足车
  • STM32CubeProgrammer V2.9.0版本 通过UART bootload下载STM32G030系列芯片有Bug

    文章目录 CubeProgrammerV2 9 0最新版本的Bug 友情提醒 CubeProgrammerV2 9 0最新版本的Bug 本人笔记本电脑最近新装系统 想着安装最先版本的Stm32CubeProgrammer软件试试 再使用Ua
  • Ubantu 系统下安装fasttext及重要函数

    因为最近遇到了一个文本向量化的问题 所以接触了很多fasttext这个工具 原理什么的就不讲 网上实在是太多了 但是我在实验的过程中遇到了很多的问题 其中绝大多数都是安装fasttext问题 我也看到了很多博主说是fasttext是在win