NLP扎实基础3：TF-IDF文本特征提取

2023-10-26

TF-IDF简介

在这里插入图片描述

TF-IDF使用流程

见上图，步骤如下：

根据全部语料每个词对应的TF-IDF值
每个句子对应全部语料的one-hot编码，将TF-IDF编码作为特征

Python代码

流程很简单，就不复现了，这里有两个使用的方式，第一种是梳理整个流程，第二种是工程上能够简化代码的写法：

def get_text():
    sentence_list = [  # 假设这是全部的训练语料
        "nlp drives computer programs that translate text from one language to another",
        "nlp combines computational linguistics rule based modeling of human language with statistical",
        "nlp model respond to text or voice data and respond with text",
    ]
    return sentence_list


def main():
    from sklearn.feature_extraction.text import TfidfTransformer
    from sklearn.feature_extraction.text import CountVectorizer

    print("逐个流程梳理：")
    sentence_list = get_text()
    # instantiate CountVectorizer()
    count_vectorizer = CountVectorizer()
    word_count_vector = count_vectorizer.fit_transform(sentence_list)  # 1. 计算词频TF
    tfidf_transformer = TfidfTransformer(smooth_idf=True, use_idf=True)
    tfidf_transformer.fit(word_count_vector)  # 2. 计算 TF-IDF
    # 计算TF-IDF
    tf_idf_vector = tfidf_transformer.transform(word_count_vector)  # 获得全部语料的tf-idf值
    # 开始使用
    print("全部语料：", count_vectorizer.get_feature_names())
    my_sentence = "nlp combines computational linguistics"
    print("转换任意的一个句子：", tfidf_transformer.transform(count_vectorizer.transform([my_sentence])).todense())


def main2():
    print("简写操作：")
    from sklearn.feature_extraction.text import TfidfVectorizer
    sentence_list = get_text()
    tfidf_vectorizer = TfidfVectorizer(use_idf=True)
    tfidf_vectorizer.fit(sentence_list)
    # 使用
    print("全部语料：", tfidf_vectorizer.get_feature_names())
    my_sentence = "nlp combines computational linguistics"
    print("转换任意的一个句子：", tfidf_vectorizer.transform([my_sentence]).todense())


if __name__ == '__main__':
    main()
    main2()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

自然语言处理

python

NLP扎实基础3：TF-IDF文本特征提取的相关文章

从一个数组中删除另一个数组中的元素

假设我有这些二维数组A and B 我怎样才能从中删除元素A那些在B 集合论中的补集 A B A np asarray 1 1 1 1 1 2 1 1 3 1 1 4 B np asarray 0 0 0 1 0 2 1 0 3 1 0 4
在Linux中的端口80上运行flask[重复]

这个问题在这里已经有答案了也许以前有过这个问题的答案所以请重定向我如果是这样的话我正在考虑在端口 80 上运行 Flask 所以我检查了是否有任何东西正在使用端口 80 因为事实证明端口 80 没有运行所以当我输入以下内容时 if
UnicodeDecodeError：“charmap”编解码器无法解码位置 2483 中的字节 0x81：字符映射到 <未定义>

我正在解析 csv 文件但收到以下错误 import os import csv from collections import defaultdict demo data defaultdict list if os path exis
为什么最新的 Python 3.8.x 版本不提供 Windows 安装程序？

我需要在Windows计算机上安装Python 3 8并希望使用最新的小版本3 8 12 https www python org downloads release python 3812 官方发布网页提供了源代码的 tarball 文件
Flask - 如何从 JSON GET 请求获取参数

我有一个发出以下 GET 请求的客户端 api GET tasks 5fe7eabd 842e 40d2 849e 409655e0891d 22task 22 22hello 22 22url 22 22 tasks 5fe7eabd 8
Django 和 AWS 简单电子邮件服务 [重复]

这个问题在这里已经有答案了我正在尝试启动并运行 django 站点并且正在尝试启用 django 的标准密码重置服务我的网站由 AWS EC2 托管因此我想将 AWS SES 用于我的电子邮件服务但是我无法使 smtp 连接正常
为什么 np.linalg.norm(..., axis=1) 比写出向量范数公式慢？

标准化矩阵的行X对于单位长度我通常使用 X np linalg norm X axis 1 keepdims True 在尝试优化算法的此操作时我非常惊讶地发现在我的机器上写出标准化的速度大约快了 40 X np sqrt X 0 2
PRAW 出现 SSLError？

我正在尝试开始使用 PRAW 但在使用 login 时遇到问题我有以下代码 import praw r praw Reddit This is a test bot r login myRedditUsername password 我收
如果工作表不存在，Pandas 将工作表附加到工作簿，否则覆盖工作表

我正在使用 pandas 更新现有的 Excel 工作簿当使用ExcelWriter对象我可以覆盖工作表如果存在否则创建一个新工作表吗我的代码附加了新工作表但是当我尝试覆盖现有工作表时它会附加一个名称略有不同的新工作表例如
如何在Python中重命名virtualenv？

我拼错了名字virtualenv使用以下方法初始化它 virtualenv vnev 我实际上打算创建一个名为的环境venv 尝试重命名后vnev文件夹到venv 我发现这并没有提供太多帮助激活环境的名称仍然重命名旧的vnev mv vn
桨在移动时留下痕迹（Pygame Pong 游戏）[重复]

这个问题在这里已经有答案了我的游戏中的球拍有问题每次我试图移动它时桨都会留下一条痕迹我想这是因为我的代码没有删除旧位置的前一个桨如果是的话怎么删除之前的呢我应该使用blit Code import pygame sys ran
使用 mechanize 和 beautiful soup 在 python 中进行原始 HTML 与 DOM 抓取

我正在尝试编写一个程序作为示例该程序将从该网页上刮掉最高价格 http www kayak com flights JFK PAR 2012 06 01 2012 07 01 1adults http www kayak com fli
Django 单元测试数据库没有被拆除？

我编写了一些单元测试来测试我的 Django 应用程序特别是一个测试套件中包含大量代码setUp 功能所述代码的目的是为数据库创建测试数据是的我了解固定装置并且选择在这种情况下不使用它们当我运行单元测试套件时运行的第一个测试通
如何在Python中比较列表列表中的元素以及比较列表列表中的键？

我有以下顺序 seq ATG ATG ATG ATG GAC GAT GAA CCT GCC GCG GCA GCT 这是一个字典键用于存储每个密码子的氨基酸值三联碱基例如ATG GCT etc aminoacid TTT F TTC
并行磁盘 I/O

我有几个想要阅读的日志文件不失一般性假设日志文件处理如下 def process infilepath answer 0 with open infilepath as infile for line in infile if line
Python 日志记录 - 如何检查记录器是否为空

我刚刚在我的应用程序中实现了日志记录我想知道是否有一种方法可以检查记录器是否为空我的想法是在我的脚本中设置两个处理程序一个用于带水平仪的控制台WARNING 一个用于带级别的文件DEBUG 在脚本的最后我需要检查是否CONSOLE记
pygame.image.load 不工作

我正在尝试为游戏创建世界地图但是当我尝试将世界地图加载到屏幕上时命令行告诉我无法执行此操作这是代码 import sys import pygame from pygame locals import pygame init Surf
在 CSV 文件的最上面一行写入

我有这个sample csv 文件 a 1 apple b 2 banana c 3 cranberry d 4 durian e 5 eggplant 并有以下代码 samplefile open sample csv rb rows s
“gi.repository.Gtk”对象没有属性“gdk”

我正在尝试使用 GTK 创建多线程需要 Gtk gdk 但我收到有关没有 gdk 属性的错误我正在使用带有 Raspbian 的 Raspberry Pi 这就是我导入 GTK 库的方式 try import pygtk pygtk r
从 Python 访问 802.11 无线管理帧

我想从 Linux 上的 Python 嗅探 802 11 管理探测请求帧这可以从 Scapy 中实现如下所示 coding utf 8 from scapy all import def proc p if p haslayer

随机推荐

基于SSM的海外代购系统设计与实现

摘要近年来我国的互联网方面发展十分的迅速短短20年信息时代就已经展现在了我们的面前电商是信息时代中出现的一大产物电商的发展在很大程度上来说的的确确的方便了我们日常的部分的生活购物行为从1997年电商的萌芽开始发展直至今日
类的公有类型（public）和私有类型（private）

数据成员可以为公有函数成员也可以为私有如果数据成员为公有那么在对象的作用域内的任何函数都可以通过对象名使用该数据成员如果函数成员为公有那么该函数成员只能被公有的函数通过对象名调用
python二元函数图像在线绘制_“绘图，让科学生动起来”：Python-matplotlib绘图（多元函数拟合-3D绘图专题）...

作者简介 85后一名分析化学工作者及科学爱好者深爱着北京的老北京人爱好运动科学旅行个人微信公众号科学是什么东东欢迎关注搭建python matplotlib绘图平台的四个要素是什么它们是 python软件主体 pip库管理
ReentrantLock 源码分析

ReentrantLock简单使用demo如下 Lock lock new ReentrantLock lock lock try 业务逻辑 finally lock unlock 注获取的锁代码要放到try块之外防止获得锁代码异常抛
Chrome开发者工具详解

Chrome开发者工具详解 1 Elements Console Sources面板 Chrome开发者工具面板面板上包含了Elements面板 Console面板 Sources面板 Network面板 Timeline面板 Profi
adb MacBook Pro上使用adb命令：Command not found或者每次使用前要source .bash_profile文件

前言 adb MacBook Pro上使用adb命令报错 Command not found 或者每次使用前要source bash profile文件一解决问题1 在根路径配置 bash profile文件如果没有 touch ba
python-面向对象基础-类属性&实例属性-构造&析构

一类的定义 class 类名类体 class Person object pass 二类中成员的定义 class Person object 属性 name tom age 18 height 180 方法 def eat self
C++堆和栈的区别和联系

2017年09月16日 10 39 33 阅读数 1605 参考博客地址 http blog csdn net hairetz article details 4141043 http blog csdn net handsomesunsh
C#学习之ASP.NET概述

ASP NET的应用网络应用程序开发学习ASP NET的优势易学设计人员和后台代码人员专注于自己的工作原因 ASP NET将HTML页面代码和脚本代码分离高效地创建大规模的网络应用程序背景自从互联网的出现各种网络开发技术层
关于ehcache使用rmi方式实现分布式缓存时遇到的问题

业务场景一个架构较老的系统由于在正式环境中需要搭建集群环境目前使用echcache来作为缓存为了减少代码修改使用了RMI方式来实现集群使用了被动发现和注册的方式配置如下
Ansible Lookup

1 文件内容的读取 hosts all vars contents lookup file etc foo txt tasks debug msg the value of foo txt is contents Note 切记读取的是本地
使用gpt绘制奥特曼

public class Ultraman extends JPanel public void paint Graphics g Color silver new Color 192 192 192 画头 g setColor Color
C语言顺序表中删除值为x的元素

要求时间复杂度为O n 空间复杂度为O 1 实现代码如下删除线性表中为x的元素 void deleteX SqList L int x int k 0 for i 0 i
全球及中国工业互联网产业运行态势与布局状况调研报告2022-2028年

全球及中国工业互联网产业运行态势与布局状况调研报告2022 2028年修订日期 2022年4月出版单位鸿晟信合研究院对接人员周文文报告价格纸质版6500元电子版6800元纸质电子版7000元有折扣内容部分有删减了解
1、网络隧道技术

网络隧道技术简介隧道技术 Tunneling 是一类网络协议它是一种数据包封装技术它将原始IP包其报头包含原始发送者和最终目的地封装在另外一个数据包称为封装的IP包的数据净荷中进行传输使用隧道的原因是在不兼容的网络上传输数据
CVE20190708复现

一实验环境基于虚拟机运行 VMware 1 靶机 ip 192 168 8 2 测试机 192 168 8 3 将两个虚拟机设置于同一个网段中 a 在虚拟网络编辑器中将VMnet0采用桥接模式并桥接到网线网上 b 设置win7为动态
动态规划浅析

leetcode53 最大子序和 leetcode62 不同路径 leetcode300 最长递增子序列动态规划要解决的都是一些问题的最优解即从很多解决问题的方案中找到最优的一个当我们在求一个问题最优解的时候如果可以把这个问题分解成
npm install 错误安装 chromedriver 失败的解决办法

npm 安装 chromedriver 失败的解决办法 npm 安装 chromedriver 时偶尔会出错错误提示类似于 npm ERR chromedriver 2 35 0 install node install js 经分析发
cicd 07--构建前后端一体化自动化发布流程

cicd 07 构建前后端一体化自动化发布流程 1 介绍 2 构建过程 2 1 功能说明 2 2 jenkins gitlab 配置 2 3 测试结果 3 注意事项 4 说明 1 介绍 cicd 04 构建自动化发布流程介绍了一种通用的自
NLP扎实基础3：TF-IDF文本特征提取

TF IDF简介 TF IDF使用流程见上图步骤如下根据全部语料每个词对应的TF IDF值每个句子对应全部语料的one hot编码将TF IDF编码作为特征 Python代码流程很简单就不复现了这里有两个使用的方式第一种是

NLP扎实基础3：TF-IDF文本特征提取

TF-IDF简介

TF-IDF使用流程

Python代码

NLP扎实基础3：TF-IDF文本特征提取 的相关文章

随机推荐

热门标签

NLP扎实基础3：TF-IDF文本特征提取的相关文章